Que fait exactement un scientifique des données ?

What exactly does a data scientist do?

Mes réflexions honnêtes après avoir travaillé dans 3 équipes différentes de Data Science (indice : il y a beaucoup plus de PowerPoint que ce que vous pensez)

Image de Hermansyah sur Unsplash

Les scientifiques de données ont été appelés de nombreuses choses :

  • “Un scientifique de données est un statisticien qui vit à San Francisco”
  • “Des modélisateurs professionnels, mais pas comme ça”
  • “Je suis payé pour rechercher sur Google Stack Overflow”
  • “Je vends de la magie aux cadres”

Ou, ma préférée :

  • “La science des données, c’est les statistiques sur un Mac”

Comme le montre ce smörgasbord de descriptions de travail, il peut être très difficile d’avoir une image claire de ce que fait réellement un scientifique de données au jour le jour. Beaucoup des articles existants là-bas – bien qu’excellents – datent de 2012-2020, et dans un domaine qui évolue aussi rapidement que la science des données, ils peuvent rapidement devenir obsolètes.

Dans cet article, mon objectif est de lever le voile proverbial et de donner un aperçu personnel de la vie en tant que scientifique de données en 2023.

En m’appuyant sur mes expériences de travail dans 3 équipes de science des données différentes, j’essaierai d’aider trois types de personnes :

  1. Aspirants scientifiques de données : Je donnerai un aperçu réaliste de ce que le travail implique, afin que vous puissiez prendre une décision plus éclairée sur ce que vous voulez faire et sur quelles compétences travailler
  2. Scientifiques de données : Susciter de nouvelles idées pour des choses à essayer dans votre équipe et/ou vous donner un moyen de répondre à la question “Alors, qu’est-ce que vous faites réellement ?”
  3. Les personnes qui travaillent avec (ou qui veulent embaucher) des scientifiques de données : Apprenez à connaître ce que nous faisons réellement (et, peut-être plus important encore, ce que nous ne faisons pas)

Ce n’est pas que des voitures autonomes, ChatGPT et Deep Learning

Le responsable de l’IA d’une grande entreprise de technologie m’a un jour dit que la plus grande idée fausse qu’il rencontre à propos des scientifiques de données est que nous construisons toujours des modèles d’apprentissage en profondeur et faisons des “trucs d’IA fantaisistes”.

Maintenant, ne vous méprenez pas – la science des données peut devenir très fantaisiste en effet, mais elle englobe beaucoup plus que l’intelligence artificielle et ses cas d’utilisation flashy. Assimiler la science des données à l’IA, c’est un peu comme supposer que les avocats passent toutes leurs journées à crier “Je m’oppose !” au tribunal ; il y a beaucoup plus qui se passe en coulisses.

Il y a plus que des “trucs d’IA fantaisistes”

Une de mes descriptions préférées de la science des données vient de Jacqueline Nolis, une scientifique de données principale basée à Seattle. Nolis divise la science des données en trois courants :

  1. Business Intelligence – “prendre les données que l’entreprise possède et les mettre devant les bonnes personnes”
  2. Decision Science – “prendre des données et les utiliser pour aider une entreprise à prendre une décision”
  3. Apprentissage machine – qu’elle décrit comme “prendre des modèles de science des données et les mettre en production en continu”, bien que je prendrais probablement une vue plus large et inclurais le développement réel de modèles d’apprentissage machine.

Différentes entreprises mettront l’accent sur différents courants, et même au sein de ceux-ci, les méthodes et les objectifs varieront. Par exemple :

  • Si vous êtes un scientifique de données travaillant dans Decision Science, vos tâches quotidiennes pourraient inclure tout, de l’exécution de tests A/B à la résolution de problèmes de programmation linéaire.
  • Si vous êtes un scientifique de données qui passe la plupart de son temps à construire des modèles d’apprentissage machine, ceux-ci pourraient être axés sur le produit (par exemple, la construction d’un algorithme de recommandation qui sera incorporé dans une application) ou sur les opérations commerciales (par exemple, la construction d’un modèle de tarification ou de prévision, utilisé pour améliorer les opérations commerciales en arrière-plan de l’entreprise).

Personnellement, l’une des choses que je trouve les plus agréables dans la science des données est de pouvoir tremper mes orteils dans les trois de ces domaines, et donc dans les rôles de science des données que j’ai occupés, j’ai toujours essayé de m’assurer qu’il y a beaucoup de variété. C’est une bonne façon d’essayer de construire l’état d’esprit “touche-à-tout, maître de l’un” que j’ai précédemment préconisé comme un moyen de structurer votre carrière en tant que scientifique de données.

Il y a beaucoup plus de PowerPoint que vous ne le pensez (ou ne le voulez)

Image de Teemu Paananen sur Unsplash

Ah, PowerPoint. Si vous pensiez que les scientifiques des données étaient épargnés, vous vous trompiez.

La création et la présentation de diapositives font partie intégrante de tout rôle de scientifique des données, car vos modèles ne vont nulle part si vous ne pouvez pas communiquer leur valeur. Comme le dit Andrew Young :

Au fil des ans, j’ai vu de nombreux scientifiques des données titulaires d’un doctorat passer des semaines ou des mois à construire des pipelines d’apprentissage automatique très efficaces qui (théoriquement) apporteront une valeur réelle dans le monde réel. Malheureusement, ces fruits du travail peuvent mourir dans l’œuf s’ils ne parviennent pas à communiquer efficacement la valeur de leur travail.

Dans mon équipe, nous mettons beaucoup l’accent sur la communication avec les parties prenantes et PowerPoint a tendance à figurer assez souvent dans nos tâches quotidiennes.

Pour chaque projet, nous créons un ensemble de diapositives maître que différents membres de l’équipe peuvent ajouter, puis nous sélectionnons les diapositives pertinentes de cet ensemble chaque fois qu’il est temps de les présenter aux parties prenantes. Au besoin, nous essayons de créer plusieurs versions des diapositives clés afin de pouvoir adapter nos messages à différents publics, qui ont différents niveaux d’expertise technique.

Honnêtement, si je suis honnête, je n’ai rien contre passer du temps dans PowerPoint (ne me boycottez pas, s’il vous plaît), car je trouve que faire des diapositives est un excellent moyen de distiller vos idées clés. Honnêtement, cela m’aide à me rappeler des questions d’ensemble telles que : (1) quel problème résous-je, (2) comment ma solution se compare-t-elle à la solution de référence, et (3) quels sont les dépendances et les échéances.

Des données propres ? Tiens ma bière

Il est couramment dit que les sciences des données sont constituées de 80% de préparation de données…

… et de 20% de se plaindre de la préparation des données.

Et je ne parle pas seulement des entreprises où les sciences des données sont la “nouvelle chose”.

Même dans les entreprises établies avec des ensembles de données établis, la préparation et la validation des données peuvent prendre un temps considérable. Au minimum, vous constaterez probablement que les ensembles de données sont (1) stockés sur différentes plates-formes, (2) publiés à des cadences différentes, ou (3) nécessitant des manipulations substantielles pour les mettre dans le bon format. Même une fois que vos modèles sont en production, vous devez continuellement vérifier que vos ensembles de données ne dérivent pas, ne se cassent pas ou ne manquent pas d’informations.

Et ne me lancez même pas sur les données d’entrée utilisateur.

Dans l’un de mes anciens emplois, nous avions un formulaire en ligne où les utilisateurs devaient saisir leur adresse, et nos utilisateurs ont utilisé 95 façons différentes d’écrire “Barcelone” : je parle de tout, depuis “barcalona” jusqu’à “BARÇA” et “Barna”.

95 façons différentes d’écrire “Barcelone”

La morale de l’histoire : n’ayez pas de champs de texte libre à moins que vous ne vouliez passer les prochaines semaines à pleurer sur la documentation regex.

Vous apprenez toujours

Image de Christina @ wocintechchat.com sur Unsplash

Une des choses que j’aime le plus dans les sciences des données, c’est le fait que cela implique un apprentissage continu.

Pour moi, j’ai toujours redouté l’idée de rester bloqué dans un emploi où je fais juste les mêmes choses tout le temps, et je suis reconnaissant de dire que les sciences des données ne sont pas l’une de ces carrières. En tant que scientifique des données, vous découvrirez qu’il n’y a pas de projet “standard”. Tous nécessitent une approche légèrement personnalisée, vous devrez donc toujours adapter vos connaissances existantes et apprendre de nouvelles choses.

Et je ne parle pas seulement d’apprentissage “formel” comme assister à des conférences ou suivre des cours en ligne.

Plus probablement, vous passerez une quantité substantielle de vos journées à faire de “micro-apprentissage” en lisant la documentation de codage, les articles Towards Data Science et les réponses de Stack Overflow. Si vous êtes intéressé par la façon dont j’aborde la tâche d’apprentissage continu et de rester à jour, vous pourriez être intéressé de lire l’un de mes articles récents où je parle de cela un peu plus en profondeur :

Non, je ne demande pas simplement à ChatGPT de me dire

towardsdatascience.com

C’est un sport d’équipe

Image de Marvin Meyer sur Unsplash

Les Data Scientists n’existent pas dans une bulle.

Nous sommes intégrés dans des équipes et pour travailler efficacement, vous devez être en mesure de travailler ensemble. J’aime beaucoup la façon dont Megan Lieu le décrit:

La plus grande déception que j’ai eue lorsque je suis finalement devenue Data Scientist était d’apprendre que ce n’est pas juste du travail en mode tête baissée toute la journée.

“Je suis impatient de ne pas parler à qui que ce soit, de construire des modèles et de faire des choses techniques de Data Science tout seul tout le temps!”

À ma grande horreur introvertie, j’ai réalisé que je devais non seulement collaborer avec, mais aussi parler aux parties prenantes commerciales et externes tous les jours.

Alors que je suis un peu moins catégorique que Megan (je suis plus extraverti par nature), j’ai aussi été initialement surpris par le côté travail d’équipe que le rôle peut souvent avoir. Dans mon rôle, “collaboration” signifie des choses comme : avoir des points de rencontre quotidiens pour discuter des tâches et des blocages, faire régulièrement des sessions de programmation en binôme pour déboguer et optimiser le code, et avoir des discussions bien équilibrées (lire: des arguments) sur les mérites de différentes approches techniques.

Dans l’ensemble, je pense que je passe environ 50 à 70 % de mon temps à travailler seul et le reste du temps à travailler en binôme ou en groupe, bien que le ratio exact dépendra beaucoup de votre entreprise et de votre niveau de séniorité.

Et voilà !

Merci d’avoir lu cette petite incursion dans ma vie de Data Scientist.

J’espère que vous l’avez trouvé utile et n’hésitez pas à me contacter si vous voulez discuter 🙂

Une dernière chose – pourriez-vous faire partie de mon 1% ?

Moins de 1% de mes lecteurs sur IPGirl cliquent sur mon bouton “Suivre”, donc cela signifie vraiment beaucoup lorsque vous le faites, que ce soit ici sur IPGirl, Twitter ou LinkedIn.

Si vous souhaitez avoir un accès illimité à toutes mes histoires (et au reste de IPGirl.com), vous pouvez vous inscrire via mon lien de référence pour 5 $ par mois. Cela n’ajoute aucun coût supplémentaire pour vous par rapport à l’inscription via la page d’inscription générale et aide à soutenir mon écriture car je reçois une petite commission.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Analyse de la complexité des séries temporelles à l'aide de l'entropie

Tout data scientist le sait la première étape pour résoudre un problème d'apprentissage automatique est l'exploratio...

Science des données

META's Hiera réduire la complexité pour augmenter la précision.

Les réseaux convolutifs ont dominé le domaine de la vision par ordinateur pendant plus de vingt ans. Avec l'arrivée d...

AI

Régression et méthodes bayésiennes dans l'élicitation moderne des préférences

La régression linéaire est souvent considérée comme le cheval de bataille de la modélisation prédictive, mais son app...

Science des données

5 façons faciles et efficaces d'utiliser Python Logging

Je peux parier que presque tous les développeurs Python utilisent parfois print pour le débogage. Il n'y a rien de ma...

AI

Le diable se cache dans les détails Devenez un champion de Power BI en sortant des sentiers battus

Il y a quelques semaines, je travaillais sur l'optimisation des performances du rapport Power BI pour l'un de mes cli...

AI

Application et utilisation de la distribution normale pour la science des données.

Une chose qui peut être extrêmement difficile lorsque l'on commence avec la Science des Données est de déterminer exa...