4 Idées Statistiques Importantes que Vous Devriez Comprendre dans un Monde Axé sur les Données

'4 Idées Statistiques Importantes dans un Monde Axé sur les Données'

Vous n’avez pas besoin d’être un expert en statistiques pour naviguer dans le monde moderne, mais voici quelques idées de base que vous devriez comprendre.

Photo par Anne Nygård sur Unsplash

Il est inutile d’éviter la réalité. La science des données, et plus largement, les structures basées sur les données, sont au centre de la société que nous construisons actuellement.

Lorsque la folie de l’informatique a d’abord commencé dans les années 2000, beaucoup ont noté que l’informatique deviendrait une partie intégrante de tous les domaines. Cela s’est avéré vrai. Les entreprises de tous les secteurs – santé, ingénierie, finance, etc. – ont commencé à embaucher des ingénieurs logiciels pour différentes tâches. Les étudiants de ces domaines ont commencé à apprendre à coder.

Je soutiendrais que la nouvelle vague de la science des données pousse cela un peu plus loin. Avec l’informatique, on pouvait s’en sortir en embauchant simplement des ingénieurs logiciels. Un gestionnaire d’entreprise ou un expert en vente n’avait pas nécessairement besoin de comprendre ce que faisaient ces personnes.

Mais la science des données est plus vaste et plus englobante. Étant donné qu’il s’agit d’un mélange de domaines [1], ses idées sont pertinentes même pour ceux qui ne sont pas des scientifiques des données au quotidien.

Dans cet article, je donnerai un aperçu général de quatre idées statistiques importantes que tout le monde devrait comprendre, indépendamment de son titre professionnel officiel. Que vous soyez chef de projet, recruteur ou même PDG, une certaine familiarité avec ces concepts vous aidera certainement dans votre travail. De plus, en dehors du contexte professionnel, la familiarité avec ces concepts vous donnera une compréhension de la littératie des données qui est indispensable pour naviguer dans la société moderne.

Allons-y.

Juste un grand, mauvais échantillon

Lorsque j’étais étudiant de premier cycle, le premier cours de science des données que j’ai suivi comptait un nombre immense d’étudiants – près de 2000. Le cours, Fondements de la science des données, était l’un des plus populaires sur le campus, car il était conçu pour être accessible aux étudiants de tous les départements. Au lieu de se plonger immédiatement dans les mathématiques avancées et la programmation, il se concentrait sur des idées de haut niveau qui pouvaient avoir un impact sur les étudiants de tous les domaines.

Lors d’une de nos premières conférences, le professeur a fait une déclaration qui m’est restée à l’esprit au fil des ans, revenant à chaque fois que je travaille sur quelque chose ayant même un rapport lointain avec les données. Elle discutait de l’échantillonnage aléatoire, un terme large qui concerne le choix d’un sous-ensemble d’une population d’étude de manière à représenter l’ensemble de la population. L’idée est que l’étude du sous-ensemble devrait permettre de tirer des conclusions sur l’ensemble de la population.

Elle a souligné que disposer d’un bon échantillon était d’une importance capitale, car aucune quantité de manipulation mathématique et de techniques sophistiquées ne pouvait compenser un sous-ensemble qui ne représente pas réellement la population que l’on souhaite émuler. Pour étayer ce point, elle a mentionné que beaucoup de gens supposent que si un échantillon de départ est mauvais, alors une solution raisonnable est de continuer avec la même approche, mais de collecter un échantillon plus grand.

“Alors, vous aurez simplement un échantillon très grand, très mauvais,” a-t-elle dit à l’amphithéâtre géant rempli d’étudiants universitaires.

Comprendre ce point fondamental – et ses implications plus larges – vous permettra de comprendre de nombreux phénomènes sociopolitiques que les gens tiennent pour acquis. Pourquoi les sondages présidentiels sont-ils souvent inexacts ? Qu’est-ce qui fait qu’un modèle d’apprentissage automatique apparemment puissant échoue dans le monde réel ? Pourquoi certaines entreprises fabriquent-elles des produits qui ne voient jamais le jour ?

La réponse se trouve souvent dans l’échantillon.

“Erreur” ne signifie pas “erreur”

Ce sujet est implicite dans la plupart des cours liés aux données ou aux statistiques, mais ma discussion ici est inspirée par l’insistance d’Alberto Cairo sur ce point dans son excellent livre, “How Charts Lie”.

Le principe du livre de Cairo est de souligner les différentes façons dont les visualisations de données peuvent être utilisées pour tromper les gens, à la fois involontairement et malicieusement. Dans un chapitre, Cairo développe les défis de la visualisation de l’incertitude dans les données, et comment cela peut en soi conduire à des visualisations de données trompeuses.

Il commence par une discussion sur l’idée d’erreur en statistiques. Il souligne un point crucial : alors que dans l’anglais standard, le terme “erreur” est synonyme de “erreur”, ce n’est pas du tout le cas dans le domaine des statistiques.

Le concept d’erreur statistique concerne l’incertitude. Il y aura presque toujours une certaine forme d’erreur dans les mesures et les modèles. Cela est lié au point précédent sur les échantillons. Parce que vous n’avez pas chaque point de données pour une population que vous souhaitez décrire, vous ferez face, par définition, à l’incertitude. Cela est encore accentué si vous faites des prédictions sur des points de données futurs, car ils n’existent pas encore.

Minimiser et traiter l’incertitude est une partie essentielle des statistiques et de la science des données, mais cela dépasse largement le cadre de cet article. Ici, le point principal que vous devriez intégrer est que le fait qu’une découverte statistique vous soit présentée avec une mesure d’incertitude ne signifie pas qu’elle est erronée. En fait, il est probable que cela indique que celui qui a produit les résultats savait ce qu’il faisait (vous devriez être sceptique face aux affirmations statistiques faites sans aucune référence au niveau d’incertitude).

Apprenez la bonne façon d’interpréter l’incertitude dans les affirmations statistiques [2], plutôt que de les rejeter comme incorrectes. C’est une distinction essentielle.

Vous ne pouvez pas toujours simplement “créer un modèle pour cela”

Parmi la population générale, il semble y avoir cette idée selon laquelle l’intelligence artificielle est une sorte d’outil magique qui peut tout accomplir. Avec l’avènement des voitures autonomes et des assistants virtuels réalistes mais aucune accélération similaire dans la littératie générale des données, il n’est pas surprenant que cette mentalité se soit développée.

Malheureusement, cela ne pourrait pas être plus éloigné de la vérité. L’IA n’est pas magique. Elle dépend fortement de bonnes données et ses résultats peuvent même être assez trompeurs si les données sous-jacentes sont de mauvaise qualité.

J’ai déjà eu un collègue à qui on a confié un projet dans lequel sa tâche était de construire un modèle d’apprentissage automatique pour un objectif spécifique. Il devait classer les événements futurs dans certaines catégories en se basant sur des données historiques.

Il y avait juste un problème : elle n’avait aucune donnée. D’autres membres du projet (qui, notons-le, n’étaient pas familiers avec la science des données) insistaient pour qu’elle crée simplement le modèle même si elle n’avait pas les données, car l’apprentissage automatique est très puissant et cela devrait être faisable. Ils ne comprenaient pas que leur demande tout simplement n’était pas réalisable.

Oui, l’apprentissage automatique est puissant et oui, nous devenons de plus en plus performants dans l’accomplissement de tâches plus intéressantes et meilleures. Cependant, pour l’instant, ce n’est pas une solution magique pour tout. Vous feriez bien de vous en souvenir.

Les chiffres mentent

Les gens utilisent l’expression “les chiffres ne mentent pas” comme s’il s’agissait de confettis.

Oh, si seulement ils savaient. Les chiffres mentent en réalité. Beaucoup. Dans certains contextes, même plus souvent qu’ils ne disent la vérité. Mais ils ne mentent pas parce qu’ils sont réellement faux en forme brute ; ils mentent parce que la personne moyenne ne sait pas comment les interpréter.

Il existe d’innombrables exemples de la manière dont les chiffres peuvent être déformés, manipulés, changés et transformés afin de soutenir l’argument que l’on souhaite faire. Pour souligner ce point, je vais vous donner un exemple de la manière dont cela peut être fait : ne pas tenir compte des distributions de population sous-jacentes lors de l’émission d’affirmations générales.

C’est un peu vague par lui-même, donc regardons un exemple. Considérez le scénario suivant, souvent présenté aux étudiants en médecine :

Supposons qu’une certaine maladie affecte 1 personne sur 1000 dans une population. Il existe un test pour vérifier si une personne a cette maladie. Le test ne produit pas de faux négatifs (c’est-à-dire que toute personne ayant la maladie sera testée positive), mais le taux de faux positifs est de 5% (il y a 5% de chances qu’une personne soit testée positive même si elle n’a pas la maladie). Supposons qu’une personne choisie au hasard dans la population passe le test et teste positif. Quelle est la probabilité qu’elle ait réellement la maladie ?

À première vue, une réponse raisonnable, donnée par de nombreuses personnes, est de 95%. Certains pourraient même aller jusqu’à soupçonner qu’il n’est pas tout à fait mathématiquement précis d’utiliser simplement le taux de faux positifs pour faire cette détermination, mais ils devineraient probablement que la réponse est proche.

Malheureusement, la réponse correcte n’est pas de 95%, ni même proche de cette valeur. La probabilité réelle que cette personne choisie au hasard ait la maladie est d’environ 2%.

La raison pour laquelle la plupart des gens sont si loin de la bonne réponse est qu’ils font attention au faible taux de faux positifs, mais ils ne tiennent pas compte de la prévalence sous-jacente de la maladie au sein de la population : seules 1 personne sur 1000 (soit 0,1%) de la population a réellement cette maladie. Par conséquent, ce taux de faux positifs de 5% a en réalité un impact sur de nombreuses personnes car si peu d’entre elles ont réellement la maladie au départ. En d’autres termes, il y a de nombreuses opportunités d’être un faux positif.

Les mathématiques formelles derrière tout cela dépassent le cadre de cet article en particulier, mais vous pouvez trouver une explication détaillée ici si cela vous intéresse [3]. Cela dit, vous n’avez pas vraiment besoin de plonger dans les mathématiques pour saisir le point principal: On pourrait imaginer utiliser le scénario ci-dessus pour effrayer une personne en lui faisant croire qu’elle court beaucoup plus de risques de contracter une maladie qu’elle ne le fait en réalité. Les chiffres seuls peuvent souvent être déformés et/ou mal interprétés pour promouvoir de fausses croyances.

Soyez vigilant.

Pensées finales et récapitulatif

Voici un petit aide-mémoire des points importants à retenir de cet article:

  1. Un grand échantillon ≠ Un bon échantillon. Il faut plus que de la quantité pour assurer une représentation précise d’une population.
  2. En statistique, “erreur” ne signifie pas “erreur”. Cela concerne l’incertitude, qui est un élément inévitable du travail statistique.
  3. L’apprentissage automatique et l’intelligence artificielle ne sont pas magiques. Ils reposent fortement sur la qualité des données sous-jacentes.
  4. Les chiffres peuvent être trompeurs. Lorsque quelqu’un avance une affirmation statistique, surtout dans un contexte non académique (lisez: dans les médias), examinez-la attentivement avant d’accepter les conclusions.

Vous n’avez pas besoin d’être un expert en statistique pour naviguer dans ce monde axé sur les données, mais il serait bon pour vous de comprendre certaines idées fondamentales et de connaître les pièges à éviter. J’espère que cet article vous a aidé à franchir cette première étape.

À la prochaine.

Références

[1] https://towardsdatascience.com/the-three-building-blocks-of-data-science-2923dc8c2d78 [2] https://bookdown.org/jgscott/DSGI/statistical-uncertainty.html [3] https://courses.lumenlearning.com/waymakermath4libarts/chapter/bayes-theorem/

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Visualiser le flux commercial dans les cartes Python - Partie I Cartes de flux commercial bi-directionnel

L'échange de biens et de services contre leur valeur correspondante est une partie complexe de notre vie quotidienne....

Science des données

Créer un avantage informationnel avec un accès conversationnel aux données

À mesure que notre monde devient de plus en plus global et dynamique, les entreprises dépendent de plus en plus des d...

AI

« Guide approfondi pour créer et publier un package de données R en utilisant Devtools »

Quand j'ai été invité(e) à prendre la parole lors de la conférence Posit 2023 pour présenter sur l'art de raconter de...

AI

Analyse d'images (bio)médicales avec Python Lire et charger des images microscopiques à l'aide de Matplotlib

Au cours des deux dernières décennies, le domaine de la microscopie optique a connu des avancées remarquables grâce à...

AI

Démystifier l'apprentissage profond une introduction aux réseaux neuronaux pour les étudiants

L'apprentissage profond a rapidement évolué comme l'une des technologies les plus influentes de l'ère moderne. Ses ap...

AI

Visualisations des embeddings

J'ai soumis mon premier article sur l'IA en 1990 à une petite conférence locale - la Midwest Artificial Intelligence ...