La méthode Capture-ReCapture

The Capture-ReCapture method.

Estimation de la taille d’une population sans la compter

Lorsque vous capturez nos individus, veillez à ne pas les blesser, car vous devez les relâcher plus tard. Photo de Anne Nygård sur Unsplash

Dans cet article, je souhaite présenter une méthode statistique pour estimer la taille d’une population sans la compter entièrement, appelée méthode Capture-ReCapture. Issu du domaine de la biologie, cette procédure peut également être appliquée à de nombreux autres domaines et scénarios qui peuvent intéresser les data scientists et les professions connexes.

Je vais d’abord illustrer la procédure sur un exemple biologique avant de parler de son contexte statistique et des propriétés qui permettent son utilisation. Ensuite, je présenterai quelques exemples de différents domaines pour démontrer les capacités de la méthode Capture-ReCapture pour différents scénarios.

Combien d’escargots y a-t-il dans mon jardin ?

Beaucoup de gens n'aiment pas les escargots, mais je les trouve adorables. Comptons-les sans les blesser. Photo de Krzysztof Niewolny sur Unsplash

Disons que je veux savoir combien d’escargots vivent dans mon jardin. Je pourrais essayer de tous les compter, mais comment saurai-je quand j’aurai fini ? Même si je ne trouve plus d’escargots, je ne peux jamais être sûr qu’il n’en reste plus. À la place, il existe une méthode différente que je peux utiliser.

Le premier jour, je consacre une demi-heure à collecter des escargots et à les compter. De plus, je marque chacun d’un point de peinture, avant de les relâcher dans mon jardin. Disons que j’ai collecté 21 escargots. Puis-je déjà donner une estimation du nombre total d’escargots dans mon jardin ? Non, pas encore (mis à part le fait qu’il doit y avoir au moins 21 escargots), mais je n’ai pas fini.

Un jour plus tard, je retourne dans mon jardin et je commence à compter les escargots pendant une demi-heure. Certains des escargots que je trouve ce jour-là ont déjà un point de peinture sur leur coquille, c’est-à-dire que je les ai déjà trouvés hier, tandis que d’autres n’en ont pas (c’est-à-dire que je n’ai pas trouvé cet escargot particulier hier). Disons que je compte 28 escargots ce jour-là, dont 9 sont déjà marqués d’un point de peinture. Maintenant, je peux donner une estimation du nombre total d’escargots. Faisons les calculs.

Le deuxième jour, une proportion de 9/28 des escargots que j’avais déjà trouvés la veille. Ce ratio devrait être égal au ratio des escargots que j’ai trouvés le premier jour sur le nombre total d’escargots, c’est-à-dire 21/N = 9/28, où N est le nombre total d’escargots. Je peux reformuler cela pour obtenir le nombre d’escargots comme N = (21*28)/9 = 65.

Pourquoi ? Le deuxième jour, un certain ratio d’individus (disons p%) a une certaine propriété (à savoir être marqué). Si je tire un échantillon aléatoire de la population, je m’attends à ce que p% de mon échantillon ait également cette propriété. C’est très intuitif : si vous tirez aléatoirement de la population de votre ville, vous vous attendriez également à ce que le ratio des sexes dans votre échantillon reflète le ratio des sexes dans l’ensemble de la population, n’est-ce pas ? Cependant, le deuxième jour, nous connaissons ce ratio p, que nous ne connaissions pas le premier jour (lorsque nous avons peint les escargots le premier jour, nous ne savions pas quelle fraction d’escargots nous avions déjà attrapée), donc le premier jour, nous avons peint p% de tous les escargots. Il est maintenant facile de déduire le nombre total d’escargots : si j’ai peint 21 escargots et que je sais maintenant que cela représente 9/28=32% de la population, il y a environ 65 escargots au total (21 étant environ 32% de 65).

Conditions pour la recapture

Avant d'utiliser la méthode Capture-ReCapture, assurez-vous que les conditions requises sont remplies. Photo de Sung Jin Cho sur Unsplash

En plus de compter le nombre d’escargots dans votre jardin, il existe de nombreux autres scénarios où vous pouvez appliquer la procédure mentionnée ci-dessus. Comme vous pouvez l’imaginer, la distance entre les deux étapes d’échantillonnage ne doit pas nécessairement être d’une journée, et le marquage peut également être effectué d’une manière différente de la marque littérale des individus. Vous pouvez également simplement conserver une liste des individus que vous avez sélectionnés lors du premier tour, tant que vous pouvez facilement déterminer si un individu que vous trouvez lors de la deuxième itération est déjà présent sur la liste. Cependant, pour que la méthode Capture-ReCapture soit applicable, certaines propriétés doivent être remplies, à savoir les suivantes :

  • À chaque point de collecte de données, la population doit être la même. En particulier, cela demande qu’aucun individu ne soit ajouté ou supprimé entre les deux points dans le temps.
  • À chaque point de collecte de données, il faut tirer au hasard et indépendamment de la distribution. C’est-à-dire que chaque individu doit avoir la même probabilité d’être capturé. En particulier, le marquage ou non ne doit pas faire de différence dans la probabilité d’être tiré lors de l’autre occasion.
  • Le nombre d’individus tirés à chaque occasion doit être suffisamment élevé pour créer un chevauchement significatif. Vous pouvez facilement imaginer que l’échantillonnage aléatoire de 100 livres dans votre bibliothèque locale, où le nombre de livres est de plusieurs millions, ne crée aucun chevauchement et donc n’aide pas votre estimation.

Exemples d’utilisation

Spoiler : la médecine est un domaine où les variantes de la méthode Capture-ReCapture sont beaucoup utilisées. Photo de Ksenia Yakovleva sur Unsplash

Maintenant que nous avons compris la méthode Capture-ReCapture, examinons quelques exemples où l’utiliser. Elle est utile chaque fois que nous voulons déterminer la taille d’une population sans pouvoir la compter entièrement. Cependant, différents scénarios peuvent présenter différents pièges liés aux prérequis de la méthode qui doivent être pris en compte.

Compter le nombre d’invités à une fête

Lors de la prochaine fête à laquelle vous participez, vous pouvez prendre cinq minutes pour marquer certains individus (soit en les marquant littéralement, soit en les ajoutant à une liste) et quelques minutes plus tard, vous tirez à nouveau des individus au hasard. Cependant, assurez-vous de tirer réellement au hasard et de manière indépendante. C’est-à-dire que vous devez attraper des personnes de partout et ne pas favoriser celles que vous connaissez ou ne connaissez pas. Assurez-vous également que la distance entre les deux points de collecte de données n’est pas trop grande ; sinon, votre estimation pourrait être biaisée par le fait que des personnes ont quitté la fête entre-temps.

Capture à partir de deux listes indépendantes

Une variante de la méthode Capture-ReCapture n’utilise pas la recapture à un autre moment, mais utilise deux sources de données indépendantes (qui ont été tirées de la même distribution) et leur chevauchement. De cette manière, la méthode est souvent utilisée dans des scénarios médicaux. Prenons un exemple où nous estimons la prévalence d’une maladie.

Disons que j’ai une liste de patients provenant d’un hôpital qui répertorie 142 personnes atteintes d’une certaine maladie, et j’ai une autre liste provenant du Service national de santé qui répertorie 442 personnes atteintes de cette maladie. Supposons que 71 personnes figurent sur les deux listes. Nous pouvons alors utiliser la formule ci-dessus et obtenir notre résultat (142*442)/71 = 884. C’est-à-dire que 884 personnes sont estimées souffrir de la maladie.

Le plus important pour cette variante est que les deux listes soient effectivement indépendantes. C’est-à-dire que la probabilité pour qu’un individu fasse partie d’une liste ne doit pas différer que cet individu fasse partie de l’autre liste ou vice versa.

Estimer le nombre de clients potentiels

Dites que vous avez un site web pour vendre votre nouveau produit époustouflant. Un jour, vous capturez tous les visiteurs de votre site web (par exemple, en suivant leur adresse IP) et vous faites exactement la même chose quelques jours plus tard. Avec le chevauchement entre les deux jours, vous pouvez estimer le nombre de clients potentiels pour votre produit. Cependant, vous devez être conscient que ce scénario peut facilement inclure une violation d’une hypothèse importante, à savoir les tirages indépendants des deux captures. En particulier, on pourrait soutenir que visiter le site web le premier jour peut augmenter la probabilité de revisiter le site web.

Résumé

Nous avons maintenant vu quelques exemples de la méthode Capture-ReCapture, qui nous permet d’estimer la taille d’une population sans la compter entièrement. Au lieu de compter chaque individu de la population, la méthode demande de réaliser deux échantillons indépendants de la population (soit à des moments différents, soit à partir de sources différentes) et d’utiliser leur chevauchement pour estimer la taille de la population. Cela peut être utilisé dans une variété de domaines, chaque fois qu’une observation complète de la population n’est pas réalisable.

Lecture complémentaire

L’exemple du décompte des escargots dans le jardin que j’ai adapté provient du livre suivant :

  • Kit Yates (2019). The Math of Life and Death. Why Math Is (Almost) Everything. Quercus Editions Ltd, Londres.

Un aperçu de la méthode Capture-ReCapture utilisée dans les domaines médicaux peut être trouvé ici :

  • Ramos, P. L., Sousa, I., Santana, R., Morgan, W. H., Gordon, K., Crewe, J., … & Macedo, A. F. (2020). A review of capture-recapture methods and its possibilities in ophthalmology and vision sciences. Ophthalmic Epidemiology, 27(4), 310–324.

Vous aimez cet article ? Suivez-moi pour être informé de mes prochains articles.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more