Détection de la croissance du cancer à l’aide de l’IA et de la vision par ordinateur

Detection of cancer growth using AI and computer vision.

IA pour le bien social : applications en imagerie médicale

Image de couverture provenant de unsplash.com

Introduction

Le cancer du sein est l’une des formes de cancer les plus mortelles chez les femmes. Selon l’Organisation mondiale de la santé (OMS), en 2020 seulement, environ 2,3 millions de nouveaux cas de cancer invasif du sein ont été diagnostiqués dans le monde, ce qui a entraîné 685 000 décès.

Même si les pays en développement représentent la moitié de tous les cas de cancer du sein, ils représentent 62 % de tous les décès causés par le cancer du sein. La survie du cancer du sein pendant au moins 5 ans après le diagnostic varie de plus de 90 % dans les pays à revenu élevé à 66 % en Inde et 40 % en Afrique du Sud.

Figure 1 : Différentes étapes de la détection des métastases du cancer du sein telles que réalisées par les pathologistes | En haut à gauche : image du défi Camelyon17 | En haut à droite : image de unsplash.com | Au centre : image de unsplash.com | En bas à gauche et en bas à droite : images de l'auteur

Une étape clé pour déterminer le stade du cancer consiste en l’examen microscopique des ganglions lymphatiques adjacents au sein pour comprendre si le cancer s’est métastasé (un terme médical signifiant qu’il s’est propagé à d’autres sites dans le corps). Cette étape est non seulement sensible, mais également chronophage et laborieuse, et nécessite des pathologistes médicaux hautement qualifiés. Elle a un impact sur les décisions liées au traitement, qui incluent des considérations concernant la radiothérapie, la chimiothérapie et l’éventuelle ablation chirurgicale de plus de ganglions lymphatiques.

Avec l’avènement et l’avancement de l’IA et des techniques de vision par ordinateur, en particulier des réseaux neuronaux convolutionnels (CNN), nous avons été en mesure d’améliorer la précision sur un large éventail de tâches de vision par ordinateur telles que la reconnaissance d’images, la détection d’objets et la segmentation. Cela a été bénéfique pour résoudre certains des problèmes de santé les plus difficiles, en particulier dans les régions ayant un accès limité aux installations médicales avancées.

En nous appuyant sur cela, dans cet article, je présenterai un cadre exploitant des CNN de pointe et des technologies de vision par ordinateur pour aider à la détection des métastases dans les ganglions lymphatiques. Une solution réussie présente de grandes promesses pour réduire la charge de travail des pathologies, tout en réduisant en même temps la subjectivité du diagnostic.

Méthodologie et approche

Étant donné une image entière de coupe de ganglion lymphatique, notre objectif est de générer un masque indiquant les zones potentiellement cancéreuses (cellules avec des tumeurs) dans la section. Un exemple est représenté dans la figure 2, qui montre une image d’un tissu sur la lame aux côtés d’un masque où la région jaune représente les zones cancéreuses dans le tissu.

Figure 2 : Gauche : une image WSI de l'ensemble de données | Droite : masque binaire avec des régions jaunes indiquant des régions cancéreuses — Images de l'auteur

La segmentation d’image est l’une des tâches classiques de vision par ordinateur, où l’objectif est de former un réseau neuronal pour produire un masque pixel par pixel de l’image (quelque chose de similaire au masque de la figure 2). Il existe plusieurs techniques d’apprentissage en profondeur disponibles pour la segmentation d’image, qui sont décrites en détail dans cet article. TensorFlow de Google dispose également d’un excellent tutoriel qui utilise une approche encodeur-décodeur pour la segmentation d’image.

Au lieu d’utiliser un encodeur-décodeur, qui est couramment utilisé dans les problèmes de segmentation d’image, nous traiterons cela comme un problème de classification binaire où chaque région définie individuellement sur la lame est classée comme saine ou tumorale à l’aide d’un réseau neuronal. Ces régions individuelles d’une image entière peuvent être assemblées pour former le masque souhaité.

Nous utiliserons le processus standard de ML pour la construction du modèle CV : Collecte de données → Prétraitement → Séparation entraînement-test → Sélection du modèle → Ajustement fin et entraînement → Évaluation

Collecte de données et prétraitement

Le jeu de données provient du défi CAMELYON16 qui, selon le site web du défi, contient un total de 400 images entières de ganglions lymphatiques sentinelles collectées au Centre médical universitaire Radboud (Nijmegen, Pays-Bas) et au Centre médical universitaire d’Utrecht (Utrecht, Pays-Bas)“.

Les images entières sont stockées dans une structure pyramidale multi-résolution et chaque fichier d’image contient plusieurs versions réduites de l’image originale. Chaque image de la pyramide est stockée sous forme de tuiles pour faciliter la récupération rapide de sous-régions de l’image (voir la figure 3 pour une illustration).

Plus d’informations sur l’imagerie de lame entière peuvent être trouvées ici.

La vérité terrain pour les images est fournie sous forme de masques binaires WSI indiquant les régions dans les images qui contiennent des cellules tumorales (voir la figure 2 ci-dessus à titre d’exemple).

Figure 3: Illustration des différents niveaux de grossissement dans les images entières (WSI). Image provenant de https://camelyon16.grand-challenge.org/Data/

Les WSI de notre jeu de données ont 8 niveaux de zoom qui nous permettent de zoomer les images de 1x jusqu’à 40x. Le niveau 0 est considéré comme la plus haute résolution (40x) et le niveau 7 est le plus bas (1x).

En raison de leur taille énorme (chaque WSI dans notre jeu de données dépasse largement les 2 Go), les outils d’image standard sont incapables de les lire et de les compresser dans la RAM du système. Nous avons utilisé l’implémentation de la bibliothèque OpenSlide en Python pour lire efficacement les images de notre jeu de données et fournir également une interface pour naviguer à travers différents niveaux de zoom.

Figure 4- Images de l'auteur

L’entraînement d’un CNN sur un ensemble de données entier de 400 WSI est très coûteux en termes de calculs (imaginez l’entraînement sur un ensemble de données de 2 x 400 = 800 Go). Nous avions accès à la couche gratuite de Google Collab qui dispose d’un support limité de GPU disponible. Par conséquent, nous avons échantillonné aléatoirement 22 WSI à partir du jeu de données. Au début, un ensemble de 22 images pourrait sembler être un petit ensemble de données pour entraîner avec précision un réseau neuronal convolutionnel, mais comme je l’ai mentionné précédemment, nous extrayons de petits patchs de chacun de ces énormes WSI et traitons chaque patch comme une image indépendante qui peut être utilisée pour entraîner notre modèle, comme le montre la figure 5.

Figure 5: Chaque WSI est ensuite découpé en plusieurs patchs plus petits pour augmenter l'ensemble de données - Images de l'auteur

Au niveau de zoom le plus élevé (niveau 0 = zoom 40x), chaque image mesure environ 62000 x 54000 pixels – l’extraction de patchs de taille 299 x 299 nous donnerait environ 35 000 images individuelles à partir de chaque WSI. Nous avons extrait des patchs de chaque niveau de zoom. À mesure que le niveau de zoom augmente, la résolution diminue et le nombre de patchs que nous pouvons extraire du WSI diminue également. Au niveau 7, nous pouvons extraire moins de 200 patchs par image.

En outre, chaque WSI contient beaucoup de zones vides où les cellules tissulaires n’étaient pas présentes. Pour maintenir la cohérence des données, nous avons évité les patchs qui contenaient moins de 30 % de cellules tissulaires, ce qui a été calculé de manière programmatique en utilisant l’intensité de la zone grise.

Le jeu de données a été équilibré pour avoir approximativement le même nombre de patchs contenant des cellules saines et tumorales. Une division train-test de 80-20 a été effectuée sur cet ensemble de données final.

Entraînement du modèle

Nous avons construit plusieurs modèles CNN qui ont été entraînés sur les patchs d’images générés à l’aide du mécanisme décrit dans la section précédente.

Fonction Objectif

Nos objectifs d’optimisation primaires étaient la sensibilité et le rappel, mais nous avons également surveillé de près l’aire sous la courbe (AUC) de la caractéristique de fonctionnement du récepteur (ROC) pour nous assurer que nous ne produisions pas un nombre excessif de faux positifs.

Dans le contexte de la détection du cancer, il est crucial de minimiser le nombre de faux négatifs, c’est-à-dire les cas où le modèle classe incorrectement un échantillon cancéreux comme non cancéreux. Un nombre élevé de faux négatifs pourrait retarder le diagnostic et le traitement des patients qui ont réellement un cancer. La sensibilité (ou le rappel) mesure la proportion de vrais positifs qui sont correctement identifiés, et en optimisant pour un rappel élevé, nous visons à identifier correctement autant de cas positifs réels que possible.

Cependant, se concentrer uniquement sur la sensibilité pourrait amener le modèle à prédire la plupart des échantillons comme positifs, augmentant ainsi le nombre de faux positifs (cas où un échantillon non cancéreux est classé comme cancéreux). C’est indésirable car cela pourrait entraîner des interventions médicales inutiles et causer une anxiété indue pour les patients. C’est là que la surveillance de l’AUC-ROC devient extrêmement importante.

Construction du Modèle

Nous avons commencé par construire une base de référence qui était une architecture très simple composée de 2 couches de convolution avec un pooling maximal et une suppression pour la régularisation. Pour améliorer cette base, nous avons affiné des modèles de reconnaissance d’images de pointe tels que VGG16 et Inception v3 sur notre ensemble de données.

Comme nous avions des images disponibles à différents niveaux de zoom, nous avons entraîné plusieurs modèles, chacun d’entre eux consommant des images d’un niveau de zoom pour voir si la visualisation des images à un niveau de zoom particulier améliore les performances du réseau. En raison d’un nombre limité de patchs extraits disponibles à des niveaux de zoom inférieurs – 3,4,5 images à ces niveaux de zoom ont été combinées en un ensemble d’entraînement unique. Des modèles distincts ont été construits pour les images aux niveaux de zoom 0, 1 et 2.

Figure 6: Modèle Inception v3 standard auquel a été ajoutée une couche Global Max Pool et une activation Sigmoid. Image Inception v3 provenant de : https://cloud.google.com/tpu/docs/inception-v3-advanced

De manière intéressante, le modèle le plus performant était le modèle Inception v3 pré-entraîné sur les poids d’ImageNet avec une couche de Global Max Pooling supplémentaire (voir figure 6). La fonction d’activation sigmoïde prend n’importe quel nombre réel et le comprime dans une plage entre 0 et 1. Cela est particulièrement utile dans nos scénarios, où nous souhaitons mapper les prédictions aux probabilités de deux classes (0 et 1).

Configurations du Modèle

Nous avons effectué une validation croisée pour apprendre les meilleurs hyperparamètres pour le modèle. Ci-dessous, les configurations finales de notre ImageNet v3 augmenté sont présentées, y compris l’optimiseur, le taux d’apprentissage, rho, les époques et la taille des lots utilisés. En utilisant des poids de classe, nous avons amélioré la focalisation du modèle sur la classe minoritaire (cas tumoraux), améliorant ainsi sa capacité à identifier et diagnostiquer correctement les cas de cancer, un élément essentiel dans ce contexte de santé critique.

Figure 7: Configurations et hyperparamètres du modèle - Image de l'auteur

Évaluation du Modèle

Nous avons examiné la perte, l’AUC et le rappel pour les exécutions d’entraînement avec différents hyperparamètres et les patchs d’image échantillonnés à différents niveaux de zoom.

Comme mentionné précédemment, les images aux niveaux de zoom 3,4,5 ont été combinées en un seul ensemble d’entraînement et des modèles distincts ont été construits pour les images aux niveaux de zoom 0, 1 et 2. Les graphiques ci-dessous montrent les performances pour différents niveaux de zoom sur l’ensemble de validation. Les performances étaient meilleures au niveau de zoom 1 en termes d’AUC et de rappel, sur l’ImageNet v3 modifié.

Figure 8: Configurations et performances du modèle de finition final - Image de l'auteur

Inférence

Une fois que le modèle a été affiné, nous pouvons l’utiliser pour générer des “masques” pour n’importe quelle nouvelle image entière. Pour ce faire, nous devons d’abord générer des images de taille 299 x 299 (la taille d’entrée pour l’architecture standard Imagenet v3) à partir de l’image au niveau de zoom qui nous intéresse (niveau 1 ou niveau 2).

Les images individuelles sont ensuite passées à travers le modèle affiné pour classifier chacune d’entre elles comme contenant des cellules tumorales ou non tumorales. Les images sont ensuite assemblées pour générer le masque.

Voici les sorties et les masques réels pour deux images entières de notre ensemble de tests. Comme vous pouvez le constater, les masques produits par notre modèle ressemblent assez bien aux masques réels.

Figure 9: Résultats du modèle sur quelques images de l'ensemble de test — Image de l'auteur

Remarques finales

Dans cet article, nous avons exploré comment les modèles de vision par ordinateur peuvent être affinés pour détecter les métastases cancéreuses sur des images de pathologie gigapixel. L’image ci-dessous résume le flux de travail pour la formation du modèle et le processus d’inférence pour classer de nouvelles images.

Figure 9: Résumé du flux de travail pour la formation et l'inférence du modèle — Image de l'auteur

Ce modèle intégré dans le flux de travail existant des pathologistes peut être un outil d’assistance et peut être d’une grande pertinence clinique, en particulier dans les organisations ayant des capacités de ressources limitées, et peut également être utilisé comme première ligne de défense pour diagnostiquer la maladie sous-jacente en temps opportun.

D’autres travaux doivent être menés pour évaluer l’impact sur les flux de travail cliniques réels et les résultats des patients. Néanmoins, nous maintenons une perspective positive selon laquelle les technologies d’apprentissage en profondeur minutieusement vérifiées, ainsi que des instruments cliniques soigneusement conçus, ont le potentiel d’améliorer la précision et l’accessibilité des diagnostics pathologiques à l’échelle mondiale.

Veuillez consulter le code source sur mon Github : https://github.com/saranggupta94/detecting_cancer_metastasis .

Vous pouvez trouver les résultats finaux de la compétition CAMELYON ici : https://jamanetwork.com/journals/jama/article-abstract/2665774

Si vous souhaitez collaborer sur un projet ou vous connecter, n’hésitez pas à me contacter sur LinkedIn ou à m’envoyer un message à [email protected].

Je remercie Niti Jain pour sa contribution à cet article.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

NVIDIA DGX Cloud maintenant disponible pour accélérer l'entraînement de l'IA générative

NVIDIA DGX Cloud — qui offre des outils qui peuvent transformer presque n’importe quelle entreprise en une entr...

AI

Une introduction douce aux réseaux neuronaux orientables (partie 1)

L'apprentissage géométrique profond, en tant que branche de Deep Learning, vise à étendre les cadres classiques de l'...

AI

Découvrez TensorRT-LLM une bibliothèque open-source qui accélère et optimise les performances d'inférence sur les derniers LLMs sur les GPU NVIDIA Tensor Core.

Les modèles linguistiques de grande envergure (LLM) d’intelligence artificielle (IA) peuvent générer du texte, ...

AI

Le Web Crawler d'OpenAI et les erreurs de la FTC

OpenAI lance un crawler par défaut permettant de collecter des informations sur Internet, tandis que la FTC mène une ...

AI

Tromper les classificateurs forensiques Le pouvoir des modèles génératifs dans la génération de visages adversaires

Les avancées récentes en apprentissage profond (DL), plus précisément dans le domaine des réseaux antagonistes généra...

AI

Explorez l'avenir de l'industrie 4.0 Révéler la gestion du changement organisationnel grâce à la cartographie des processus

Les technologies numériques sont devenues vitales pour les organisations de divers secteurs, stimulant ainsi l'amélio...