Former les machines pour apprendre plus comme le font les humains

Train machines to learn more like humans do.

Les chercheurs identifient une propriété qui aide les modèles de vision par ordinateur à apprendre à représenter le monde visuel de manière plus stable et prévisible.

MIT researchers discovered that a specific training technique can enable certain types of computer vision models to learn more stable, predictable visual representations, which are more similar to those humans learn using a biological property known as perceptual straightening.

Imaginez-vous assis sur un banc dans un parc, regardant quelqu’un passer devant vous. Alors que la scène peut constamment changer à mesure que la personne marche, le cerveau humain peut transformer cette information visuelle dynamique en une représentation plus stable au fil du temps. Cette capacité, connue sous le nom de redressement perceptuel, nous aide à prédire la trajectoire de la personne qui marche.

Contrairement aux humains, les modèles de vision par ordinateur n’exhibent généralement pas de redressement perceptuel, ils apprennent donc à représenter l’information visuelle de manière hautement imprévisible. Mais si les modèles d’apprentissage automatique avaient cette capacité, cela pourrait leur permettre d’estimer plus précisément comment les objets ou les personnes se déplaceront.

Des chercheurs du MIT ont découvert qu’une méthode d’entraînement spécifique peut aider les modèles de vision par ordinateur à apprendre des représentations plus perceptuellement droites, comme le font les humains. L’entraînement consiste à montrer à un modèle d’apprentissage automatique des millions d’exemples pour qu’il puisse apprendre une tâche.

Les chercheurs ont découvert que l’entraînement des modèles de vision par ordinateur à l’aide d’une technique appelée entraînement adversarial, qui les rend moins réactifs aux erreurs minuscules ajoutées aux images, améliore la rectitude perceptuelle des modèles.

L’équipe a également découvert que la rectitude perceptuelle est affectée par la tâche pour laquelle on entraîne le modèle. Les modèles entraînés pour effectuer des tâches abstraites, comme la classification d’images, apprennent des représentations plus perceptuellement droites que ceux entraînés pour effectuer des tâches plus fines, comme l’assignation de chaque pixel d’une image à une catégorie.

Par exemple, les nœuds à l’intérieur du modèle ont des activations internes qui représentent « chien », ce qui permet au modèle de détecter un chien lorsqu’il voit n’importe quelle image d’un chien. Les représentations perceptuellement droites conservent une représentation plus stable de « chien » lorsqu’il y a de petits changements dans l’image. Cela les rend plus robustes.

En comprenant mieux la rectitude perceptuelle en vision par ordinateur, les chercheurs espèrent découvrir des informations qui pourraient les aider à développer des modèles qui font des prédictions plus précises. Par exemple, cette propriété pourrait améliorer la sécurité des véhicules autonomes qui utilisent des modèles de vision par ordinateur pour prédire les trajectoires des piétons, des cyclistes et d’autres véhicules.

« L’un des messages clés ici est qu’en s’inspirant de systèmes biologiques, tels que la vision humaine, on peut à la fois vous donner des informations sur la raison pour laquelle certaines choses fonctionnent de la manière dont elles le font et inspirer des idées pour améliorer les réseaux neuronaux », explique Vasha DuTell, un chercheur postdoctoral du MIT et co-auteur d’un article explorant la rectitude perceptuelle en vision par ordinateur.

Le document est co-signé par Anne Harrington, étudiante diplômée du département de génie électrique et informatique (EECS) et auteure principale ; Ayush Tewari, postdoctorant ; Mark Hamilton, étudiant diplômé ; Simon Stent, responsable de recherche chez Woven Planet ; Ruth Rosenholtz, chercheuse principale du département de sciences cérébrales et cognitives et membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) ; et William T. Freeman, professeur de génie électrique et informatique et membre de CSAIL. La recherche est présentée à la Conférence internationale sur la représentation de l’apprentissage.

Étudier le redressement

Après avoir lu un article de 2019 d’une équipe de chercheurs de l’Université de New York sur le redressement perceptuel chez l’homme, DuTell, Harrington et leurs collègues ont voulu savoir si cette propriété pourrait également être utile dans les modèles de vision par ordinateur.

Ils ont cherché à déterminer si différents types de modèles de vision par ordinateur redressent les représentations visuelles qu’ils apprennent. Ils ont alimenté chaque modèle avec des images d’une vidéo, puis ont examiné la représentation à différents stades de son processus d’apprentissage.

Si la représentation du modèle change de manière prévisible à travers les images de la vidéo, ce modèle est en train de redresser. À la fin, sa représentation de sortie doit être plus stable que sa représentation d’entrée.

« Vous pouvez considérer la représentation comme une ligne qui commence très courbe. Un modèle qui redresse peut prendre cette ligne courbe de la vidéo et la redresser à travers ses étapes de traitement », explique DuTell.

La plupart des modèles testés ne redressent pas. Parmi les quelques-uns qui le font, ceux qui redressent le plus efficacement ont été formés pour des tâches de classification en utilisant la technique connue sous le nom d’entraînement adversarial.

L’entraînement adversarial consiste à modifier subtilement les images en modifiant légèrement chaque pixel. Bien qu’un humain ne remarquerait pas la différence, ces changements mineurs peuvent tromper une machine pour qu’elle classe mal l’image. L’entraînement adversarial rend le modèle plus robuste, de sorte qu’il ne sera pas trompé par ces manipulations.

Parce que l’entraînement adversarial apprend au modèle à être moins réactif aux légers changements dans les images, cela l’aide à apprendre une représentation qui est plus prévisible au fil du temps, explique Harrington.

« Les gens ont déjà eu l’idée que l’entraînement adversaire pourrait vous aider à rendre votre modèle plus proche de celui d’un être humain, et il était intéressant de voir que cela s’applique à une autre propriété que les gens n’avaient pas testée auparavant », dit-elle.

Mais les chercheurs ont constaté que les modèles entraînés de manière adversaire n’apprennent à se redresser que lorsqu’ils sont formés pour des tâches larges, comme la classification d’images entières en catégories. Les modèles chargés de la segmentation – l’étiquetage de chaque pixel d’une image en tant que certaine classe – ne se redressent pas, même lorsqu’ils sont formés de manière adversaire.

Classification cohérente

Les chercheurs ont testé ces modèles de classification d’images en leur montrant des vidéos. Ils ont constaté que les modèles qui ont appris des représentations plus perceptuellement droites avaient tendance à classifier correctement les objets dans les vidéos de manière plus cohérente.

« Pour moi, il est incroyable que ces modèles formés de manière adversaire, qui n’ont jamais vu de vidéo et n’ont jamais été formés sur des données temporelles, montrent encore une certaine quantité de redressement », explique DuTell.

Les chercheurs ne savent pas exactement ce que le processus d’entraînement adversaire permet à un modèle de vision par ordinateur de se redresser, mais leurs résultats suggèrent que des schémas d’entraînement plus forts font que les modèles se redressent davantage, explique-t-elle.

À partir de ces travaux, les chercheurs veulent utiliser ce qu’ils ont appris pour créer de nouveaux schémas de formation qui donneraient explicitement à un modèle cette propriété. Ils veulent également approfondir l’entraînement adversaire pour comprendre pourquoi ce processus aide un modèle à se redresser.

« Du point de vue biologique, l’entraînement adversaire n’a pas nécessairement de sens. Ce n’est pas ainsi que les humains comprennent le monde. Il reste encore beaucoup de questions sur la raison pour laquelle ce processus de formation semble aider les modèles à agir davantage comme des humains », déclare Harrington.

« Comprendre les représentations apprises par les réseaux neuronaux profonds est essentiel pour améliorer des propriétés telles que la robustesse et la généralisation », déclare Bill Lotter, professeur adjoint à l’Institut du cancer Dana-Farber et à l’École de médecine de Harvard, qui n’a pas participé à cette recherche. « Harrington et al. effectuent une évaluation approfondie de la manière dont les représentations des modèles de vision par ordinateur changent avec le temps lors du traitement de vidéos naturelles, montrant que la courbure de ces trajectoires varie largement en fonction de l’architecture du modèle, des propriétés de formation et de la tâche. Ces résultats peuvent informer le développement de modèles améliorés et offrir des aperçus sur le traitement visuel biologique. »

« L’article confirme que l’alignement des vidéos naturelles est une propriété assez unique affichée par le système visuel humain. Seuls les réseaux formés de manière adversaire l’affichent, ce qui crée une connexion intéressante avec une autre signature de la perception humaine : sa robustesse à diverses transformations d’images, qu’elles soient naturelles ou artificielles », explique Olivier Hénaff, chercheur scientifique chez DeepMind, qui n’a pas participé à cette recherche. « Le fait que même les modèles de segmentation de scènes formés de manière adversaire ne redressent pas leurs entrées soulève des questions importantes pour les travaux futurs : les humains analysent-ils les scènes naturelles de la même manière que les modèles de vision par ordinateur ? Comment représenter et prédire les trajectoires des objets en mouvement tout en restant sensible à leur détail spatial ? En reliant l’hypothèse de redressement à d’autres aspects du comportement visuel, l’article jette les bases de théories plus unifiées de la perception. »

La recherche est financée en partie par le Toyota Research Institute, la bourse METEOR du MIT CSAIL, la National Science Foundation, le laboratoire de recherche de l’US Air Force et l’accélérateur d’intelligence artificielle de l’US Air Force.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Le Côté Obscur de l'IA - Comment les Créateurs peuvent-ils aider ?!

Plus un seul jour ne passe ces temps-ci sans que nous apprenions quelque chose d'étonnant qu'un outil d'IA a accompli...

AI

À l'intérieur de XGen-Image-1 Comment Salesforce Research a construit, entraîné et évalué un modèle massif de traduction de texte en image.

Salesforce a été l'un des laboratoires de recherche les plus actifs dans la nouvelle vague de modèles fondamentaux. C...

AI

Décoder le comportement collectif Comment l'inférence bayésienne active alimente les mouvements naturels des groupes d'animaux

Le phénomène du mouvement collectif chez les animaux observé dans des activités telles que les essaims de sauterelles...

AI

Imprégner l'IA d'éthique

En l'absence de réglementations, les entreprises commencent à élaborer leurs propres directives pour contrôler l'util...