Les chercheurs utilisent l’IA pour identifier des matériaux similaires dans les images.

Researchers use AI to identify similar materials in images.

Cette méthode d’apprentissage automatique pourrait aider à la compréhension des scènes robotiques, à l’édition d’images ou aux systèmes de recommandation en ligne.

A machine-learning model can identify all the pixels in an image that represent a given material. Developed at MIT, the technique could someday be used in computer vision systems that help robots interact with objects in the real world. Pictured is an artist’s interpretation of the new system.

Un robot manipulant des objets, par exemple dans une cuisine, pourrait bénéficier de comprendre quels articles sont composés des mêmes matériaux. Avec cette connaissance, le robot saurait exercer une force similaire, qu’il s’agisse de ramasser une petite motte de beurre dans un coin sombre du comptoir ou un bâton entier à l’intérieur du réfrigérateur brillamment éclairé.

L’identification des objets dans une scène qui sont composés du même matériau, connue sous le nom de sélection de matériaux, est un problème particulièrement difficile pour les machines car l’apparence d’un matériau peut varier considérablement en fonction de la forme de l’objet ou des conditions d’éclairage.

Des scientifiques du MIT et d’Adobe Research ont fait un pas vers la résolution de ce défi. Ils ont développé une technique qui peut identifier tous les pixels dans une image représentant un matériau donné, qui est montré dans un pixel sélectionné par l’utilisateur.

La méthode est précise même lorsque les objets ont des formes et des tailles variables et le modèle d’apprentissage automatique qu’ils ont développé n’est pas trompé par les ombres ou les conditions d’éclairage qui peuvent faire apparaître le même matériau différemment.

Bien qu’ils aient formé leur modèle en utilisant uniquement des données “synthétiques”, qui sont créées par un ordinateur qui modifie des scènes 3D pour produire de nombreuses images variables, le système fonctionne efficacement sur des scènes intérieures et extérieures réelles qu’il n’a jamais vues auparavant. Cette approche peut également être utilisée pour les vidéos; une fois que l’utilisateur identifie un pixel dans la première image, le modèle peut identifier les objets fabriqués à partir du même matériau tout au long du reste de la vidéo.

En plus des applications dans la compréhension de scène pour la robotique, cette méthode pourrait être utilisée pour l’édition d’images ou incorporée dans des systèmes informatiques qui déduisent les paramètres des matériaux dans les images. Elle pourrait également être utilisée pour des systèmes de recommandation web basés sur les matériaux. (Peut-être qu’un acheteur recherche des vêtements fabriqués à partir d’un type particulier de tissu, par exemple.)

“Savoir avec quel matériau vous interagissez est souvent très important. Bien que deux objets puissent sembler similaires, ils peuvent avoir des propriétés matérielles différentes. Notre méthode peut faciliter la sélection de tous les autres pixels dans une image qui sont fabriqués à partir du même matériau”, déclare Prafull Sharma, un étudiant diplômé en génie électrique et informatique et auteur principal d’un article sur cette technique.

Les co-auteurs de Sharma comprennent Julien Philip et Michael Gharbi, des chercheurs scientifiques chez Adobe Research; et les auteurs principaux William T. Freeman, professeur de génie électrique et informatique et membre du laboratoire d’informatique et d’intelligence artificielle (CSAIL); Frédo Durand, professeur de génie électrique et informatique et membre de CSAIL; et Valentin Deschaintre, chercheur scientifique chez Adobe Research. La recherche sera présentée à la conférence SIGGRAPH 2023.

Une nouvelle approche

Les méthodes existantes de sélection de matériaux ont du mal à identifier avec précision tous les pixels représentant le même matériau. Par exemple, certaines méthodes se concentrent sur des objets entiers, mais un objet peut être composé de plusieurs matériaux, comme une chaise avec des bras en bois et un siège en cuir. D’autres méthodes peuvent utiliser un ensemble prédéterminé de matériaux, mais ceux-ci ont souvent des étiquettes larges comme “bois”, malgré le fait qu’il existe des milliers de variétés de bois.

Au lieu de cela, Sharma et ses collaborateurs ont développé une approche d’apprentissage automatique qui évalue dynamiquement tous les pixels dans une image pour déterminer les similitudes de matériaux entre un pixel sélectionné par l’utilisateur et toutes les autres régions de l’image. Si une image contient une table et deux chaises, et que les pieds de la chaise et le plateau de la table sont en bois du même type, leur modèle pourrait identifier avec précision ces régions similaires.

Avant que les chercheurs puissent développer une méthode d’IA pour apprendre à sélectionner des matériaux similaires, ils ont dû surmonter quelques obstacles. Tout d’abord, aucun ensemble de données existant ne contenait des matériaux étiquetés assez finement pour entraîner leur modèle d’apprentissage automatique. Les chercheurs ont rendu leur propre ensemble de données synthétiques de scènes intérieures, qui comprenait 50 000 images et plus de 16 000 matériaux appliqués de manière aléatoire à chaque objet.

“Nous voulions un ensemble de données où chaque type de matériau est marqué indépendamment”, explique Sharma.

Avec l’ensemble de données synthétiques en main, ils ont entraîné un modèle d’apprentissage automatique pour la tâche d’identification de matériaux similaires dans des images réelles – mais cela a échoué. Les chercheurs ont réalisé que le décalage de distribution était en cause. Cela se produit lorsqu’un modèle est entraîné sur des données synthétiques, mais qu’il échoue lorsqu’il est testé sur des données du monde réel qui peuvent être très différentes de l’ensemble d’entraînement.

Pour résoudre ce problème, ils ont construit leur modèle sur un modèle de vision par ordinateur pré-entraîné, qui a vu des millions d’images réelles. Ils ont utilisé la connaissance préalable de ce modèle en exploitant les caractéristiques visuelles qu’il avait déjà apprises.

« En apprentissage automatique, lorsque vous utilisez un réseau neuronal, il apprend généralement la représentation et le processus de résolution de la tâche ensemble. Nous avons dissocié cela. Le modèle pré-entraîné nous donne la représentation, puis notre réseau neuronal se concentre simplement sur la résolution de la tâche », explique-t-il.

Résoudre les similitudes

Le modèle des chercheurs transforme les caractéristiques visuelles génériques pré-entraînées en caractéristiques spécifiques au matériau, et ce de manière robuste aux formes d’objets ou aux conditions d’éclairage variées.

Le modèle peut ensuite calculer un score de similarité de matériau pour chaque pixel de l’image. Lorsqu’un utilisateur clique sur un pixel, le modèle détermine à quel point chaque autre pixel de l’image est proche de la requête en apparence. Il produit une carte où chaque pixel est classé sur une échelle de 0 à 1 pour la similarité.

« L’utilisateur clique simplement sur un pixel et le modèle sélectionne automatiquement toutes les régions qui ont le même matériau », dit-il.

Étant donné que le modèle émet un score de similarité pour chaque pixel, l’utilisateur peut affiner les résultats en définissant un seuil, tel que 90% de similarité, et recevoir une carte de l’image avec ces régions mises en évidence. La méthode fonctionne également pour la sélection inter-images – l’utilisateur peut sélectionner un pixel dans une image et trouver le même matériau dans une image séparée.

Lors des expériences, les chercheurs ont constaté que leur modèle pouvait prédire avec plus de précision que d’autres méthodes les régions d’une image contenant le même matériau. Lorsqu’ils ont mesuré la précision de la prédiction par rapport à la vérité terrain, c’est-à-dire les zones réelles de l’image qui sont composées du même matériau, leur modèle correspondait à environ 92% de précision.

À l’avenir, ils souhaitent améliorer le modèle afin qu’il puisse mieux capturer les détails fins des objets dans une image, ce qui augmenterait la précision de leur approche.

« Les matériaux riches contribuent à la fonctionnalité et à la beauté du monde dans lequel nous vivons. Mais les algorithmes de vision par ordinateur négligent généralement les matériaux, se concentrant fortement sur les objets. Cette étude apporte une contribution importante en reconnaissant les matériaux dans les images et les vidéos dans un large éventail de conditions difficiles », déclare Kavita Bala, doyenne du Collège Bowers de l’informatique et des sciences de l’information de Cornell et professeur d’informatique, qui n’a pas été impliqué dans ce travail. « Cette technologie peut être très utile pour les consommateurs finaux et les designers. Par exemple, un propriétaire peut visualiser à quoi ressembleraient des choix coûteux comme le rembourrage d’un canapé ou le changement de moquette dans une pièce, et peut être plus confiant dans ses choix de conception en fonction de ces visualisations ».

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Meta's Llama 2 Révolutionner les modèles de langage Open Source pour une utilisation commerciale

Meta a une fois de plus repoussé les limites de l'IA avec la sortie de Llama 2, le successeur très attendu de son mod...

Apprentissage automatique

Contextual AI présente LENS un cadre d'intelligence artificielle pour les modèles de langue augmentés par la vision qui surpasse Flamingo de 9% (56->65%) sur VQAv2.

Les grands modèles de langage (LLMs) ont transformé la compréhension du langage naturel ces dernières années, démontr...

AI

Percer le code du contexte Techniques de vectorisation de mots en TALN

Vous avez déménagé dans une nouvelle ville loin de votre pays, où vous avez rencontré quelqu'un par hasard dans un ca...

AI

Moins d'annotation de données + plus d'IA = Apprentissage actif en profondeur

Former des modèles d’intelligence artificielle (IA) nécessite souvent de grandes quantités de données annotées....

AI

Rencontrez SAM-PT une nouvelle méthode d'IA étendant la capacité du modèle Segment Anything (SAM) à suivre et à segmenter n'importe quoi dans des vidéos dynamiques.

De nombreuses applications, telles que la robotique, la conduite autonome et le montage vidéo, bénéficient de la segm...