Les chercheurs de Google DeepMind présentent SynJax une bibliothèque d’apprentissage profond pour la distribution de probabilité structurée JAX.

Les chercheurs de Google DeepMind présentent SynJax, une bibliothèque d'apprentissage profond pour JAX.

Les données peuvent être considérées comme ayant une structure dans divers domaines qui explique comment ses composants s’assemblent pour former un tout plus grand. Selon l’activité, cette structure est généralement latente et changeante. Considérez la Figure 1 pour des illustrations de structures distinctes dans le langage naturel. Ensemble, les mots composent une séquence. Chaque mot dans une séquence est associé à une étiquette de partie du discours. Ces étiquettes sont interconnectées, générant une chaîne linéaire de couleur rouge. En segmentant la phrase, qui est représentée par des bulles, les mots de la phrase peuvent être regroupés en de petits clusters disjoints et contigus. Un examen plus approfondi du langage révélerait que des groupes peuvent être créés de manière récursive, créant ainsi une structure d’arbre syntaxique. Les structures peuvent également relier deux langues.

Par exemple, dans une même image, un alignement peut relier une traduction japonaise à une source anglaise. Ces constructions grammaticales sont universelles. En biologie, on peut trouver des structures similaires. Les modèles basés sur des arbres d’ARN capturent l’aspect hiérarchique du processus de repliement des protéines, tandis que l’alignement monotone est utilisé pour faire correspondre les nucléotides dans les séquences d’ARN. Les données génomiques sont également divisées en groupes contigus. La plupart des modèles d’apprentissage en profondeur actuels ne font aucune tentative explicite de représenter la structure intermédiaire et cherchent plutôt à prédire les variables de sortie directement à partir de l’entrée. Ces modèles pourraient bénéficier d’une modélisation explicite de la structure de plusieurs manières. L’utilisation des biais inductifs appropriés pourrait faciliter une meilleure généralisation. Cela améliorerait les performances ultérieures en plus de l’efficacité de l’échantillonnage.

Figure 1: Exemples de structures de langage naturel.

La modélisation explicite de la structure peut incorporer un ensemble de restrictions ou de méthodes spécifiques au problème. Les jugements émis par le modèle sont également plus faciles à comprendre en raison de la structure discrète. Enfin, il y a des occasions où la structure est le résultat de l’apprentissage lui-même. Par exemple, ils peuvent savoir que les données sont expliquées par une structure cachée d’une certaine forme, mais ils ont besoin d’en savoir plus à ce sujet. Pour modéliser des séquences, les modèles autorégressifs sont la technique prédominante. Dans certaines situations, les structures non séquentielles peuvent être linéarisées et approximées par une structure séquentielle. Ces modèles sont puissants car ils ne reposent pas sur des hypothèses indépendantes et peuvent être entraînés avec beaucoup de données. Bien que l’identification de la structure idéale ou la marginalisation des variables cachées soient des problèmes courants d’inférence, l’échantillonnage à partir de modèles autorégressifs est souvent difficilement réalisable.

L’utilisation de modèles autorégressifs dans des modèles à grande échelle est un défi car ils nécessitent des approximations biaisées ou à haute variance, qui sont souvent coûteuses en termes de calcul. Les modèles sur les graphes de facteurs qui factorisent de la même manière que la structure cible sont une alternative aux modèles autorégressifs. Ces modèles peuvent calculer précisément et efficacement tous les problèmes d’inférence intéressants en utilisant des méthodes spécialisées. Bien que chaque structure nécessite une méthode unique, chaque tâche d’inférence ne nécessite pas un algorithme spécialisé (argmax, échantillonnage, marginaux, entropie, etc.). Pour extraire plusieurs nombres à partir d’une seule fonction pour chaque type de structure, SynJax utilise la différentiation automatique, comme ils le démontreront plus tard.

Figure 2: Exemple d’implémentation d’un gradient de politique avec une référence auto-critique et une régularisation de l’entropie en utilisant un arbre couvrant.

L’absence de bibliothèques pratiques offrant des implémentations favorables aux accélérateurs de composants structurés a freiné la recherche sur les distributions structurées pour la compréhension approfondie, d’autant plus que ces composants dépendent d’algorithmes qui ne se mappent pas directement sur les primitives d’apprentissage en profondeur disponibles, contrairement aux modèles Transformer. Les chercheurs de Google Deepmind proposent des primitives structurelles faciles à utiliser qui s’intègrent dans le framework d’apprentissage automatique JAX, aidant SynJax à relever le défi. Considérez l’exemple de la Figure 2 pour voir à quel point SynJax est simple à utiliser. Ce code implémente une perte de gradient de politique qui nécessite le calcul de plusieurs paramètres, y compris l’échantillonnage, l’argmax, l’entropie et la probabilité logarithmique, chacun nécessitant une approche distincte.

La structure est un arbre couvrant dirigé non projectif avec une restriction d’une seule arête racine dans cette ligne de code. En conséquence, SynJax utilisera l’approche d’échantillonnage de dist.sample() de Wilson pour les arbres à une seule racine, dist.entropy() et l’algorithme de l’arbre couvrant maximal de Tarjan pour les arbres à une seule arête racine. Les arbres à une seule arête racine peuvent utiliser le théorème de la matrice-arbre. Un seul indicateur doit être modifié pour que SynJax utilise des algorithmes entièrement différents adaptés à cette structure – l’algorithme de Kuhlmann pour argmax et différentes itérations de l’algorithme d’Eisner pour d’autres quantités – s’ils souhaitent simplement modifier légèrement le type d’arbres en imposant que les arbres respectent la contrainte de projectivité en tant qu’utilisateurs. Parce que SynJax s’occupe de tout ce qui concerne ces algorithmes, l’utilisateur peut se concentrer sur l’aspect de modélisation de son problème sans les implémenter ou même comprendre comment ils fonctionnent.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Actualités sur l'IA

Transformez vos images avec l'IA 'Generative Recolor' d'Adobe Illustrator

Adobe, la célèbre entreprise de logiciels de conception, a annoncé une nouvelle qui renforcera les capacités des desi...

AI

L'IA peut-elle surmonter le biais de confirmation humain ?

Du livre Réfléchir, vite et lentement du lauréat du prix Nobel Daniel Kahneman, nous savons tous que les cerveaux hum...

AI

Les principaux sites web bloquent les robots d'IA d'accéder à leur contenu

Dans l'ère de l'IA, les éditeurs bloquent de manière plus agressive les robots d'exploration car il n'y a pas d'avant...

AI

Des chercheurs de l'UCSC et de l'Université technique de Munich proposent RECAST un nouveau modèle basé sur l'apprentissage profond pour prévoir les répliques.

L’intelligence artificielle trouve sa place dans presque tous les domaines possibles. Des recherches considérab...