Rencontrez xVal Une Méthode Continue pour Encoder les Nombres dans les Modèles Linguistiques pour les Applications Scientifiques qui Utilise un Seul Symbole pour Représenter N’importe Quel Nombre
Découvrez xVal Une approche continue d'encodage des nombres dans les modèles linguistiques pour les applications scientifiques utilisant un unique symbole pour représenter tous les nombres
Dans le domaine des Grands Modèles Linguistiques, un problème déroutant se distingue. Alors que ces modèles peuvent maîtriser de nombreuses tâches basées sur le langage, ils ont souvent des difficultés à effectuer des calculs numériques impliquant de grands nombres. Plus précisément, multiplier deux nombres à quatre chiffres donne un taux de réussite légèrement supérieur à 90%, laissant place à l’amélioration.
Cette problématique provient des différences inhérentes entre les nombres et les autres formes de langage. Contrairement aux lettres ou aux mots, les nombres englobent un spectre continu de valeurs, soumis à des règles complexes et strictes. Ce défi soulève des questions sur l’intersection des modèles linguistiques et des données numériques, et a inspiré la quête d’une solution.
Les solutions existantes à ce problème sont peu nombreuses et loin d’être parfaites. Les GML, qui excellent dans les tâches liées au langage, peinent à s’adapter à la nature continue et infiniment variable des nombres. La plupart des approches impliquent la tokenisation, où les nombres sont décomposés en plusieurs tokens, ce qui augmente la complexité du modèle et les besoins en mémoire.
- Revue du générateur de voix AI de WellSaid Labs (octobre 2023)
- Les IA multilingues sont-elles réellement sûres ? Exposer les vulnérabilités des grands modèles de langage dans les langues à faibles ressources.
- Google AI présente SANPO Un ensemble de données vidéo multi-attributs pour la compréhension des scènes extérieures humaines égocentriques.
Les chercheurs en IA polymathiques introduisent un potentiel game-changer : la stratégie d’encodage xVal. Cette approche innovante offre un point de vue neuf sur l’encodage des nombres dans les GML pour des applications scientifiques. xVal utilise un token unique étiqueté [NUM] pour représenter n’importe quel nombre.
La stratégie xVal y parvient en traitant les nombres différemment dans le modèle linguistique. Au lieu de s’appuyer sur plusieurs tokens, chaque nombre est prétraité et stocké dans un vecteur séparé. Le texte remplace le nombre par le token [NUM]. Lors du décodage, une tête de token dédiée dans l’architecture du transformateur est utilisée pour prédire la valeur associée au token [NUM], en utilisant la perte Mean Squared Error (MSE) comme métrique de guidage.
Dans une série d’expériences, les capacités de xVal ont été rigoureusement testées et comparées à quatre autres stratégies d’encodage numérique. Les résultats étaient intrigants. xVal a surpassé les autres méthodes dans les tâches multi-opérandes et s’est comporté de manière comparable dans des calculs complexes, tels que la multiplication de grands entiers à plusieurs chiffres.
Lorsqu’il a été appliqué aux relevés de température de l’ensemble de données climatiques mondiales ERA5, le biais inhérent à la continuité de xVal lui a permis d’exceller, obtenant les meilleures performances en un temps d’apprentissage minimal.
Les simulations planétaires ont révélé les capacités exceptionnelles d’interpolation de xVal dans les simulations de planètes orbitant autour d’une masse centrale, dépassant tous les autres schémas d’encodage lors de la prédiction de données hors distribution.
En conclusion, l’approche innovante de xVal pour l’encodage des nombres dans les modèles linguistiques a le potentiel de révolutionner l’avenir. En adressant le défi de la représentation des nombres dans les GML avec une méthode plus efficace et précise, cela ouvre la porte à des applications innovantes dans le domaine scientifique. Cette solution révolutionnaire pourrait ouvrir la voie au développement de modèles fondamentaux qui connectent plusieurs domaines de la science, remodelant ainsi le paysage de la recherche scientifique à venir.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cet article sur l’IA présente DSPy un modèle de programmation qui abstrait les pipelines de modèle de langage sous forme de graphes de transformation de texte.
- La compression des documents récupérés peut-elle améliorer les performances des modèles de langage ? Cet article sur l’IA présente RECOMP améliorer les LMs améliorés par la récupération avec la compression et l’augmentation sélective
- AutoGen est époustouflant 4 fonctionnalités qui font d’AutoGen le framework de pointe pour créer des agents d’IA.
- Performance des Apple M1 et M2 pour l’entrainement des modèles SSL
- Comment les Transformers peuvent-ils gérer des entrées plus longues ? Des chercheurs de la CMU et de Google dévoilent une nouvelle approche (FIRE) une interpolation fonctionnelle pour l’encodage de position relative.
- ReactJS pour l’IA et l’apprentissage automatique Une combinaison puissante
- Microsoft AI a involontairement exposé un secret permettant l’accès à 38 To de données confidentielles pendant 3 ans.