Rencontrez xVal Une Méthode Continue pour Encoder les Nombres dans les Modèles Linguistiques pour les Applications Scientifiques qui Utilise un Seul Symbole pour Représenter N’importe Quel Nombre

Découvrez xVal Une approche continue d'encodage des nombres dans les modèles linguistiques pour les applications scientifiques utilisant un unique symbole pour représenter tous les nombres

Dans le domaine des Grands Modèles Linguistiques, un problème déroutant se distingue. Alors que ces modèles peuvent maîtriser de nombreuses tâches basées sur le langage, ils ont souvent des difficultés à effectuer des calculs numériques impliquant de grands nombres. Plus précisément, multiplier deux nombres à quatre chiffres donne un taux de réussite légèrement supérieur à 90%, laissant place à l’amélioration.

Cette problématique provient des différences inhérentes entre les nombres et les autres formes de langage. Contrairement aux lettres ou aux mots, les nombres englobent un spectre continu de valeurs, soumis à des règles complexes et strictes. Ce défi soulève des questions sur l’intersection des modèles linguistiques et des données numériques, et a inspiré la quête d’une solution.

Les solutions existantes à ce problème sont peu nombreuses et loin d’être parfaites. Les GML, qui excellent dans les tâches liées au langage, peinent à s’adapter à la nature continue et infiniment variable des nombres. La plupart des approches impliquent la tokenisation, où les nombres sont décomposés en plusieurs tokens, ce qui augmente la complexité du modèle et les besoins en mémoire.

Les chercheurs en IA polymathiques introduisent un potentiel game-changer : la stratégie d’encodage xVal. Cette approche innovante offre un point de vue neuf sur l’encodage des nombres dans les GML pour des applications scientifiques. xVal utilise un token unique étiqueté [NUM] pour représenter n’importe quel nombre.

La stratégie xVal y parvient en traitant les nombres différemment dans le modèle linguistique. Au lieu de s’appuyer sur plusieurs tokens, chaque nombre est prétraité et stocké dans un vecteur séparé. Le texte remplace le nombre par le token [NUM]. Lors du décodage, une tête de token dédiée dans l’architecture du transformateur est utilisée pour prédire la valeur associée au token [NUM], en utilisant la perte Mean Squared Error (MSE) comme métrique de guidage.

Dans une série d’expériences, les capacités de xVal ont été rigoureusement testées et comparées à quatre autres stratégies d’encodage numérique. Les résultats étaient intrigants. xVal a surpassé les autres méthodes dans les tâches multi-opérandes et s’est comporté de manière comparable dans des calculs complexes, tels que la multiplication de grands entiers à plusieurs chiffres.

Lorsqu’il a été appliqué aux relevés de température de l’ensemble de données climatiques mondiales ERA5, le biais inhérent à la continuité de xVal lui a permis d’exceller, obtenant les meilleures performances en un temps d’apprentissage minimal.

Les simulations planétaires ont révélé les capacités exceptionnelles d’interpolation de xVal dans les simulations de planètes orbitant autour d’une masse centrale, dépassant tous les autres schémas d’encodage lors de la prédiction de données hors distribution.

En conclusion, l’approche innovante de xVal pour l’encodage des nombres dans les modèles linguistiques a le potentiel de révolutionner l’avenir. En adressant le défi de la représentation des nombres dans les GML avec une méthode plus efficace et précise, cela ouvre la porte à des applications innovantes dans le domaine scientifique. Cette solution révolutionnaire pourrait ouvrir la voie au développement de modèles fondamentaux qui connectent plusieurs domaines de la science, remodelant ainsi le paysage de la recherche scientifique à venir.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Traduction de l'image à l'image basée sur le croquis transformer les croquis abstraits en images photoréalistes avec GAN

Certaines personnes sont douées pour le croquis, tandis que d’autres peuvent être talentueuses dans d’aut...

Science des données

Faites compter chaque dollar de marketing avec la science des données.

L'économie d'aujourd'hui exige que nous soyons plus diligents dans les dépenses publicitaires. Heureusement, les chem...

AI

Une nouvelle recherche de machine learning du MIT montre comment les grands modèles de langage (LLM) comprennent et représentent les concepts d'espace et de temps.

Les grands modèles de langage (LLM) ont montré des compétences incroyables ces derniers temps. Le célèbre ChatGPT, co...

AI

Surgeler les couches d'un modèle d'apprentissage profond - la bonne façon

Il est souvent utile de figer certains des paramètres, par exemple lorsque vous affinez votre modèle et que vous souh...

AI

Douze nations exhortent les géants des médias sociaux à s'attaquer au raclage illégal de données

Une déclaration commune d'une douzaine de pays a appelé les plateformes de médias sociaux à traiter le vol de données...