Des chercheurs chinois proposent iTransformer Repenser l’architecture du Transformer pour une prévision améliorée des séries chronologiques.

Des chercheurs chinois proposent iTransformer une révision de l'architecture du Transformer pour une meilleure prévision des séries chronologiques.

Transformer est devenu le modèle de base qui respecte la règle d’échelle après avoir connu un grand succès dans le traitement du langage naturel et la vision par ordinateur. La prévision de séries chronologiques voit l’émergence d’un Transformer, qui est hautement capable d’extraire des représentations à plusieurs niveaux à partir de séquences et de représenter des relations par paires, grâce à son énorme succès dans d’autres disciplines plus vastes. La validité des prévisions basées sur le transformateur, qui intègrent généralement plusieurs variables de la même horodatage dans des canaux indistinguables et mettent l’accent sur ces jetons temporels pour capturer les relations temporelles, a récemment été remise en question par les universitaires. 

Transformer est devenu le modèle de base qui respecte la règle d’échelle après avoir connu un grand succès dans le traitement du langage naturel et la vision par ordinateur. La prévision de séries chronologiques voit l’émergence d’un Transformer, qui est hautement capable d’extraire des représentations à plusieurs niveaux à partir de séquences et de représenter des relations par paires, grâce à son énorme succès dans d’autres disciplines plus vastes. La validité des prévisions basées sur le transformateur, qui intègrent généralement plusieurs variables de la même horodatage dans des canaux indistinguables et mettent l’accent sur ces jetons temporels pour capturer les relations temporelles, a récemment été remise en question par les universitaires. 

Ils observent que la prévision de séries chronologiques multivariées pourrait être mieux adaptée à la structure actuelle des prévisionnistes basés sur le Transformer. Le panneau gauche de la figure 2 note le fait que les points de la même étape temporelle, qui reflètent essentiellement des significations physiques radicalement différentes capturées par des mesures contradictoires, sont combinés en un seul jeton avec des corrélations multivariées effacées. De plus, en raison du champ récepteur hautement local du monde réel et des horodatages mal alignés de plusieurs points temporels, le jeton créé par une seule étape temporelle peut avoir du mal à divulguer des informations utiles. De plus, dans la dimension temporelle, les mécanismes d’attention invariants par permutation sont utilisés de manière inappropriée, bien que l’ordre des séquences puisse avoir un impact significatif sur les variations de la série. 

Par conséquent, le Transformer perd sa capacité à décrire les corrélations multivariées et à capturer les représentations cruciales des séries, ce qui limite son application et ses capacités de généralisation sur diverses données de séries chronologiques. Ils utilisent une perspective inversée sur les séries chronologiques et intègrent l’ensemble des séries chronologiques de chaque variable séparément dans un jeton, l’exemple extrême de Patching qui agrandit le champ récepteur local en réponse à l’irrationalité de l’intégration de points multivariés de chaque étape temporelle en tant que jeton. Le jeton intégré inverse et agrège les représentations globales des séries, qui peuvent être mieux utilisées par des mécanismes d’attention en plein essor pour la corrélation multivariée et plus centrée sur les variables. 

Figure 1: Performances d’iTransformer. TimesNet est utilisé pour rapporter les résultats moyens (MSE).

Pendant ce temps, le réseau d’avance peut être entraîné à acquérir des représentations suffisamment généralisées pour différentes variables qui sont codées à partir de n’importe quelle série de recul, puis décodées pour prévoir les séries ultérieures. Pour les raisons évoquées ci-dessus, ils pensent que le Transformer est utilisé de manière incorrecte plutôt qu’inefficace pour la prévision de séries chronologiques. Ils examinent à nouveau l’architecture du Transformer dans cette étude et promeuvent iTransformer comme le cadre essentiel pour la prévision de séries chronologiques. En termes techniques, ils utilisent le réseau d’avance pour le codage des séries, adoptent l’attention pour les corrélations multivariées et intègrent chaque série chronologique en tant que jetons de variables. En termes d’expérimentation, l’iTransformer suggéré remédie de manière inattendue aux lacunes des prévisionnistes basés sur le Transformer tout en atteignant des performances de pointe sur les benchmarks de prévision du monde réel dans la figure 1. 

Figure 2: Une comparaison de l’iTransformer suggéré (en bas) et du Transformer classique (en haut). Contrairement au Transformer, qui intègre chaque pas de temps dans le jeton temporel, l’iTransformer intègre l’ensemble de la série indépendamment dans le jeton de variante. En conséquence, le réseau à propagation avant encode les représentations de la série, et le mécanisme d’attention peut montrer des corrélations multivariées.

Trois choses auxquelles ils ont contribué sont les suivantes :

• Des chercheurs de l’Université de Tsinghua suggèrent l’iTransformer, qui considère des séries chronologiques indépendantes comme des jetons pour capturer des corrélations multivariées par auto-attention. Il utilise la normalisation des couches et des modules de réseau à propagation avant pour apprendre de meilleures représentations globales de séries pour la prévision des séries chronologiques.

• Ils réfléchissent à l’architecture du Transformer et améliorent la capacité compétente des composants natifs du Transformer sur les séries chronologiques, qui est encore inexploitée.

• Sur des benchmarks de prévision du monde réel, l’iTransformer obtient systématiquement des résultats de pointe dans les expériences. Leur analyse approfondie des modules inversés et des décisions architecturales indique une voie potentielle pour faire progresser les prédicteurs basés sur le Transformer à l’avenir.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les chercheurs de l'UCLA proposent PhyCV une bibliothèque Python de vision par ordinateur inspirée de la physique.

L’intelligence artificielle fait des progrès remarquables dans le domaine de la vision par ordinateur. Un domai...

AI

Des chercheurs d'Inception, de MBZUAI et de Cerebras ont ouvert en open source Jais le modèle de langage arabe le plus avancé au monde.

Les grands modèles linguistiques tels que GPT-3 et leur impact sur divers aspects de la société suscitent un intérêt ...

AI

Des expériences 🧪 au déploiement 🚀 MLflow 101 | Partie 01

Imaginez ceci Vous avez une toute nouvelle idée d'entreprise, et les données dont vous avez besoin sont à portée de ...

AI

La photo professionnelle du étudiant asiatique du MIT devient caucasienne avec un outil d'IA

Je pense vraiment que c'est un problème, a déclaré Rona Wang, qui espère que ceux qui créent le logiciel prennent con...

AI

Cet article IA présente des techniques avancées pour des explications textuelles et visuelles détaillées dans les modèles d'alignement texte-image.

Les modèles d’alignement texte-image visent à établir une connexion significative entre le contenu visuel et le...