Que se passe-t-il si vous exécutez un modèle de transformer avec un réseau neuronal optique ?
What happens if you run a transformer model with an optical neural network?
L’échelle exponentielle d’expansion des modèles d’apprentissage profond est une force majeure dans l’avancement de l’état de l’art et une source de préoccupation croissante concernant la consommation d’énergie, la vitesse et donc la faisabilité de l’apprentissage profond à grande échelle. Récemment, des chercheurs de Cornell ont parlé des topologies de Transformer, en particulier de leur nette amélioration lorsqu’elles sont dimensionnées à des milliards, voire des billions de paramètres, ce qui entraîne une augmentation exponentielle de l’utilisation des calculs d’apprentissage profond. Ces Transformers à grande échelle sont une solution populaire mais coûteuse pour de nombreuses tâches, car l’efficacité énergétique du matériel numérique n’a pas suivi les exigences croissantes en FLOP des modèles d’apprentissage profond de pointe. Ils s’avèrent également de plus en plus performants dans d’autres domaines, tels que la vision par ordinateur, les graphiques et les paramètres multimodaux.
De plus, ils présentent des compétences en transfert d’apprentissage, ce qui leur permet de généraliser rapidement à certaines activités, parfois dans un environnement sans apprentissage supplémentaire. Le coût de ces modèles et leurs capacités générales d’apprentissage automatique sont des forces motrices majeures derrière la création d’accélérateurs matériels pour une inférence efficace et rapide. Le matériel d’apprentissage profond a déjà été largement développé dans l’électronique numérique, notamment les GPU, les puces accélératrices mobiles, les FPGA et les systèmes d’accélération dédiés à l’intelligence artificielle à grande échelle. Les réseaux neuronaux optiques ont été suggérés comme des solutions offrant une meilleure efficacité et une latence inférieure aux implémentations de réseaux neuronaux sur ordinateurs numériques, entre autres moyens. Parallèlement, il existe également un intérêt significatif pour le calcul analogique.
Même si ces systèmes analogiques sont sensibles au bruit et aux erreurs, les opérations du réseau neuronal peuvent souvent être effectuées optiquement à un coût beaucoup plus faible, le coût principal étant généralement les frais généraux électriques liés au chargement des poids et des données amortis dans de grandes opérations linéaires. L’accélération de modèles à grande échelle tels que les Transformers est donc particulièrement prometteuse. Théoriquement, la mise à l’échelle est asymptotiquement plus efficace en termes d’énergie par MAC que les systèmes numériques. Ici, ils démontrent comment les Transformers utilisent de plus en plus cette mise à l’échelle. Ils ont échantillonné des opérations d’un véritable Transformer pour la modélisation du langage afin de les exécuter sur un véritable système expérimental basé sur un modulateur de lumière spatiale. Ils ont ensuite utilisé les résultats pour créer une simulation calibrée d’un Transformer complet fonctionnant optiquement. Cela a été fait pour montrer que les Transformers peuvent fonctionner sur ces systèmes malgré leurs caractéristiques de bruit et d’erreur.
- Cet outil d’IA explique comment l’IA voit les images et pourquoi elle pourrait confondre un astronaute avec une pelle.
- Qu’est-ce qu’un circuit intégré programmable sur le terrain (FPGA) FPGA vs GPU pour l’intelligence artificielle (IA)
- Google AI présente les plugins de diffusion MediaPipe qui permettent la génération de texte vers image contrôlable sur l’appareil.
Dans leurs simulations utilisant des poids et des entrées obtenus à partir de ces essais avec des erreurs systématiques, du bruit et de l’imprécision, ils ont découvert que les Transformers fonctionnent toujours presque aussi bien que ceux qui fonctionnent numériquement. Voici un résumé de leurs principales contributions :
• Ils ont créé des règles d’échelle pour les performances et les coûts énergétiques totaux des Transformers optiques par rapport à la taille du modèle et à l’utilisation de l’énergie optique. Ils ont expérimentalement montré que les opérations linéaires dans les Transformers pouvaient être effectuées avec précision sur du matériel optique réel, malgré les erreurs et le bruit.
• En utilisant une conception basée sur leurs simulations et leurs tests, ils ont prédit la consommation d’énergie d’un accélérateur ONN complet.
• Ils ont calculé que l’optique consomme des ordres de grandeur moins d’énergie que les processeurs de pointe.
Bien que leurs simulations et leurs tests aient utilisé une pièce spécifique de matériel à titre d’illustration, leur attention est plus large ici. Ils veulent savoir comment l’énergie optique à grande échelle et le bruit sont liés à la construction et aux performances des Transformers. En conséquence, presque toutes leurs conclusions s’appliquent généralement aux processeurs optiques linéaires, indépendamment des spécificités de leur implémentation matérielle.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Salesforce présente XGen-7B un nouveau modèle LLM de 7B entraîné sur des séquences allant jusqu’à 8K pour 1,5T jetons.
- Transformation de l’interaction de l’IA LLaVAR surclasse dans la compréhension visuelle et textuelle, marquant une nouvelle ère dans les modèles d’instruction multimodale.
- Les LLM peuvent-ils générer des preuves mathématiques qui peuvent être rigoureusement vérifiées ? Découvrez LeanDojo un terrain de jeu d’IA open-source avec des outils, des références et des modèles pour les grands modèles de langage afin de prouver des théorèmes formels dans l’assistant de preuve Lean.
- Baidu Ernie 3.5 émerge en tant que champion de l’IA de langue chinoise mais est-il vraiment meilleur que ChatGPT ?
- Approches d’apprentissage en contexte dans les grands modèles linguistiques
- Contextual AI présente LENS un cadre d’intelligence artificielle pour les modèles de langue augmentés par la vision qui surpasse Flamingo de 9% (56->65%) sur VQAv2.
- Avec cinq nouveaux modèles multimodaux à travers les échelles 3B, 4B et 9B, l’équipe OpenFlamingo publie OpenFlamingo v2 qui surpasse le modèle précédent.