Cette newsletter sur l’IA est tout ce dont vous avez besoin #58
Newsletter IA #58
Ce qui s’est passé cette semaine dans le domaine de l’IA par Louie
Cette semaine, nous avons été enthousiasmés par deux nouvelles avancées dans le domaine de l’IA en dehors de la NLP. La dernière avancée de Meta AI concerne le dévoilement de leur application de simulateur Open Catalyst, qui vient d’être publiée en tant que démo. En exploitant la puissance de l’IA, cette application peut prédire la réactivité des matériaux catalyseurs avec une vitesse remarquable, surpassant les méthodes existantes près de 1000 fois. L’équipe est convaincue que cette technologie a le potentiel d’accélérer considérablement la découverte de matériaux rentables. Bien que nous pensons que la science des matériaux est un sujet plus complexe pour l’apprentissage automatique que les protéines (et AlphaFold), nous voyons un grand potentiel pour des modèles similaires pour aider les chercheurs à rechercher des matériaux potentiellement intéressants dans l’espace. À l’avenir, nous nous attendons également à voir des modèles publiés pour contribuer à la recherche de supraconducteurs, sujet d’actualité cette semaine où une percée potentielle est mise en avant !
Dans une autre annonce passionnante, Google a introduit le modèle Robotics Transformer 2 (RT-2), qu’ils appellent le premier modèle vision-langage-action (VLA) au monde. Le réseau est entraîné à l’aide de texte et d’images extraites du Web, ce qui lui permet de produire directement des actions robotiques en tant que sortie avec une petite quantité de données d’entraînement de robot. Le modèle montre une capacité remarquable à comprendre des commandes complexes, telles que “jeter les ordures”. Il y parvient en effectuant un raisonnement complexe. Par exemple, en reconnaissant que la peau de banane devient des ordures après avoir été consommée et en comprenant autonomement le concept de jeter les ordures, même sans formation explicite sur la tâche spécifique. Lors des essais, le modèle RT-2 a démontré une amélioration significative des performances sur des scénarios inconnus, atteignant deux fois l’efficacité de sa version précédente.
Alors que nous sommes entourés d’un flot constant de nouvelles passionnantes dans la NLP, il est rafraîchissant de voir deux avancées tout aussi excitantes dans d’autres applications de l’IA cette semaine, notamment dans les domaines de la robotique et des sciences des matériaux. Nous sommes ravis de voir les récents progrès et la vague d’investissements dans la NLP commencer à accélérer les progrès dans d’autres domaines.
– Louie Peters – Co-fondateur et PDG de Towards AI
- ChatGPT et l’ingénierie avancée des prompts Stimuler l’évolution de l’IA
- Détectez tout ce que vous voulez avec UniDetector
- Libérer le potentiel de la condensation des ensembles de données SRe^2L atteint une précision record sur ImageNet-1K.
Nouvelles les plus récentes
- Rencontrez FreeWilly, nos modèles d’instructions larges et puissants
Stability AI et son laboratoire CarperAI ont publié Stable Beluga 1 et son successeur, Stable Beluga 2 (anciennement connu sous le nom de code FreeWilly). Stable Beluga 1 s’appuie sur le modèle de base LLaMA 65B d’origine et a été affiné à l’aide de techniques de réglage fin supervisé (SFT). De même, Stable Beluga 2 s’appuie sur le modèle de base LLaMA 2 70B. Les deux modèles sont disponibles au public sous licence non commerciale.
2. Stability AI annonce Stable Diffusion XL 1.0
Stability AI a annoncé la sortie de Stable Diffusion XL (SDXL) 1.0, la version la plus avancée de sa suite de modèles de texte vers image. SDXL est un modèle d’image en accès libre avec un pipeline d’ensemble de modèles de 6,6 milliards de paramètres, démontrant des améliorations significatives en termes de couleur, de contraste, d’éclairage et d’ombre.
3. Stack Overflow annonce OverflowAI
Stack Overflow intègre l’IA générative dans sa plateforme avec OverflowAI. Cela inclut la recherche sémantique et des résultats personnalisés utilisant une base de données vectorielle. De plus, ils améliorent les capacités de recherche sur différentes plateformes et introduisent une fonctionnalité d’ingestion de connaissances d’entreprise pour Stack Overflow for Teams.
4. Présentation du modèle de langage Bittensor – Un modèle de 3 milliards de paramètres de pointe pour les appareils mobiles et Edge
L’Opentensor Foundation et Cerebras sont heureux d’annoncer Bittensor Language Model (BTLM), un nouveau modèle de langage de pointe de 3 milliards de paramètres qui atteint une précision exceptionnelle sur une douzaine de références en IA. Il fonctionne efficacement sur les appareils mobiles et Edge avec une quantité limitée de RAM, réduisant ainsi le besoin d’une infrastructure cloud centralisée.
5. OpenAI abandonne le détecteur de texte écrit par l’IA en raison d’un “taux de précision faible”
OpenAI a décidé de mettre fin à son classificateur IA en raison de son faible taux de précision pour détecter du texte généré par l’IA. Le développement rapide de grands modèles de langage a rendu difficile l’identification efficace de caractéristiques ou de motifs.
Cinq lectures/vidéos de 5 minutes pour continuer à apprendre
- L’histoire des LLM open-source : de meilleurs modèles de base
Cet article est la deuxième partie d’une série en trois parties sur l’histoire des LLM open-source. Il aborde des sujets tels que les premiers jours des LLM open-source, la révolution actuelle dans la construction de meilleurs modèles de base, et les tendances actuelles et futures des LLM open-source.
2. Construction d’applications d’IA génératives avec Gradio
Hugging Face et DeepLearning.ai ont lancé un nouveau cours court sur la construction d’applications d’IA génératives avec Gradio. Le cours se concentre sur la création d’applications conviviales utilisant des modèles de langage open source, avec des projets allant de la résumé de texte à l’analyse d’image et à la génération d’image.
3. Construire un générateur de graphiques IA qui s’adapte à tout type de jeu de données, en seulement 50 lignes
Il s’agit d’un tutoriel pour développer un générateur de graphiques automatisé. Avec ce tutoriel, les développeurs peuvent facilement créer des générateurs de graphiques IA en utilisant GPT-3.5 ou GPT-4 avec Langchain, en ne nécessitant que 50 lignes de code.
4. Automatisation de la recherche sur le Web
Cet article explore le développement d’agents de recherche sur le Web. L’approche consiste à utiliser un LLM pour générer des requêtes de recherche, exécuter des recherches, extraire des pages, indexer des documents et trouver les résultats les plus pertinents pour chaque requête.
5. Création d’un générateur automatisé de procès-verbaux de réunion avec Whisper et GPT-4
Ce guide explore le développement d’un outil de génération de procès-verbaux de réunion qui exploite Whisper et GPT-4 pour résumer efficacement les discussions, extraire les détails importants et analyser les sentiments.
Articles et référentiels
- karpathy/llama2.c : Inférence de Llama 2 dans un seul fichier de pur C
Andrew Karpathy a publié une implémentation éducative de l’inférence LLaMA 2 en C pur. Ce projet vous permet de former une architecture LLaMA 2 LLM avec PyTorch, puis de charger les poids dans un seul fichier C pour une inférence efficace.
2. Attaques universelles et transférables sur les modèles de langage alignés
Une étude récente explore la construction automatique d’attaques adverses sur des modèles de langage open source et propriétaires, les rendant susceptibles de recevoir des commandes dangereuses. Ces attaques se transmettent également aux chatbots largement utilisés, soulevant des inquiétudes quant à la possibilité de corriger efficacement ces vulnérabilités.
3. FLASK : Évaluation fine des modèles de langage basée sur des ensembles de compétences d’alignement
Cet article présente FLASK, un protocole d’évaluation spécifiquement conçu pour l’évaluation des performances des LLM. Il décompose les évaluations en 12 ensembles de compétences différents, permettant une analyse détaillée des performances d’un modèle en fonction de compétences spécifiques telles que la robustesse logique, la factualité et la compréhension.
4. Un agent Web du monde réel avec planification, compréhension à long terme du contexte et synthèse de programmes
WebAgent, un agent piloté par LLM, utilise Flan-U-PaLM et HTML-T5 pour améliorer la navigation autonome sur le Web et l’achèvement des tâches sur de vrais sites Web. En décomposant les instructions, en résumant les documents HTML et en générant des programmes Python, il obtient une augmentation de 50% des taux de réussite par rapport aux modèles précédents.
5. WebArena : Un environnement Web réaliste pour la création d’agents autonomes
WebArena est un environnement Web réaliste qui permet aux agents autonomes de développer leurs compétences dans des tâches liées au commerce électronique, aux forums sociaux, au développement de logiciels et à la gestion de contenu. Il fournit des références pour évaluer l’achèvement des tâches et met en évidence la nécessité d’améliorer les agents, car même des modèles avancés comme GPT-4 n’ont qu’un taux de réussite de seulement 10,59%.
Vous aimez ces articles et résumés de nouvelles ? Recevez un récapitulatif quotidien dans votre boîte de réception !
La section de la communauté Learn AI Together !
AI4 2023 : La conférence de l’IA leader de l’industrie
N’oubliez pas de nous rejoindre à l’AI4 2023, la conférence de l’IA leader de l’industrie, qui se tiendra à Las Vegas du 7 au 9 août au MGM Grand. En savoir plus sur la croissance de l’AI4 qui reflète l’adoption de l’IA par l’industrie et rejoignez plus de 2200 leaders de l’IA, 240 conférenciers et 100 exposants d’IA de pointe. Demandez un laissez-passer gratuit.
Date : 7 au 9 août 2023 (MGM Grand, Las Vegas)
Mème de la semaine !
Mème partagé par archiesnake
Publication communautaire en vedette du Discord
Operand a partagé sa bibliothèque Python open-source pour l’intégration d’agents, conçue pour compléter les bibliothèques existantes telles que HF Agent API et LangChain. La bibliothèque vous permet de connecter des agents à des systèmes logiciels et des utilisateurs humains en définissant des actions, des rappels et des politiques d’accès, facilitant ainsi l’intégration, la surveillance et le contrôle de vos agents. L’agence gère les détails de communication et permet de découvrir et d’invoquer des actions entre les parties. Consultez-le sur GitHub et soutenez un membre de la communauté. Partagez vos commentaires et comment vous l’utilisez dans le fil de discussion ici.
Sondage AI de la semaine !
Rejoignez la discussion sur Discord.
Section TAI sélectionnée
Article de la semaine
LangChain 101 : Partie 1. Construction d’une application de questions-réponses simples par Ivan Reznikov
LangChain est un framework puissant pour créer des applications qui génèrent du texte, répondent aux questions, traduisent des langues et effectuent de nombreuses autres tâches liées au texte. Cet article marque le début du cours LangChain 101. À partir de cet article, l’auteur aborde les concepts, les pratiques et les expériences en vous montrant comment construire vos propres applications LangChain.
Nos articles incontournables
Modern NLP : Un aperçu détaillé. Partie 3 : BERT par Abhijit Roy
Oubliez les 32K de GPT4 : LongNet possède un contexte d’un milliard de tokens par le Dr Mandar Karhade, MD, PhD.
Explication du document Graph Attention Networks avec illustration et implémentation PyTorch par Ebrahim Pichka
Si vous êtes intéressé par la publication avec Towards AI, consultez nos directives et inscrivez-vous. Nous publierons votre travail sur notre réseau s’il répond à nos politiques et normes éditoriales.
Offres d’emploi
Ingénieur logiciel III (Drupal) @ Clarity Innovations, Inc. (à distance)
Ingénieur en logiciel de systèmes distribués @ INSHUR (Brighton, Royaume-Uni)
Stagiaire – Stagiaires en génie logiciel – ACI 01 @ Activate Interactive Pte Ltd (Singapour)
Ingénieur en apprentissage automatique (risque) @ SHIELD (Singapour)
Ingénieur en apprentissage automatique @ Robotec.ai sp. z o.o. (Varsovie, Pologne / Pigiste)
Ingénieur en apprentissage automatique, inférence rapide et optimisée @ Hugging Face (US à distance)
Vous souhaitez partager une opportunité d’emploi ici ? Contactez [email protected].
Si vous préparez votre prochain entretien sur l’apprentissage automatique, n’hésitez pas à consulter notre site web de préparation d’entretien leader, confetti !

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Des chercheurs de l’Université nationale de Singapour proposent Mind-Video un nouvel outil d’IA qui utilise des données d’IRMf du cerveau pour recréer des images vidéo.
- Des chercheurs de l’Université du Texas à Austin et de l’Université de Californie à Berkeley présentent Ambient Diffusion un cadre d’intelligence artificielle pour former/affiner des modèles de diffusion en ne disposant que de données corrompues en entrée.
- Découvrez QLORA une approche de fine-tuning efficace qui réduit suffisamment l’utilisation de la mémoire pour permettre de fine-tuner un modèle de 65 milliards de paramètres sur une seule GPU de 48 Go tout en préservant les performances complètes de fine-tuning en 16 bits.
- Les LLM surpassent l’apprentissage par renforcement – Découvrez SPRING un cadre novateur de suggestion pour les LLM conçu pour permettre la planification et le raisonnement en chaîne dans le contexte.
- Des chercheurs de l’Université de technologie de Nanyang à Singapour ont introduit ResShift un nouveau modèle d’agrandissement d’image qui utilise le décalage résiduel et permet d’obtenir une super-résolution d’image plus rapidement que d’autres méthodes.
- Les chercheurs de l’UC Berkeley présentent Video Prediction Rewards (VIPER) un algorithme qui exploite les modèles de prédiction vidéo pré-entraînés en tant que signaux de récompense sans action pour l’apprentissage par renforcement.
- DeepMind AI stimule considérablement l’exposition de YouTube Shorts en générant automatiquement des descriptions pour des millions de vidéos