Cette newsletter sur l’IA est tout ce dont vous avez besoin #68

Cette newsletter sur l'IA est tout ce dont vous avez besoin #68 L'essentiel de l'intelligence artificielle

Ce qui s’est passé cette semaine en IA par Louie

Cette semaine, nous avons assisté à l’introduction de LLaVA v1.5, un nouveau modèle multimodal open-source qui se présente comme un concurrent de GPT-4 avec des capacités multimodales. Il utilise une simple matrice de projection pour relier l’encodeur de vision pré-entraîné CLIP ViT-L/14 avec Vicuna LLM, ce qui donne un modèle robuste capable de gérer des images et du texte. Le modèle est entraîné en deux étapes : d’abord, la mise à jour de la matrice de projection basée sur un sous-ensemble de CC3M pour une meilleure alignement, puis le modèle entier est affiné pour deux cas d’utilisation spécifiques, Chat Visuel et Réponses Scientifiques, ce qui a donné une précision de pointe sur ce dernier benchmark.

Le modèle, accompagné d’une démonstration gratuite d’accès libre, a attiré l’attention, principalement en raison de ses impressionnantes capacités multimodales. Les utilisateurs ont partagé leur expérience sur plusieurs cas d’utilisation où le modèle offre des recettes de cuisine basées sur une image de la nourriture, résout des codes CAPTCHA, génère des codes d’interface utilisateur ou identifie des objets et des animaux. Le modèle excelle dans toutes les tâches mentionnées et constitue un concurrent sérieux pour GPT-4.

Nous sommes heureux de voir un modèle open-source dans le domaine multimodal et nous espérons que cela pourra conduire à des expérimentations avec de nombreuses nouvelles applications. Nous attendons maintenant un déploiement plus large du modèle vision GPT-4 et du très attendu modèle Google Gemini pour voir comment ils se comparent et ce qui peut être construit !

– Louie Peters – Co-fondateur et PDG de Towards AI

Notre cours de certification gratuit sur l’entraînement et l’affinement des LLM pour la production est maintenant disponible !

https://learn.activeloop.ai/courses/llms

Nous sommes ravis de publier le deuxième cours de certification gratuit de Towards AI sur l’entraînement et l’affinement des LLM pour la production en collaboration avec Activeloop et l’Initiative Intel Disruptor. Dans ce cours, vous découvrirez les subtilités de l’entraînement, de l’affinement et de l’intégration transparente de ces modèles dans les produits d’IA. Ce cours vous guidera dans la construction d’une pile d’IA de pointe et rentable pour la préparation des LLM pour la production. Il abordera également des sujets essentiels tels que les modèles propriétaires par rapport aux modèles open-source, les différentes méthodologies d’entraînement des LLM et les stratégies de déploiement en production. Nous aborderons également des techniques d’affinement avancées telles que LoRA, QLoRA, SFT et RLHF, ainsi que la formation de modèles personnalisés avec Cohere. Avec le soutien de nos partenaires chez Cohere et Lambda, les participants admissibles recevront des crédits de calcul pour pouvoir exécuter les exemples par eux-mêmes ! Les ~60 tutoriels de leçons avec ~10 projets pratiques approfondis et neuf vidéos accompagnantes sont maintenant disponibles sur la page du cours.

Dernières actualités

1. Meta dévoile discrètement Llama 2 Long IA qui bat GPT-3.5 Turbo et Claude 2 sur certaines tâches

Meta lance Llama 2 Long, une version améliorée de Llama 2 qui a subi un pré-entraînement continu avec de plus longues séquences d’entraînement et des textes longs suréchantillonnés. En ajoutant 400 milliards de jetons et en apportant de légères modifications à l’Encodage de Position Rotatif (RoPE), Llama 2 Long peut maintenant prendre en compte des séquences d’informations plus longues et inclure moins d’informations non pertinentes dans la base de connaissances de son modèle.

2. Microsoft va dévoiler une puce IA interne, réduisant la dépendance à NVIDIA

Microsoft prévoit de lancer sa première puce d’IA le mois prochain. Surnommée “Athena”, cette puce pourrait permettre à Microsoft de réduire sa dépendance vis-à-vis des GPU conçus par NVIDIA pour l’accélération de l’IA dans les centres de données.

3. OpenAI explore la possibilité de créer ses propres puces d’IA

OpenAI envisage de développer ses propres puces d’IA pour ChatGPT en raison de la pénurie mondiale de processeurs pour l’entraînement des modèles d’IA. Cette décision pourrait aider à réduire les coûts d’exploitation élevés de ChatGPT, qui s’élèvent actuellement à 700 000 dollars par jour. La décision d’OpenAI pourrait diverger de celle de Microsoft, leur partenaire, qui travaille également sur ses propres puces d’IA.

4. Présentation de Stable LM 3B : Des modèles linguistiques durables et performants pour les appareils intelligents

Stability AI a présenté Stable LM 3B, un modèle linguistique performant conçu pour les appareils intelligents. Avec 3 milliards de paramètres, il surpasse les modèles 3B de pointe et réduit les coûts d’exploitation et la consommation d’énergie. Le modèle permet une plus large gamme d’appareils intelligents, de PC et d’applications de calcul en périphérie.

5. Replit AI pour tous

Replit met gratuitement à disposition de tous ses plus de 23 millions d’utilisateurs ses capacités d’IA. Les fonctionnalités d’achèvement de code et d’assistance au code sont désormais activées par défaut. Replit a également formé un nouveau modèle, replit-code-v1.5-3b, pour alimenter ces nouvelles fonctionnalités dans cette diffusion massive.

Cinq lectures/vidéos de 5 minutes pour continuer à apprendre

1. Utilisation des réservoirs d’attention dans les Modèles Linguistiques de Grande Taille pour une fluidité sans fin

L’utilisation de réservoirs d’attention avec des jetons de réservoir permet de maintenir la fluidité des Modèles Linguistiques de Grande Taille (LLM) de type Chat, tels que Llama, Mistral, MPT, Falcon et GPT-NeoX (Pythia), qui rencontrent souvent des limitations de mémoire. Cette méthode gère efficacement les scores d’attention et empêche une perte de fluidité lorsque le premier jeton sort de la fenêtre pendant l’attention en fenêtre.

2. Ajustement fin des modèles à l’aide de l’accordage de la consigne avec la bibliothèque PEFT de Hugging Face

Cet article explore l’ajustement fin à l’aide de l’accordage de la consigne avec la bibliothèque PEFT de Hugging Face. Il approfondit la technique et les applications, en examinant un notebook contenant des exemples de deux modèles différents.

3. Maîtriser la segmentation client avec LLM

Cet article fournit un guide complet sur la segmentation client en tirant parti des LLM. Il aborde des techniques telles que le regroupement K-moyennes, la bibliothèque PyOD pour la détection des valeurs aberrantes, la méthode du coude et la visualisation de la silhouette pour déterminer les clusters optimaux, les mesures d’évaluation, et l’utilisation de l’ACP (Analyse en Composantes Principales), du T-SNE (Stochastic Neighbor Embedding t-distributed) et des LLM pour extraire des embeddings de texte.

4. Risques de sécurité lors de l’ajustement fin des LLM

Cet article met en évidence les risques potentiels de sécurité lors de la personnalisation des modèles de langage de grande taille pré-entraînés, tels que le Llama de Meta et le GPT-3.5 Turbo d’OpenAI. Alors que les infrastructures de conformité existantes peuvent restreindre les comportements nocifs des LLM lors de l’inférence, elles ne couvrent pas les risques de sécurité lorsque les privilèges d’ajustement fin sont étendus aux utilisateurs finaux.

5. Le parrain de l’intelligence artificielle Geoffrey Hinton sur les promesses et les risques pour l’IA avancée

Geoffrey Hinton estime que les systèmes d’IA pourraient être plus intelligents que nous ne le pensons, et il existe une possibilité que les machines prennent le contrôle. Ceci est une transcription de sa conversation sur les risques de l’IA, le futur, l’IA consciente et plus encore.

Articles et référentiels

1. Amélioration des modèles de langage en streaming avec des points d’attention

Des chercheurs du MIT, de Meta AI et de Carnegie Mellon ont développé StreamingLLM, un cadre qui permet la modélisation du langage d’une longueur infinie dans LLMs sans réglage fin coûteux. Cette approche efficace permet aux modèles comme GPT-3 et PaLM de gérer des contextes dépassant 4 millions de jetons en utilisant des jetons d’attention sink, améliorant considérablement les performances.

2. Il y a encore du chemin à parcourir: Étude des corrélations de longueur dans RLHF

Cet article démontre que l’optimisation de la longueur de réponse est un facteur significatif derrière les améliorations rapportées de RLHF dans ces paramètres. Il explore des interventions visant à reproduire ces améliorations sans augmenter la taille, mais leur efficacité varie.

3. Des chercheurs de Meta et de l’INRIA découvrent que les registres explicites éliminent les pics d’attention ViT

Des chercheurs de Meta et de l’INRIA ont découvert une nouvelle approche pour aborder les pics d’attention des Vision Transformers (ViTs). L’introduction de jetons «registres» dédiés pour le stockage temporaire permet des cartes d’attention plus régulières, une meilleure performance en aval et de meilleures capacités de découverte d’objets dans les ViTs.

4. Bases améliorées avec l’ajustement des instructions visuelles

Des chercheurs ont considérablement amélioré le LLaVa multimodal LLM en utilisant CLIP-ViT-L-336px et la projection MLP. En incorporant des données VQA orientées vers des tâches académiques et des invitations de réponse, le checkpoint final de 13B a atteint des performances remarquables sur divers référentiels. De plus, il ne nécessite que 1,2 million de données disponibles publiquement et peut être entièrement entraîné sur un seul nœud 8-A100 en une journée seulement.

5. Réfléchissez avant de parler: Entraînement des modèles de langage avec des jetons de pause

Une étude récente suggère que l’utilisation de jetons de pause dans les modèles de langage peut permettre des calculs plus approfondis avant de générer le jeton suivant, ce qui améliore les performances dans les tâches de raisonnement. L’étude a révélé des gains significatifs dans des tâches telles que la réponse aux questions et le raisonnement.

Vous aimez ces articles et résumés d’actualités ? Recevez un récapitulatif quotidien dans votre boîte de réception !

Section de la communauté Learn AI Together !

Podcast hebdomadaire sur l’IA

Dans cet épisode du podcast “Qu’est-ce que l’IA”, Louis Bouchard interviewe l’incroyable Auxane Boch. Avec un accent sur l’éthique de l’IA, cette itération explore le monde de l’éthique et de la gouvernance de l’IA avec un expert, en examinant les pratiques d’IA responsables, l’équilibre entre l’innovation et la réglementation, et le rôle de l’éthique dans le développement et le déploiement de l’IA. Auxane partage des informations sur la manière dont les entreprises peuvent naviguer dans ce paysage, notamment avec les réglementations imminentes de l’UE. Regardez l’épisode complet sur YouTube ou écoutez-le sur votre plateforme d’écoute en streaming préférée.

Mème de la semaine !

Mème partagé par rucha8062

Article communautaire en vedette provenant du Discord

Dogecoin a créé InfoGPT, un chatbot capable de répondre aux questions sur des documents. Il est construit avec Langchain, LlamaCPP, Streamlit, ChromaDB et Sentence Transformers. Il est compatible avec les fichiers PDF, TXT, CSV et DOCX. Allez voir sur GitHub et soutenez un membre de la communauté ! Partagez vos commentaires et contributions dans le fil de discussion ici.

Sondage IA de la semaine !

Rejoignez la discussion sur Discord.

Section TAI sélectionnée

Article de la semaine

Apprentissage par renforcement : Approximation de fonctions et Deep Q-Networks – Partie 4 par Tan Pengshi Alvin

Cet article explore deux types d’approximation de fonction de valeur. Le premier est la méthode incrémentale par descente de gradient stochastique avec une équation linéaire et des méthodes de différence temporelle. L’article aborde également les célèbres Deep Q-Networks (DQN). Les Deep Q-Networks sont l’extension d’approximation de fonction à l’apprentissage Q-Learning hors politique.

Nos articles incontournables

Traitement des fuites de données : considérations essentielles pour des modèles d’apprentissage automatique fiables par Mala Deep

Vous connaissez probablement les GANs, mais savez-vous comment les entraîner ? par Youssef Hosni

Introduction complète à la génération d’images d’IA par Youssef Hosni

Si vous souhaitez publier avec Towards AI, consultez nos directives et inscrivez-vous. Nous publierons votre travail sur notre réseau s’il respecte nos politiques et normes éditoriales.

Offres d’emploi

Ingénieur Prompt — 061023 chez Sirion Pte Ltd (à distance/Canada)

Chercheur scientifique en recherche en apprentissage automatique chez Neural Magic (à distance)

Ingénieur en apprentissage automatique chez Callsign (Londres, Royaume-Uni)

Scientifique des données principal (WA) chez Tiger Analytics (Seattle, WA, USA)

Ingénieur en apprentissage automatique du personnel @Clari (à distance)

Développeur junior avec Python (temporaire) @Clarity AI (à distance)

Gestionnaire, plateformes de données @Angi (à distance)

Intéressé par le partage d’une opportunité d’emploi ici? Contactez .

Si vous préparez votre prochain entretien sur l’apprentissage automatique, n’hésitez pas à consulter notre site web de préparation aux entretiens de premier plan, confetti!

https://www.confetti.ai/

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Ensemble AI lance RedPajama v2 un ensemble de données ouvert avec 30 billions de jetons pour former de grands modèles de langage.

Des données de haute qualité sont essentielles à la réussite des LLM ouverts de pointe tels que Llama, Mistral, Falco...

AI

Des chercheurs du MIT et de Microsoft présentent DoLa une nouvelle stratégie de décodage de l'IA visant à réduire les hallucinations dans les LLM.

De nombreuses applications de traitement du langage naturel (NLP) ont bénéficié grandement de l’utilisation de ...

AI

Découvrez T2I-Adapter-SDXL Petits modèles de contrôle efficaces

Les T2I-Adapters sont des outils plug-and-play qui améliorent les modèles texte-image sans nécessiter de ré-entraînem...

AI

Cette recherche en IA propose DISC-MedLLM une solution complète qui exploite les grands modèles de langage (LLMs) pour fournir des réponses médicales précises.

L’avènement de la télémédecine a changé la manière dont les soins de santé sont dispensés, ouvrant des réseaux ...

AI

Les chercheurs de l'Université de Boston publient la famille de LLMs finement réglés Platypus pour obtenir un affinement bon marché, rapide et puissant des LLMs de base.

Les grands modèles de langage (LLM) ont fait sensation dans le monde. Ces modèles super efficaces et efficaces sont l...