Est-ce que les petits modèles de langue peuvent fournir de hautes performances ? Découvrez StableLM un modèle de langue open source qui peut générer du texte et du code en offrant des performances élevées avec un entraînement adéquat.

Découvrez StableLM, un modèle de langue open source qui peut générer du texte et du code avec de hautes performances grâce à un entraînement adéquat.

Stability AI est une startup dans le domaine de l’intelligence artificielle connue pour sa technologie Stable Diffusion qui génère des images grâce à l’IA. Aujourd’hui, elle a introduit un nouveau modèle de langage gratuit et open source appelé StableLM. Le modèle est proposé en trois tailles de paramètres différentes pour la phase Alpha : trois milliards, sept milliards, quinze milliards et soixante-cinq milliards. Selon les règles de la licence CC BY-SA-4.0, les développeurs peuvent examiner, utiliser et modifier les modèles de base de StableLM pour des projets personnels et commerciaux.

Le modèle d’image Stable Diffusion révolutionnaire, qui offre une alternative plus ouverte, évolutive et transparente à l’IA propriétaire, a été rendu public en 2022 grâce aux efforts de Stability AI. Stability AI a publié l’ensemble de modèles StableLM, poursuivant ainsi sa mission de démocratisation des capacités de base de l’IA. Les modèles StableLM alimenteront différentes applications avec des capacités de génération de texte et de code. Ils montrent comment de petits modèles efficaces peuvent être entraînés pour bien fonctionner. 

Le travail précédent de l’équipe avec EleutherAI, un centre de recherche à but non lucratif, leur a permis de poser les bases de la sortie de StableLM. L’ensemble de données open source Pile a été utilisé pour former plusieurs modèles de langage populaires, tels que GPT-J, GPT-NeoX et la suite Pythia. Cerebras-GPT et Dolly-2 ne sont que deux exemples parmi les nombreux nouveaux modèles de langage open source qui étendent ces modèles précédents.

L’ensemble de données expérimental utilisé pour enseigner StableLM est basé sur The Pile, mais il est trois fois plus grand, avec 1,5 billion de jetons. Malgré le fait de n’avoir que 3 à 7 milliards de paramètres (GPT-3 en a 175 milliards), StableLM obtient des performances exceptionnelles, inattendues, dans les tâches de conversation et de codage grâce à la richesse de cet ensemble de données. Les informations sur l’ensemble de données seront rendues publiques à une date ultérieure.

Ils ont publié une collection de modèles de recherche optimisés pour une utilisation en classe. Ces modèles affinés utiliseront d’abord des données provenant de cinq ensembles de données récemment publiés d’agents de conversation open source : Alpaca, GPT4All, Dolly, ShareGPT et HH. Conformément à la licence Alpaca de Stanford, ces modèles affinés sont disponibles sous une licence CC BY-NC-SA 4.0 non commerciale pour la recherche universitaire.

StableLM illustre la vision de l’équipe de développer une technologie IA ouverte, accessible et utile grâce aux capacités suivantes : 

  1. Transparence : Pour confirmer les performances, établir des approches d’interprétation, identifier les dangers et aider à créer des garanties, les chercheurs peuvent “regarder sous le capot”. Sans divulguer d’informations privées ou renoncer à leur autorité sur les capacités de l’IA, les entreprises et les organismes gouvernementaux peuvent modifier (ou “ajuster”) ces modèles open source pour répondre à leurs besoins.
  2. Accessibilité : L’équipe construit pour le grand public afin qu’il puisse utiliser leurs modèles sur leurs appareils. Au lieu de dépendre de services exclusifs de quelques entreprises, les développeurs peuvent utiliser ces modèles pour créer des applications qui fonctionnent avec une plus grande gamme de matériels disponibles publiquement. Les avantages économiques de l’IA sont répartis entre un grand nombre d’utilisateurs et de créateurs de cette manière. Les modèles proposés sont ouverts et granulaires, permettant aux chercheurs et aux universitaires de dépasser les limites des modèles fermés en termes d’interprétabilité et de sécurité.
  3. Soutien : Ces modèles sont conçus pour aider les clients, pas pour les remplacer. Au lieu de rechercher une intelligence surhumaine, l’équipe se concentre sur l’amélioration de la capacité de l’IA à exécuter des tâches spécifiques dans des contextes réels. Ils développent des ressources qui permettent aux personnes ordinaires et aux entreprises de tirer parti du potentiel de l’IA pour favoriser l’innovation, augmenter la production et élargir les horizons économiques. 

L’équipe souligne que la qualité des réponses qu’un utilisateur reçoit peut varier et qu’elles peuvent contenir un langage désagréable ou des opinions, comme c’est le cas avec tout modèle de langage pré-entraîné de grande taille qui manque de réglage fin et d’apprentissage par renforcement. L’échelle, l’augmentation des données, les retours de la communauté et l’optimisation sont autant de facteurs qui devraient conduire à une amélioration considérable.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Recherche en IA

Système de deep-learning explore l'intérieur des matériaux depuis l'extérieur

Une nouvelle méthode pourrait fournir des informations détaillées sur les structures internes, les vides et les fissu...

AI

Grands modèles de langage, MirrorBERT - Transformer les modèles en encodeurs lexicaux et de phrases universels

Il n'est pas un secret que les modèles similaires à BERT jouent un rôle fondamental dans les applications modernes de...

AI

You.com lance le YouRetriever L'interface la plus simple pour l'API de recherche de You.com

You.com a lancé le YouRetriever, l’interface la plus simple pour l’API de recherche You.com. L’API ...

AI

Tromper les classificateurs forensiques Le pouvoir des modèles génératifs dans la génération de visages adversaires

Les avancées récentes en apprentissage profond (DL), plus précisément dans le domaine des réseaux antagonistes généra...

AI

ChatGPT a-t-il tout simplement planté ? Le temps d'arrêt de l'IA d'OpenAI et sa récupération rapide !

La communauté de l’intelligence artificielle a connu un léger revers. ChatGPT, un chatbot développé par OpenAI,...

Science des données

5 Leçons essentielles pour les jeunes Data Scientists que j'ai apprises chez Spotify (Partie 2)

Cet article est la deuxième partie de la série Chroniques d'un scientifique des données lors des premières années. As...