Vectara lance un modèle révolutionnaire à code source ouvert pour évaluer et résoudre les hallucinations dans les modèles de langage d’IA.

Vectara présente un modèle révolutionnaire à code source ouvert pour évaluer et résoudre les hallucinations dans les modèles de langage d'IA.

Dans une démarche sans précédent visant à favoriser la responsabilisation dans le domaine en constante évolution de l’intelligence artificielle générateur (GenAI), Vectara a publié un modèle d’évaluation d’hallucination open-source, marquant une étape significative vers la normalisation de la mesure de l’exactitude factuelle des modèles de langage de grande envergure (LLM). Cette initiative établit une ressource commerciale et open-source pour évaluer le degré d’« hallucination » ou de divergence par rapport aux faits vérifiables des LLM, associée à un classement dynamique et accessible au public.

Cette publication vise à renforcer la transparence et à fournir une méthode objective pour quantifier les risques d’hallucinations dans les principaux outils GenAI, mesure essentielle pour promouvoir une IA responsable, atténuer la désinformation et soutenir une réglementation efficace. Le modèle d’évaluation d’hallucination est destiné à être un outil essentiel pour évaluer dans quelle mesure les LLM restent ancrés dans les faits lors de la génération de contenu basé sur le matériel de référence fourni.

Le modèle d’évaluation d’hallucination de Vectara, maintenant accessible sur Hugging Face sous une licence Apache 2.0, offre une fenêtre claire sur l’intégrité factuelle des LLM. Auparavant, les affirmations des fournisseurs de LLM concernant la résistance de leurs modèles aux hallucinations restaient en grande partie non vérifiables. Le modèle de Vectara utilise les dernières avancées de la recherche sur l’hallucination pour évaluer de manière objective les résumés des LLM.

En accompagnement de cette publication, un classement, similaire à un score FICO pour l’exactitude GenAI, est maintenu par l’équipe de Vectara en collaboration avec la communauté open-source. Il classe les LLM en fonction de leurs performances dans un ensemble standardisé de prompts, offrant aux entreprises et aux développeurs des informations précieuses pour la prise de décision éclairée.

Les résultats du classement indiquent que les modèles d’OpenAI sont actuellement en tête en termes de performances, suivis de près par les modèles Llama 2, avec Cohere et Anthropic également affichant de bons résultats. Les modèles Palm de Google, en revanche, ont obtenu des scores plus bas, reflétant l’évolution continue et la concurrence dans le domaine.

Si ce modèle de Vectara n’est pas une solution aux hallucinations, il s’agit d’un outil décisif pour une adoption plus sûre et plus précise de GenAI. Son introduction intervient à un moment critique, alors que l’attention est portée sur les risques de désinformation à l’approche d’événements importants tels que les élections présidentielles américaines.

Le modèle d’évaluation des hallucinations et le classement sont destinés à jouer un rôle essentiel dans la promotion d’une approche basée sur les données pour la réglementation de GenAI, en offrant une référence standard attendue depuis longtemps par l’industrie et les organismes de réglementation.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Découvrez DiffBIR une approche d'IA qui résout le problème de restauration d'image aveugle en utilisant des modèles de diffusion texte-vers-image pré-entraînés.

Avec l’avancée significative dans le domaine de l’Intelligence Artificielle, les sous-domaines de l’...

AI

Top 50+ Outils d'assistance à la programmation IA en 2023

ChatGPT ChatGPT est capable d’écrire du code sans s’appuyer sur des références de code existantes. De plu...

Recherche en IA

Les chercheurs de Microsoft présentent KOSMOS-2 un modèle linguistique multimodal de grande envergure capable de se connecter au monde visuel.

Les modèles linguistiques multimodaux de grande taille (MLLMs) ont démontré leur succès en tant qu’interface po...