Découvrez FACTOOL un cadre polyvalent pour détecter les erreurs factuelles des textes générés par de grands modèles de langage (par exemple, ChatGPT).

Découvrez FACTOOL, un cadre polyvalent pour détecter les erreurs factuelles des textes générés.

GPT-4 est un exemple de technologie d’intelligence artificielle (IA) générative, qui combine plusieurs tâches de traitement du langage naturel en une seule séquence génératrice. Avec une efficacité et une interactivité exceptionnelles, cette architecture unifiée permet aux utilisateurs d’exécuter diverses activités (y compris la génération de code, la résolution de problèmes mathématiques et la création de publications scientifiques) à l’aide d’une interface de langage naturel. Cependant, un tel paradigme génératif apporte également certaines difficultés particulières. En raison des limitations des grands modèles de langage (LLMs), le texte généré automatiquement affiche souvent des erreurs ou des écarts par rapport à la vérité.

Les LLM sont enclins à créer des informations convaincantes, mais peuvent avoir besoin d’être plus précis ou précis dans leurs faits. Cette contrainte limite l’utilisation de l’IA générative dans plusieurs industries à hauts risques, comme la santé, la finance et le droit. L’utilité et la fiabilité du matériel créé doivent donc être améliorées en identifiant méthodiquement ces erreurs. Par exemple, les modèles de vérification augmentée par récupération pour l’assurance qualité, les modèles de détection d’hallucination pour la résumé de texte et les modèles d’évaluation basés sur l’exécution pour le code sont quelques exemples des tâches spécifiques uniques qui sont au centre de la littérature actuelle sur la détection et la réduction des erreurs factuelles produites par les modèles d’apprentissage automatique.

Étant donné la flexibilité extraordinaire des activités et des domaines traités par les LLM, ces approches ont montré leur succès dans leurs domaines respectifs. Cependant, il est également crucial d’avoir un cadre de détection et de vérification de la facticité plus approfondi et adaptable. De plus, le problème de la détection de la facticité est souvent condensé dans la littérature actuelle en (i) évaluant si une affirmation est factuellement exacte compte tenu d’une affirmation ou (ii) en détectant si une affirmation produite est étayée par des preuves données.

Dans les tâches d’écriture que les utilisateurs accomplissent fréquemment lorsqu’ils interagissent avec des modèles génératifs (comme ChatGPT), où ils doivent souvent évaluer la facticité d’une génération à longue forme sans revendications et preuves explicites, cette définition de tâche doit être mieux adaptée. Dans cette étude, des chercheurs de l’Université Jiao Tong de Shanghai, de l’Université Carnegie Mellon, de l’Université de Hong Kong, de l’Université de New York, de Meta AI, de l’Université de Hong Kong des Sciences et Technologies et du Laboratoire d’Intelligence Artificielle de Shanghai proposent FACTOOL, un cadre agnostique de tâche et de domaine qui recherche les erreurs factuelles dans les documents produits par LLM. La capacité à utiliser des outils dans les LLM est essentielle pour la détection de la facticité, comme le montre la figure 1, où ils relient les concepts d'”utilisation d’outils” et de “détection de la facticité” et expliquent leur approche.

Figure 1: Cadre de détection de la facticité avec augmentation d’outils.

Pour obtenir une preuve de la facticité des informations créées, FACTOOL utilise spécifiquement diverses ressources, telles que la recherche Google, Google Scholar, les interprètes de code, Python ou même les LLM. De plus, leur méthodologie utilise les compétences de réflexion critique des LLM pour évaluer la facticité du contenu à la lumière des données disponibles. Ils créent un benchmark et réalisent des expériences pour quatre tâches :

  • Assurance qualité basée sur les connaissances
  • Création de code
  • Résolution de problèmes mathématiques
  • Rédaction de revues de littérature scientifique

Ils abordent la tâche d’identification de la facticité et l’élargissent pour permettre un audit plus approfondi des modèles d’IA générative les plus récents. Pour fournir un cadre unifié et adaptable pour l’identification de la facticité dans divers domaines et activités, ils intègrent “l’utilisation d’outils” et “la détection de la facticité”. GPT-4 a la plus grande facticité dans pratiquement toutes les situations, selon leur analyse de la facticité des chatbots contemporains utilisant FACTOOL. Les tests d’assurance qualité basés sur les connaissances révèlent que les chatbots soigneusement affinés (Vicuna-13B) ont une facticité respectable. Cependant, ils rencontrent des difficultés avec des tâches plus complexes comme la rédaction de revues de littérature scientifique et la résolution de problèmes arithmétiques.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Système ML basé sur la lumière pourrait donner des LLMs plus puissants et efficaces

Une équipe de chercheurs a mis au point un système d'apprentissage automatique basé sur la lumière qui pourrait surpa...

Apprentissage automatique

Types de fonctions d'activation dans les réseaux neuronaux

Les fonctions d’activation pour les réseaux neuronaux sont une partie essentielle de l’apprentissage prof...

AI

Les lauréats passent outre le battage médiatique dans l'IA générative

Les participants du Forum des lauréats de Heidelberg de cette année se réjouissent des futures applications de la tec...

AI

Le Web Crawler d'OpenAI et les erreurs de la FTC

OpenAI lance un crawler par défaut permettant de collecter des informations sur Internet, tandis que la FTC mène une ...

AI

Réinventer l'utopie des communautés auto-créées pour l'ère numérique

Jon Hillis utilise les technologies numériques pour créer un réseau de communautés de vie en co-génération, telles qu...