Des chercheurs de Salesforce AI et de l’Université Columbia présentent DialogStudio une collection unifiée et diverse de 80 ensembles de données de dialogue conservant leurs informations d’origine.
Des chercheurs de Salesforce AI et de l'Université Columbia présentent DialogStudio, une collection de 80 ensembles de données de dialogue conservant leurs informations d'origine.
L’IA conversationnelle a connu des avancées significatives ces dernières années, permettant des interactions similaires à celles entre humains et machines. L’un des composants clés qui sous-tend ce progrès est la disponibilité de vastes ensembles de données variées, qui servent de base à la formation de modèles de langage sophistiqués. Les chercheurs de Salesforce AI et de l’Université de Columbia présentent DialogStudio, une initiative révolutionnaire offrant une collection complète d’ensembles de données de dialogue unifiés pour la recherche sur des ensembles de données individuels et la formation de modèles de langage volumineux (LLM).
Le besoin d’ensembles de données de dialogue unifiés
Le développement d’un système d’IA conversationnelle efficace et polyvalent exige l’accès à des ensembles de données variés couvrant différents domaines et types de dialogue. Traditionnellement, différents groupes de recherche ont contribué à des ensembles de données conçus pour répondre à des scénarios conversationnels spécifiques. Cependant, cette approche dispersée a conduit à un besoin de plus de normalisation et d’interopérabilité entre les ensembles de données, rendant les comparaisons et l’intégration difficiles.
- Des chercheurs en Intelligence Artificielle (IA) de l’Université Cornell proposent un nouveau cadre de réseau neuronal pour résoudre le problème du détourage vidéo.
- Meilleurs outils de contrôle de version des données pour la recherche en apprentissage automatique en 2023
- Que signifie déployer un modèle d’apprentissage automatique ?
DialogStudio comble ce vide en regroupant 33 ensembles de données distincts représentant des catégories diverses telles que les dialogues basés sur la connaissance, la compréhension du langage naturel, les dialogues ouverts, les dialogues axés sur les tâches, la résumé de dialogues et les dialogues de recommandation conversationnelle. Le processus d’unification conserve les informations d’origine de chaque ensemble de données tout en facilitant l’intégration transparente et la recherche interdomaines.
Évaluation de la qualité des dialogues
Pour garantir la qualité et l’adéquation des ensembles de données pour différentes applications, DialogStudio adopte un cadre d’évaluation de la qualité des dialogues complet. L’évaluation des dialogues basée sur six critères essentiels – la compréhension, la pertinence, la justesse, la cohérence, l’exhaustivité et la qualité globale – permet aux chercheurs et aux développeurs d’évaluer efficacement les performances de leurs modèles. Les scores sont attribués sur une échelle de 1 à 5, les scores les plus élevés indiquant des dialogues exceptionnels.
Accès transparent via HuggingFace
DialogStudio offre un accès pratique à sa vaste collection d’ensembles de données via HuggingFace, une plateforme largement utilisée pour les ressources de traitement du langage naturel. Les chercheurs peuvent rapidement charger n’importe quel ensemble de données en réclamant le nom de l’ensemble de données correspondant au nom du dossier de l’ensemble de données dans DialogStudio. Ce processus simplifié accélère le développement et l’évaluation des modèles d’IA conversationnelle, en économisant un temps et des efforts précieux.
Versions du modèle et limitations
DialogStudio propose la version 1.0 de modèles formés sur des ensembles de données sélectionnés. Ces modèles sont basés sur des modèles pré-entraînés à petite échelle et n’intègrent pas les ensembles de données à grande échelle utilisés pour former des modèles tels que Alpaca, ShareGPT, GPT4ALL, UltraChat, ou d’autres ensembles de données tels que OASST1 et WizardCoder. Malgré certaines limitations en termes de capacités créatives, ces modèles constituent un point de départ solide pour le développement de la sophistication.
DialogStudio est une étape cruciale dans le développement de l’IA conversationnelle, offrant une collection unifiée et étendue d’ensembles de données de dialogue. En regroupant des ensembles de données divers sous un même toit, DialogStudio permet aux chercheurs et aux développeurs d’explorer de nouveaux horizons dans le domaine de l’IA conversationnelle, ouvrant la voie à des interactions plus sophistiquées et similaires à celles entre humains et machines. Grâce à son accent mis sur l’amélioration continue et la participation de la communauté, DialogStudio est destiné à façonner l’avenir de l’IA conversationnelle pendant de nombreuses années.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Traduction de l’image à l’image basée sur le croquis transformer les croquis abstraits en images photoréalistes avec GAN
- Découvrez FathomNet une base de données d’images open-source qui utilise l’intelligence artificielle et les algorithmes d’apprentissage automatique pour aider à traiter le retard de données visuelles afin de comprendre notre océan et ses habitants.
- Des chercheurs de l’Université d’État du Michigan ont développé DANCE, une bibliothèque Python pour soutenir les modèles d’apprentissage en profondeur pour l’analyse de l’expression génique de cellules individuelles à grande échelle.
- Les meilleurs outils pour la simplification et la standardisation de l’apprentissage automatique
- 16 Outils d’IA pour Accélérer votre Travail
- Des chercheurs chinois ont proposé une nouvelle méthode de dépistage des images μXRD basée sur l’apprentissage fédéré (AF) afin d’améliorer le dépistage tout en protégeant la confidentialité des données.
- Des chercheurs en IA de la Mayo Clinic présentent une méthode basée sur l’apprentissage automatique pour exploiter les modèles de diffusion afin de construire un algorithme d’inpainting de tumeur cérébrale multitâche.