Accélérez le cycle de développement de votre chatbot Amazon Lex avec Test Workbench.
Accelerate your Amazon Lex chatbot development cycle with Test Workbench.
Amazon Lex est heureux d’annoncer Test Workbench, une nouvelle solution de test de bot qui fournit des outils pour simplifier et automatiser le processus de test de bot. Pendant le développement du bot, le test est la phase où les développeurs vérifient si un bot répond aux exigences, besoins et attentes spécifiques en identifiant les erreurs, les défauts ou les bugs dans le système avant de passer à l’échelle. Les tests aident à valider les performances du bot sur plusieurs fronts tels que le flux conversationnel (comprendre les requêtes de l’utilisateur et répondre avec précision), la gestion du chevauchement d’intentions et la cohérence entre les modalités. Cependant, les tests sont souvent manuels, sujets aux erreurs et non normalisés. Test Workbench normalise la gestion des tests automatisés en permettant aux équipes de développement de chatbot de générer, maintenir et exécuter des ensembles de tests avec une méthodologie cohérente et d’éviter les scripts personnalisés et les intégrations ad hoc. Dans ce post, vous découvrirez comment Test Workbench rationalise les tests automatisés des modalités vocales et textuelles d’un bot et fournit des mesures de précision et de performance pour des paramètres tels que la transcription audio, la reconnaissance des intentions et la résolution de slot pour les entrées à une seule énonciation et les conversations à plusieurs tours. Cela vous permet d’identifier rapidement les zones d’amélioration du bot et de maintenir une ligne de base cohérente pour mesurer la précision au fil du temps et observer toute régression de précision due aux mises à jour du bot.
Amazon Lex est un service entièrement géré pour la création d’interfaces de conversation vocales et textuelles. Amazon Lex vous aide à créer et à déployer des chatbots et des assistants virtuels sur des sites web, des services de centre de contact et des canaux de messagerie. Les bots Amazon Lex aident à augmenter la productivité de la réponse vocale interactive (RVI), à automatiser les tâches simples et à stimuler l’efficacité opérationnelle dans toute l’organisation. Test Workbench pour Amazon Lex normalise et simplifie le cycle de test de bot, ce qui est essentiel pour améliorer la conception de bot.
Fonctionnalités de Test Workbench
Test Workbench pour Amazon Lex comprend les fonctionnalités suivantes :
- Générer automatiquement des ensembles de données de test à partir des journaux de conversation d’un bot
- Télécharger des bases de test construites manuellement
- Réaliser des tests de bout en bout de conversations à entrée unique ou à plusieurs tours
- Tester les modalités audio et textuelles d’un bot
- Examiner des mesures agrégées et de forage pour des dimensions de bot :
- Transcription vocale
- Reconnaissance d’intention
- Résolution de slot (y compris des slots à valeur multiple ou des slots composites)
- Étiquettes de contexte
- Attributs de session
- Attributs de demande
- Indications d’exécution
- Délai en secondes
Prérequis
Pour tester cette fonctionnalité, vous devez disposer des éléments suivants :
- Exploration de l’IA générative dans les expériences conversationnelles une introduction avec Amazon Lex, Langchain et SageMaker Jumpstart.
- Commencez avec la distribution open-source Amazon SageMaker
- Hébergez des modèles ML sur Amazon SageMaker en utilisant Triton Modèles ONNX
- Un compte AWS avec un accès administrateur
- Un bot de vente au détail d’exemple importé via la console Amazon Lex (pour plus d’informations, consultez l’importation d’un bot)
- Une source de jeu de test, soit à partir de:
- Journaux de conversation activés pour le bot pour stocker les interactions de bot, ou
- Un ensemble de test de vente au détail d’exemple qui peut être importé en suivant les instructions fournies dans ce post
En outre, vous devez avoir des connaissances et une compréhension des services et fonctionnalités suivants :
- Amazon Lex
- Amazon CloudWatch
- Gestion de l’identité et des accès AWS (IAM)
Créer un ensemble de test
Pour créer votre ensemble de test, suivez les étapes suivantes :
- Sur la console Amazon Lex, sous Test workbench dans le volet de navigation, choisissez Ensembles de tests.
Vous pouvez consulter une liste d’ensembles de tests existants, y compris des informations de base telles que le nom, la description, le nombre d’entrées de test, la modalité et le statut. Dans les étapes suivantes, vous pouvez choisir entre la génération d’un ensemble de test à partir des journaux de conversation associés au bot ou le téléchargement d’un ensemble de test construit manuellement existant dans un format de fichier CSV.
- Choisissez Créer un ensemble de test.
- La génération d’ensembles de test à partir des journaux de conversation vous permet de faire ce qui suit :
- Inclure de vraies conversations à plusieurs tours à partir des journaux du bot dans CloudWatch
- Inclure des journaux audio et effectuer des tests qui tiennent compte des nuances de la parole réelle, des bruits de fond et des accents
- Accélérer la création d’ensembles de tests
- Le téléchargement d’un ensemble de test construit manuellement vous permet de faire ce qui suit :
- Tester de nouveaux bots pour lesquels il n’existe pas de données de production
- Réaliser des tests de régression sur des bots existants pour toute nouvelle ou modification d’intentions, de slots et de flux de conversation
- Testez des scénarios soigneusement élaborés et détaillés qui spécifient des attributs de session et des attributs de demande
Pour générer un ensemble de tests, effectuez les étapes suivantes. Pour télécharger un ensemble de tests créé manuellement, passez à l’étape 7.
- Choisissez Générer un ensemble de tests de base.
- Choisissez vos options pour Nom du bot, Alias du bot et Langue.
- Pour Plage de temps, définissez une plage de temps pour les journaux.
- Pour Rôle IAM existant, choisissez un rôle.
Assurez-vous que le rôle IAM est capable de vous accorder l’accès pour récupérer les informations des journaux de conversation. Reportez-vous à la création de rôles IAM pour créer un rôle IAM avec la stratégie appropriée.
- Si vous préférez utiliser un ensemble de tests créé manuellement, sélectionnez Télécharger un fichier dans cet ensemble de tests.
- Pour Télécharger un fichier dans cet ensemble de tests, choisissez parmi les options suivantes :
- Sélectionnez Télécharger depuis un bucket S3 pour télécharger un fichier CSV à partir d’un bucket Amazon Simple Storage Service (Amazon S3).
- Sélectionnez Télécharger un fichier dans cet ensemble de tests pour télécharger un fichier CSV à partir de votre ordinateur.
Vous pouvez utiliser l’ensemble de tests d’exemple fourni dans ce message. Pour plus d’informations sur les modèles, choisissez le lien Modèle CSV sur la page.
- Pour Modalité, sélectionnez la modalité de votre ensemble de tests, soit Texte ou Audio.
Test Workbench fournit un support de test pour les formats d’entrée audio et texte.
- Pour Emplacement S3, entrez l’emplacement du bucket S3 où les résultats seront stockés.
- Facultativement, choisissez une clé AWS Key Management Service (AWS KMS) pour chiffrer les transcriptions de sortie.
- Choisissez Créer.
Votre nouvel ensemble de tests sera répertorié sur la page des Ensembles de tests avec l’un des statuts suivants :
- Prêt pour annotation – Pour les ensembles de tests générés à partir des journaux de conversation du bot Amazon Lex, l’étape d’annotation sert de mécanisme de filtrage manuel pour assurer des entrées de test de qualité. En annotant les valeurs pour les intentions attendues et les emplacements attendus pour chaque élément de ligne de test, vous indiquez la « vérité fondamentale » pour cette ligne. Les résultats de test de l’exécution du bot sont collectés et comparés à la vérité fondamentale pour marquer les résultats de test comme réussis ou échoués. Cette comparaison au niveau de la ligne permet ensuite de créer des mesures agrégées.
- Prêt pour les tests – Cela indique que l’ensemble de tests est prêt à être exécuté contre un bot Amazon Lex.
- Erreur de validation – Les fichiers de test téléchargés sont vérifiés pour des erreurs telles que la longueur maximale prise en charge dépassée, des caractères invalides dans les noms d’intention ou des liens Amazon S3 invalides contenant des fichiers audio. Si l’ensemble de tests est dans l’état Erreur de validation, téléchargez le fichier montrant les détails de validation pour voir les problèmes ou erreurs d’entrée de test sur une base ligne par ligne. Une fois qu’ils sont résolus, vous pouvez télécharger manuellement le fichier CSV de l’ensemble de tests corrigé dans l’ensemble de tests.
Exécution d’un ensemble de tests
Un ensemble de tests est découplé d’un bot. Le même ensemble de tests peut être exécuté contre un bot ou un alias de bot différent à l’avenir lorsque votre cas d’utilisation commerciale évolue. Pour rapporter les mesures de performance d’un bot par rapport aux données de test de référence, suivez les étapes suivantes :
- Importez la définition d’un bot d’exemple et construisez le bot (référez-vous à Importation d’un bot pour obtenir de l’aide).
- Sur la console Amazon Lex, choisissez Ensembles de tests dans le volet de navigation.
- Choisissez votre ensemble de tests validé.
Ici, vous pouvez consulter des informations de base sur l’ensemble de tests et les données de test importées.
- Choisissez Exécuter le test.
- Choisissez les options appropriées pour Nom du bot, Alias du bot et Langue.
- Pour le Type de test, sélectionnez Audio ou Texte.
- Pour la Sélection de point de terminaison, sélectionnez soit Streaming ou Non-streaming.
- Choisissez Valider les écarts pour valider votre ensemble de données de test.
Avant d’exécuter un ensemble de tests, vous pouvez valider la couverture des tests, y compris en identifiant les intentions et les emplacements présents dans l’ensemble de tests mais pas dans le bot. Cet avertissement précoce sert à définir les attentes des testeurs pour les échecs de tests inattendus. Si des écarts entre votre ensemble de données de test et votre bot sont détectés, la page Exécuter le test sera mise à jour avec le bouton Afficher les détails.
Les intentions et les emplacements trouvés dans l’ensemble de données de test mais pas dans l’alias de bot sont répertoriés comme indiqué dans les captures d’écran suivantes.
- Après avoir validé les écarts, choisissez Exécuter pour lancer le test.
Révision des résultats
Les mesures de performance générées après l’exécution d’un ensemble de tests vous aident à identifier les domaines de conception du bot qui nécessitent des améliorations et sont utiles pour accélérer le développement et la livraison du bot pour soutenir vos clients. Test Workbench fournit des informations sur la classification des intentions et la résolution des emplacements dans la conversation de bout en bout et le niveau d’entrée d’une seule ligne. Les tests terminés sont stockés avec des horodatages dans votre bucket S3 et peuvent être utilisés pour des révisions comparatives futures.
- Sur la console Amazon Lex, choisissez Résultats des tests dans le volet de navigation.
- Choisissez l’ID de résultat de test pour les résultats que vous souhaitez examiner.
Sur la page suivante, les résultats du test incluront une ventilation des résultats organisée en quatre onglets principaux : Résultats globaux, Résultats de conversation, Résultats d’intention et de slot, et Résultats détaillés.
Résultats globaux
L’onglet Résultats globaux contient trois sections principales :
- Tableau de répartition des entrées de jeu de test – Un graphique montrant le nombre total de conversations de bout en bout et d’énoncés d’entrée uniques dans l’ensemble de test.
- Répartition des entrées uniques – Un graphique montrant le nombre d’entrées uniques réussies ou échouées.
- Répartition des conversations – Un graphique montrant le nombre de conversations à plusieurs tours réussies ou échouées.
Pour les ensembles de tests exécutés en modalité audio, des graphiques de transcription de la parole sont fournis pour montrer le nombre de transcriptions de parole réussies ou échouées à la fois pour les entrées uniques et les conversations. En modalité audio, une entrée unique ou une conversation à plusieurs tours pourrait réussir le test de transcription de la parole, mais échouer le test de bout en bout global. Cela peut être causé, par exemple, par un problème de résolution de slot ou de reconnaissance d’intention.
Résultats de conversation
Test Workbench vous aide à approfondir les échecs de conversation qui peuvent être attribués à des intentions ou des slots spécifiques. L’onglet Résultats de conversation est organisé en trois zones principales, couvrant toutes les intentions et slots utilisés dans l’ensemble de test :
- Taux de réussite de la conversation – Un tableau utilisé pour visualiser les intentions et les slots responsables des échecs de conversation possibles.
- Métriques d’échec d’intention de conversation – Un graphique à barres montrant les cinq intentions les plus performantes dans l’ensemble de test, le cas échéant.
- Métriques d’échec de slot de conversation – Un graphique à barres montrant les cinq slots les plus performants dans l’ensemble de test, le cas échéant.
Résultats d’intention et de slot
L’onglet Résultats d’intention et de slot fournit des métriques supplémentaires pour les dimensions du robot telles que la reconnaissance d’intention et la résolution de slot.
- Métriques de reconnaissance d’intention – Un tableau montrant le taux de réussite de la reconnaissance d’intention.
- Métriques de résolution de slot – Un tableau montrant le taux de réussite de la résolution de slot, par intention.
Résultats détaillés
Vous pouvez accéder à un rapport détaillé de l’exécution du test sur l’onglet Résultats détaillés. Un tableau est affiché pour montrer la transcription réelle, l’intention de sortie et les valeurs de slot dans un ensemble de test. Le rapport peut être téléchargé sous forme de CSV pour une analyse ultérieure.
La sortie au niveau de la ligne fournit des informations pour aider à améliorer la conception du robot et augmenter la précision. Par exemple, des entrées de parole mal reconnues ou manquées telles que des mots de marque peuvent être ajoutées au vocabulaire personnalisé d’une intention ou comme énoncés sous une intention.
Pour améliorer encore la conception de la conversation, vous pouvez vous référer à cet article, qui décrit les meilleures pratiques pour utiliser ML afin de créer un robot qui ravira vos clients en les comprenant avec précision.
Conclusion
Dans cet article, nous avons présenté Test Workbench pour Amazon Lex, une fonctionnalité native qui standardise un processus de test automatisé de chatbot et permet aux développeurs et concepteurs de conversation de rationaliser et d’itérer rapidement à travers la conception et le développement de robot.
Nous avons hâte d’entendre comment vous utilisez cette nouvelle fonctionnalité d’Amazon Lex et nous accueillons les commentaires ! Pour toute question, bug ou demande de fonctionnalité, veuillez nous contacter via AWS re:Post pour Amazon Lex ou vos contacts de support AWS.
Pour en savoir plus, consultez les FAQs d’Amazon Lex et le Guide du développeur Amazon Lex V2.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Affinez GPT-J en utilisant un estimateur Amazon SageMaker Hugging Face et la bibliothèque de parallélisation de modèle.
- Déployez Falcon-40B avec des DLC d’inférence de modèles volumineux sur Amazon SageMaker.
- Comment BrainPad favorise le partage interne de connaissances avec Amazon Kendra
- Comment Forethought économise plus de 66% sur les coûts des modèles d’IA générative en utilisant Amazon SageMaker
- AI Time Journal présente un eBook révolutionnaire sur les tendances de l’IA en 2023.
- Règles de base pour l’ère de la guerre de l’IA
- Robots de livraison de nourriture Uber Eats prêts à être utilisés dans plusieurs villes américaines.