Simplifiez l’accès aux informations internes en utilisant la génération augmentée par récupération et les agents LangChain
Simplifiez l'accès aux informations internes avec la génération augmentée et les agents LangChain.
Cet article vous présente les défis les plus courants auxquels les clients sont confrontés lorsqu’ils recherchent des documents internes, et vous donne des conseils concrets sur la manière dont les services AWS peuvent être utilisés pour créer un bot conversationnel d’IA génératif qui rend les informations internes plus utiles.
Les données non structurées représentent 80% de toutes les données présentes au sein des organisations, comprenant des référentiels de manuels, de PDF, de FAQ, d’e-mails et d’autres documents qui augmentent chaque jour. Aujourd’hui, les entreprises s’appuient sur des référentiels d’informations internes en constante croissance, et des problèmes surviennent lorsque la quantité de données non structurées devient ingérable. Souvent, les utilisateurs se retrouvent à lire et à vérifier de nombreuses sources internes différentes pour trouver les réponses dont ils ont besoin.
Les forums de questions-réponses internes peuvent aider les utilisateurs à obtenir des réponses très spécifiques, mais nécessitent également des temps d’attente plus longs. Dans le cas des FAQ internes propres à une entreprise, les longs temps d’attente entraînent une baisse de la productivité des employés. Les forums de questions-réponses sont difficiles à mettre à l’échelle car ils reposent sur des réponses rédigées manuellement. Avec l’IA générative, il y a actuellement un changement de paradigme dans la manière dont les utilisateurs recherchent et trouvent des informations. La prochaine étape logique consiste à utiliser l’IA générative pour condenser de grands documents en informations plus petites et plus faciles à consommer pour les utilisateurs. Au lieu de passer beaucoup de temps à lire du texte ou à attendre des réponses, les utilisateurs peuvent générer des résumés en temps réel en se basant sur plusieurs référentiels existants d’informations internes.
Aperçu de la solution
La solution permet aux clients de récupérer des réponses adaptées aux questions posées sur des documents internes en utilisant un modèle transformateur pour générer des réponses à des questions sur des données sur lesquelles il n’a pas été formé, une technique connue sous le nom de demande à zéro-shot. En adoptant cette solution, les clients peuvent bénéficier des avantages suivants :
- Ajustez finement Falcon 7B et d’autres LLMs sur Amazon SageMaker avec le décorateur @remote
- Créez un pipeline de classification avec la classification personnalisée d’Amazon Comprehend (Partie I)
- Crier sur le Diable ‘Devil May Cry 5’ de Capcom rejoint GeForce NOW
- Trouver des réponses précises aux questions basées sur des sources internes existantes de documents
- Réduire le temps que les utilisateurs passent à chercher des réponses en utilisant des modèles de langage volumineux (LLM) pour fournir des réponses quasi immédiates à des requêtes complexes en utilisant des documents avec les informations les plus récentes
- Rechercher des questions déjà répondues via un tableau de bord centralisé
- Réduire le stress causé par le temps passé à lire manuellement des informations pour rechercher des réponses
Génération augmentée par recherche (RAG)
La génération augmentée par recherche (RAG) réduit certaines des limitations des requêtes basées sur les LLM en trouvant les réponses dans votre base de connaissances et en utilisant les LLM pour résumer les documents en réponses concises. Veuillez lire cet article pour apprendre comment implémenter l’approche RAG avec Amazon Kendra. Les risques et limitations suivants sont associés aux requêtes basées sur les LLM que l’approche RAG avec Amazon Kendra adresse :
- Hallucinations et traçabilité – Les LLM sont entraînés sur de grands ensembles de données et génèrent des réponses sur la base de probabilités. Cela peut conduire à des réponses inexactes, connues sous le nom d’hallucinations.
- Plusieurs silos de données – Pour référencer des données provenant de plusieurs sources dans votre réponse, il est nécessaire de mettre en place un écosystème de connecteurs pour agréger les données. L’accès à plusieurs référentiels est manuel et prend du temps.
- Sécurité – La sécurité et la confidentialité sont des considérations essentielles lors du déploiement de bots conversationnels alimentés par RAG et LLM. Malgré l’utilisation d’Amazon Comprehend pour filtrer les données personnelles qui peuvent être fournies par les requêtes des utilisateurs, il existe encore une possibilité de divulguer accidentellement des informations personnelles ou sensibles, en fonction des données ingérées. Cela signifie que le contrôle de l’accès au chatbot est crucial pour éviter un accès non intentionnel à des informations sensibles.
- Pertinence des données – Les LLM sont formés sur des données jusqu’à une certaine date, ce qui signifie que les informations ne sont souvent pas à jour. Le coût associé à la formation de modèles sur des données récentes est élevé. Pour garantir des réponses précises et à jour, les organisations sont responsables de mettre régulièrement à jour et d’enrichir le contenu des documents indexés.
- Coût – Le coût associé au déploiement de cette solution doit être pris en compte par les entreprises. Les entreprises doivent évaluer attentivement leur budget et leurs exigences de performance lors de la mise en œuvre de cette solution. L’exécution des LLM peut nécessiter des ressources informatiques importantes, ce qui peut augmenter les coûts opérationnels. Ces coûts peuvent devenir une limitation pour les applications qui doivent fonctionner à grande échelle. Cependant, l’un des avantages du cloud AWS est la flexibilité de ne payer que ce que vous utilisez. AWS propose un modèle de tarification simple et cohérent, basé sur l’utilisation réelle des ressources.
Utilisation d’Amazon SageMaker JumpStart
Pour les modèles de langage basés sur les transformateurs, les organisations peuvent bénéficier de l’utilisation d’Amazon SageMaker JumpStart, qui propose une collection de modèles d’apprentissage automatique pré-construits. Amazon SageMaker JumpStart offre une large gamme de modèles fondamentaux de génération de texte et de questions-réponses (Q&R) qui peuvent être facilement déployés et utilisés. Cette solution intègre un modèle FLAN T5-XL Amazon SageMaker JumpStart, mais il y a différents aspects à prendre en compte lors du choix d’un modèle de base.
Intégrer la sécurité dans notre flux de travail
En suivant les meilleures pratiques de la Pillar de sécurité du Cadre bien conçu, Amazon Cognito est utilisé pour l’authentification. Les pools d’utilisateurs Amazon Cognito peuvent être intégrés à des fournisseurs d’identité tiers qui prennent en charge plusieurs frameworks utilisés pour le contrôle d’accès, notamment Open Authorization (OAuth), OpenID Connect (OIDC) ou Security Assertion Markup Language (SAML). L’identification des utilisateurs et de leurs actions permet à la solution de maintenir la traçabilité. La solution utilise également la fonction de détection des informations personnelles identifiables (PII) de Amazon Comprehend pour identifier et masquer automatiquement les PII. Les PII masquées incluent les adresses, les numéros de sécurité sociale, les adresses e-mail et d’autres informations sensibles. Cette conception garantit que toute PII fournie par l’utilisateur via la requête d’entrée est masquée. Les PII ne sont pas stockées, utilisées par Amazon Kendra ni fournies à la LLM.
Présentation de la solution
Les étapes suivantes décrivent le flux de travail de la réponse aux questions sur les documents :
- Les utilisateurs envoient une requête via une interface web.
- Amazon Cognito est utilisé pour l’authentification, garantissant un accès sécurisé à l’application web.
- L’interface utilisateur de l’application web est hébergée sur AWS Amplify.
- Amazon API Gateway héberge une API REST avec différents points de terminaison pour gérer les demandes des utilisateurs qui sont authentifiées à l’aide d’Amazon Cognito.
- Masquage des PII avec Amazon Comprehend :
- Traitement de la requête de l’utilisateur : Lorsqu’un utilisateur soumet une requête ou une entrée, elle est d’abord passée par Amazon Comprehend. Le service analyse le texte et identifie les entités PII présentes dans la requête.
- Extraction des PII : Amazon Comprehend extrait les entités PII détectées de la requête de l’utilisateur.
- Récupération d’informations pertinentes avec Amazon Kendra :
- Amazon Kendra est utilisé pour gérer un index de documents contenant les informations utilisées pour générer des réponses aux requêtes de l’utilisateur.
- Le module de récupération de questions et réponses LangChain est utilisé pour créer une chaîne de conversation contenant des informations pertinentes sur les requêtes de l’utilisateur.
- Intégration avec Amazon SageMaker JumpStart :
- La fonction AWS Lambda utilise la bibliothèque LangChain et se connecte à l’endpoint Amazon SageMaker JumpStart avec une requête contenant un contexte. L’endpoint Amazon SageMaker JumpStart sert d’interface à la LLM utilisée pour l’inférence.
- Stockage des réponses et retour à l’utilisateur :
- La réponse de la LLM est stockée dans Amazon DynamoDB avec la requête de l’utilisateur, l’horodatage, un identifiant unique et d’autres identifiants arbitraires tels que la catégorie de la question. Le stockage de la question et de la réponse en tant qu’éléments distincts permet à la fonction AWS Lambda de recréer facilement l’historique de conversation d’un utilisateur en fonction du moment où les questions ont été posées.
- Enfin, la réponse est renvoyée à l’utilisateur via une requête HTTPs via la réponse d’intégration de l’API REST de Amazon API Gateway.
Les étapes suivantes décrivent les fonctions AWS Lambda et leur flux dans le processus :
- Vérifier et masquer toute PII / information sensible
- Chaîne de recherche de questions et réponses LangChain
- Rechercher et récupérer des informations pertinentes
- Remplissage de contexte et ingénierie de suggestions
- LangChain
- Inférence avec LLM
- Retourner la réponse et la sauvegarder
Cas d’utilisation
Il existe de nombreux cas d’utilisation commerciale où les clients peuvent utiliser ce flux de travail. La section suivante explique comment le flux de travail peut être utilisé dans différents secteurs et domaines.
Assistance aux employés
Une formation d’entreprise bien conçue peut améliorer la satisfaction des employés et réduire le temps nécessaire à l’intégration des nouveaux employés. À mesure que les organisations grandissent et que la complexité augmente, les employés ont du mal à comprendre les nombreuses sources de documents internes. Les documents internes dans ce contexte comprennent les directives de l’entreprise, les politiques et les procédures opérationnelles standard. Dans ce scénario, un employé a une question sur la façon de procéder et de modifier un ticket de signalement interne. L’employé peut accéder et utiliser le bot conversationnel d’intelligence artificielle (IA) génératif pour poser des questions et exécuter les étapes suivantes pour un ticket spécifique.
Cas d’utilisation spécifique : Automatiser la résolution des problèmes des employés en fonction des directives de l’entreprise.
Les étapes suivantes décrivent les fonctions AWS Lambda et leur déroulement dans le processus :
- L’agent LangChain identifie l’intention
- Envoyer une notification en fonction de la demande de l’employé
- Modifier l’état du ticket
Dans ce diagramme d’architecture, les vidéos de formation d’entreprise peuvent être ingérées via Amazon Transcribe pour collecter un journal de ces scripts vidéo. De plus, le contenu de formation d’entreprise stocké dans diverses sources (par exemple, Confluence, Microsoft SharePoint, Google Drive, Jira, etc.) peut être utilisé pour créer des index via les connecteurs Amazon Kendra. Lisez cet article pour en savoir plus sur la collecte des connecteurs natifs que vous pouvez utiliser dans Amazon Kendra en tant que point de source. Le robot conversationnel d’entreprise LangChain utilise à la fois les scripts vidéo de formation d’entreprise et la documentation stockée dans ces autres sources pour aider le robot conversationnel à répondre aux questions spécifiques aux directives de formation d’entreprise de l’entreprise. L’agent LangChain vérifie les autorisations, modifie l’état du ticket et notifie les personnes concernées à l’aide du service de notification simple d’Amazon (Amazon SNS).
Équipes de support client
Résoudre rapidement les demandes des clients améliore l’expérience client et favorise la fidélité à la marque. Une base de clients fidèles contribue à stimuler les ventes, ce qui augmente le chiffre d’affaires et renforce l’engagement des clients. Les équipes de support client consacrent beaucoup d’énergie à consulter de nombreux documents internes et des logiciels de gestion de la relation client pour répondre aux demandes des clients concernant les produits et services. Les documents internes dans ce contexte peuvent inclure des scripts d’appel de support client génériques, des playbooks, des directives d’escalade et des informations commerciales. Le robot conversationnel d’IA génératif aide à optimiser les coûts car il gère les requêtes au nom de l’équipe de support client.
Cas d’utilisation spécifique : Traitement d’une demande de changement d’huile en fonction de l’historique du service et du plan de service client acheté.
Dans ce diagramme d’architecture, le client est dirigé vers le robot conversationnel d’IA génératif ou le centre de contact Amazon Connect. Cette décision peut être basée sur le niveau de support nécessaire ou la disponibilité des agents de support client. L’agent LangChain identifie l’intention du client et vérifie son identité. L’agent LangChain vérifie également l’historique du service et le plan de support acheté.
Les étapes suivantes décrivent les fonctions AWS Lambda et leur déroulement dans le processus :
- L’agent LangChain identifie l’intention
- Récupérer les informations sur le client
- Vérifier l’historique du service client et les informations sur la garantie
- Prendre rendez-vous, fournir plus d’informations ou diriger vers le centre de contact
- Envoyer une confirmation par e-mail
Amazon Connect est utilisé pour collecter les journaux vocaux et de chat, et Amazon Comprehend est utilisé pour supprimer les informations personnellement identifiables (PII) de ces journaux. Le robot conversationnel d’IA génératif peut ensuite utiliser les journaux vocaux et de chat redigés, les scripts d’appels clients et les politiques de plan de support client pour créer l’index. Une fois une décision prise, le robot conversationnel d’IA génératif décide s’il faut prendre rendez-vous, fournir plus d’informations ou diriger le client vers le centre de contact pour une assistance supplémentaire. Pour optimiser les coûts, l’agent LangChain peut également générer des réponses en utilisant moins de jetons et un modèle de langage plus économique pour les requêtes clients moins prioritaires.
Services financiers
Les entreprises de services financiers dépendent d’une utilisation rapide de l’information pour rester compétitives et se conformer aux réglementations financières. En utilisant un robot conversationnel d’IA génératif, les analystes financiers et les conseillers peuvent interagir avec des informations textuelles de manière conversationnelle et réduire le temps et les efforts nécessaires pour prendre des décisions plus éclairées. En dehors de la recherche en investissement et en marché, un robot conversationnel d’IA génératif peut également compléter les capacités humaines en gérant des tâches qui nécessiteraient traditionnellement plus d’efforts et de temps humain. Par exemple, une institution financière spécialisée dans les prêts personnels peut augmenter le taux de traitement des prêts tout en offrant une meilleure transparence aux clients.
Cas d’utilisation spécifique : Utiliser l’historique financier du client et les demandes de prêt précédentes pour décider et expliquer la décision de prêt.
Les étapes suivantes décrivent les fonctions AWS Lambda et leur flux dans le processus :
- L’agent LangChain identifie l’intention
- Vérifier l’historique financier du client et son score de crédit
- Vérifier le système de gestion de la relation client interne
- Vérifier les politiques de prêt standard et suggérer une décision pour l’employé qualifiant le prêt
- Notifier le client
Cette architecture intègre les données financières des clients stockées dans une base de données et les données stockées dans un outil de gestion de la relation client (CRM). Ces points de données sont utilisés pour prendre une décision basée sur les politiques de prêt internes de l’entreprise. Le client peut poser des questions de clarification pour comprendre les prêts auxquels il est éligible et les conditions des prêts qu’il peut accepter. Si le bot de conversation génératif en IA n’est pas en mesure d’approuver une demande de prêt, l’utilisateur peut toujours poser des questions sur l’amélioration du score de crédit ou les options de financement alternatives.
Gouvernement
Les bots de conversation génératifs en IA peuvent grandement bénéficier aux institutions gouvernementales en accélérant les processus de communication, d’efficacité et de prise de décision. Les bots de conversation génératifs en IA peuvent également fournir un accès immédiat aux bases de connaissances internes pour aider les employés du gouvernement à récupérer rapidement des informations, des politiques et des procédures (par exemple, les critères d’éligibilité, les processus de demande et les services et le soutien aux citoyens). Une solution consiste en un système interactif qui permet aux contribuables et aux professionnels de la fiscalité de trouver facilement des détails et des avantages relatifs aux impôts. Il peut être utilisé pour comprendre les questions des utilisateurs, résumer les documents fiscaux et fournir des réponses claires lors de conversations interactives.
Les utilisateurs peuvent poser des questions telles que :
- Comment fonctionne l’impôt sur l’héritage et quels sont les seuils d’imposition ?
- Pouvez-vous expliquer le concept de l’impôt sur le revenu ?
- Quelles sont les implications fiscales lors de la vente d’une deuxième propriété ?
De plus, les utilisateurs peuvent avoir la commodité de soumettre des formulaires fiscaux à un système, ce qui peut aider à vérifier l’exactitude des informations fournies.
Cette architecture illustre comment les utilisateurs peuvent télécharger des formulaires fiscaux remplis dans la solution et l’utiliser pour une vérification interactive et des conseils sur la manière de remplir correctement les informations nécessaires.
Santé
Les entreprises de santé ont l’opportunité d’automatiser l’utilisation de grandes quantités d’informations internes sur les patients, tout en répondant également aux questions courantes concernant des cas d’utilisation tels que les options de traitement, les demandes d’assurance, les essais cliniques et la recherche pharmaceutique. L’utilisation d’un bot de conversation génératif en IA permet de générer rapidement et précisément des réponses sur les informations de santé à partir de la base de connaissances fournie. Par exemple, certains professionnels de la santé passent beaucoup de temps à remplir des formulaires pour déposer des demandes d’assurance.
Dans des contextes similaires, les administrateurs d’essais cliniques et les chercheurs ont besoin de trouver des informations sur les options de traitement. Un bot de conversation génératif en IA peut utiliser les connecteurs pré-construits dans Amazon Kendra pour récupérer les informations les plus pertinentes parmi les millions de documents publiés par les sociétés pharmaceutiques et les universités dans le cadre de la recherche en cours.
Cas d’utilisation spécifique : Réduire les erreurs et le temps nécessaire pour remplir et envoyer des formulaires d’assurance.
Dans ce schéma d’architecture, un professionnel de la santé est en mesure d’utiliser le bot de conversation génératif en IA pour déterminer quels formulaires doivent être remplis pour l’assurance. L’agent LangChain est alors capable de récupérer les bons formulaires et d’ajouter les informations nécessaires pour un patient, ainsi que de donner des réponses pour les parties descriptives des formulaires basées sur les politiques d’assurance et les formulaires précédents. Le professionnel de la santé peut modifier les réponses données par le LLM avant d’approuver et de faire livrer le formulaire au portail d’assurance.
Les étapes suivantes décrivent les fonctions AWS Lambda et leur flux à travers le processus :
- Agent LangChain pour identifier l’intention
- Récupérer les informations du patient nécessaires
- Remplir le formulaire d’assurance en fonction des informations du patient et des directives du formulaire
- Soumettre le formulaire au portail d’assurance après l’approbation de l’utilisateur
AWS HealthLake est utilisé pour stocker de manière sécurisée les données de santé, y compris les formulaires d’assurance précédents et les informations sur les patients, et Amazon Comprehend est utilisé pour supprimer les informations personnelles identifiables (PII) des formulaires d’assurance précédents. Le crawler Amazon Kendra peut ensuite utiliser l’ensemble des formulaires d’assurance et des directives pour créer l’index. Une fois que le(s) formulaire(s) est(sont) rempli(s) par l’IA générative, le(s) formulaire(s) examiné(s) par le professionnel de la santé peut être envoyé au portail d’assurance.
Estimation des coûts
Le coût de déploiement de la solution de base en tant que preuve de concept est indiqué dans le tableau suivant. Étant donné que la solution de base est considérée comme une preuve de concept, la version développeur d’Amazon Kendra a été utilisée comme option à faible coût, car la charge de travail ne serait pas en production. Notre hypothèse pour la version développeur d’Amazon Kendra était de 730 heures actives par mois.
Pour Amazon SageMaker, nous avons supposé que le client utiliserait l’instance ml.g4dn.2xlarge pour l’inférence en temps réel, avec un seul point de terminaison d’inférence par instance. Vous pouvez trouver plus d’informations sur la tarification d’Amazon SageMaker et les types d’instances d’inférence disponibles ici.
Service | Resources consommés | Estimation des coûts mensuels en USD |
AWS Amplify | 150 minutes de construction 1 Go de données servies 500 000 requêtes | 15,71 |
Amazon API Gateway | 1 million d’appels d’API REST | 3,5 |
AWS Lambda | 1 million de requêtes 5 secondes de durée par requête 2 Go de mémoire allouée | 160,23 |
Amazon DynamoDB | 1 million de lectures 1 million d’écritures 100 Go de stockage | 26,38 |
Amazon Sagemaker | Inférence en temps réel avec ml.g4dn.2xlarge | 676,8 |
Amazon Kendra | Version développeur avec 730 heures/mois 10 000 documents numérisés 5 000 requêtes/jour | 821,25 |
. | . | Coût total : 1703,87 |
* Amazon Cognito dispose d’une offre gratuite de 50 000 utilisateurs actifs mensuels qui utilisent Cognito User Pools ou de 50 utilisateurs actifs mensuels qui utilisent des fournisseurs d’identité SAML 2.0
Nettoyage
Pour économiser des coûts, supprimez toutes les ressources que vous avez déployées dans le cadre du tutoriel. Vous pouvez supprimer les points de terminaison SageMaker que vous avez créés via la console SageMaker. N’oubliez pas que la suppression d’un index Amazon Kendra ne supprime pas les documents d’origine de votre stockage.
Conclusion
Dans cet article, nous vous avons montré comment simplifier l’accès aux informations internes en les résumant à partir de plusieurs référentiels en temps réel. Après les récents développements des LLM disponibles commercialement, les possibilités de l’IA générative sont devenues plus apparentes. Dans cet article, nous avons présenté des moyens d’utiliser les services AWS pour créer un chatbot sans serveur qui utilise l’IA générative pour répondre aux questions. Cette approche intègre une couche d’authentification et la détection des PII d’Amazon Comprehend pour filtrer les informations sensibles fournies dans la requête de l’utilisateur. Qu’il s’agisse de personnes du secteur de la santé comprenant les subtilités pour déposer des demandes d’assurance ou des ressources humaines comprenant des réglementations spécifiques à l’ensemble de l’entreprise, plusieurs industries et secteurs peuvent bénéficier de cette approche. Un modèle de base Amazon SageMaker JumpStart est le moteur derrière le chatbot, tandis qu’une approche de remplissage du contexte utilisant la technique RAG est utilisée pour garantir que les réponses font référence de manière plus précise aux documents internes.
Pour en savoir plus sur le travail avec l’IA générative sur AWS, consultez l’annonce des nouveaux outils pour construire avec l’IA générative sur AWS. Pour des conseils plus approfondis sur l’utilisation de la technique RAG avec les services AWS, consultez la construction rapide d’applications d’IA générative à haute précision sur des données d’entreprise à l’aide d’Amazon Kendra, LangChain et de grands modèles de langage. Étant donné que l’approche dans ce blog est agnostique par rapport à LLM, n’importe quel LLM peut être utilisé pour l’inférence. Dans notre prochain article, nous présenterons des façons de mettre en œuvre cette solution en utilisant Amazon Bedrock et l’LLM Titan d’Amazon.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Étude explique le rôle de certains types d’oxyde dans la structure et le développement du verre spécialisé
- Aider à la compréhension de l’informatique visuelle et des modèles de langage de ce qu’ils voient
- Le capital-investissement recrute des talents en science des données alors que l’industrie s’attaque à l’apprentissage automatique
- Segmenter n’importe quoi segmentation configurable d’objets arbitraires
- Comment l’apprentissage automatique peut être utilisé pour réduire les factures d’énergie
- Poursuivez un master en science des données avec le 3ème meilleur programme en ligne
- Data Science vs Ingénieur Logiciel Quelle est la meilleure carrière?