Visualisez une analyse Amazon Comprehend avec un nuage de mots dans Amazon QuickSight
Analysez Amazon Comprehend avec un nuage de mots dans Amazon QuickSight
La recherche d’informations dans un référentiel de documents textuels libres peut être comme chercher une aiguille dans une botte de foin. Une approche traditionnelle pourrait consister à utiliser le décompte des mots ou d’autres analyses de base pour analyser les documents, mais avec la puissance de l’IA et des outils d’apprentissage automatique (ML) d’Amazon, nous pouvons obtenir une compréhension plus approfondie du contenu.
Amazon Comprehend est un service entièrement géré qui utilise le traitement du langage naturel (NLP) pour extraire des informations sur le contenu des documents. Amazon Comprehend développe des idées en reconnaissant les entités, les expressions clés, le sentiment, les thèmes et les éléments personnalisés dans un document. Amazon Comprehend peut créer de nouvelles idées en comprenant la structure du document et les relations entre les entités. Par exemple, avec Amazon Comprehend, vous pouvez analyser un référentiel de documents entier pour trouver des expressions clés.
Amazon Comprehend permet aux non-experts en ML d’effectuer facilement des tâches qui prennent normalement des heures. Amazon Comprehend élimine une grande partie du temps nécessaire pour nettoyer, construire et former votre propre modèle. Pour construire des modèles personnalisés plus approfondis en NLP ou dans tout autre domaine, Amazon SageMaker vous permet de construire, former et déployer des modèles selon un flux de travail ML plus conventionnel si vous le souhaitez.
Dans cet article, nous utilisons Amazon Comprehend et d’autres services AWS pour analyser et extraire de nouvelles informations d’un référentiel de documents. Ensuite, nous utilisons Amazon QuickSight pour générer une visualisation simple mais puissante en forme de nuage de mots pour repérer facilement les thèmes ou les tendances.
- Présentation de Würstchen Diffusion rapide pour la génération d’images
- Naviguer dans le paysage des startups en robotique Un guide complet pour l’identification du marché, la gestion de la chaîne d’approvisionnement et le développement technologique
- Un bref guide sur l’intelligence artificielle en marketing
Aperçu de la solution
Le diagramme suivant illustre l’architecture de la solution.
Pour commencer, nous collectons les données à analyser et les chargeons dans un compartiment Amazon Simple Storage Service (Amazon S3) dans un compte AWS. Dans cet exemple, nous utilisons des fichiers formatés en texte. Les données sont ensuite analysées par Amazon Comprehend. Amazon Comprehend crée une sortie formatée en JSON qui doit être transformée et traitée dans un format de base de données à l’aide d’AWS Glue. Nous vérifions les données et extrayons des tables de données formatées spécifiques à l’aide d’Amazon Athena pour une analyse QuickSight en utilisant un nuage de mots. Pour plus d’informations sur les visualisations, consultez la documentation sur la visualisation des données dans Amazon QuickSight.
Prérequis
Pour cette étape, vous devez avoir les prérequis suivants :
- Un compte AWS
- Accès à la console de gestion AWS
- Connaissance de base des tables de base de données
- Des compartiments S3 pour les données d’entrée et de sortie
Charger des données dans un compartiment S3
Chargez vos données dans un compartiment S3. Dans cet article, nous utilisons un fichier texte formaté en UTF-8 de la Constitution des États-Unis comme fichier d’entrée. Ensuite, vous êtes prêt à analyser les données et créer des visualisations.
Analyser les données avec Amazon Comprehend
Il existe de nombreux types d’informations basées sur le texte et l’image qui peuvent être traitées avec Amazon Comprehend. En plus des fichiers texte, vous pouvez utiliser Amazon Comprehend pour la classification en une seule étape et la reconnaissance des entités pour accepter des fichiers image, des fichiers PDF et des fichiers Microsoft Word en tant qu’entrée, ce qui n’est pas abordé dans cet article.
Pour analyser vos données, suivez les étapes suivantes :
- Sur la console Amazon Comprehend, choisissez Jobs d’analyse dans le volet de navigation.
- Choisissez Créer un job d’analyse.
- Saisissez un nom pour votre job.
- Pour le Type d’analyse, choisissez Expressions clés.
- Pour la Langue, choisissez Anglais.
- Pour l’emplacement des Données d’entrée, spécifiez le dossier que vous avez créé en tant que prérequis.
- Pour l’emplacement des Données de sortie, spécifiez le dossier que vous avez créé en tant que prérequis.
- Choisissez Créer un rôle IAM.
- Saisissez un suffixe pour le nom du rôle.
- Choisissez Créer un job.
Le job s’exécutera et le statut sera affiché sur la page Jobs d’analyse.
Attendez que le travail d’analyse soit terminé. Amazon Comprehend créera un fichier et le placera dans le dossier de données de sortie que vous avez fourni. Le fichier est au format .gz ou GZIP.
Ce fichier doit être téléchargé et converti en un format non compressé. Vous pouvez télécharger un objet à partir du dossier de données ou du bucket S3 en utilisant la console Amazon S3.
- Sur la console Amazon S3, sélectionnez l’objet et choisissez Télécharger. Si vous souhaitez télécharger l’objet dans un dossier spécifique, choisissez Télécharger dans le menu Actions.
- Après avoir téléchargé le fichier sur votre ordinateur local, ouvrez le fichier compressé et enregistrez-le sous la forme d’un fichier non compressé.
Le fichier non compressé doit être téléchargé dans le dossier de sortie avant que le crawler AWS Glue puisse le traiter. Dans cet exemple, nous téléchargeons le fichier non compressé dans le même dossier de sortie que celui utilisé dans les étapes ultérieures.
- Sur la console Amazon S3, accédez à votre bucket S3 et choisissez Télécharger.
- Choisissez Ajouter des fichiers.
- Choisissez les fichiers non compressés de votre ordinateur local.
- Choisissez Télécharger.
Après avoir téléchargé le fichier, supprimez le fichier compressé original.
- Sur la console Amazon S3, sélectionnez le bucket et choisissez Supprimer.
- Confirmez le nom de fichier pour supprimer définitivement le fichier en entrant le nom de fichier dans la zone de texte.
- Choisissez Supprimer les objets.
Cela ne laissera qu’un seul fichier dans le dossier de sortie : le fichier non compressé.
Convertir les données JSON en format de table en utilisant AWS Glue
À cette étape, vous préparez la sortie d’Amazon Comprehend pour être utilisée en tant qu’entrée dans Athena. La sortie d’Amazon Comprehend est au format JSON. Vous pouvez utiliser AWS Glue pour convertir JSON en une structure de base de données qui pourra ensuite être lue par QuickSight.
- Sur la console AWS Glue, choisissez Crawlers dans le volet de navigation.
- Choisissez Créer un crawler.
- Entrez un nom pour votre crawler.
- Choisissez Suivant.
- Pour Vos données sont-elles déjà mappées sur des tables Glue, sélectionnez Pas encore.
- Ajoutez une source de données.
- Pour Chemin S3, entrez l’emplacement du dossier de sortie des données d’Amazon Comprehend.
Assurez-vous d’ajouter le /
final au nom du chemin. AWS Glue recherchera tous les fichiers dans le chemin du dossier.
- Sélectionnez Explorer tous les sous-dossiers.
- Choisissez Ajouter une source de données S3.
- Créez un nouveau rôle AWS Identity and Access Management (IAM) pour le crawler.
- Entrez un nom pour le rôle IAM.
- Choisissez Mettre à jour le rôle IAM choisi pour vous assurer que le nouveau rôle est attribué au crawler.
- Choisissez Suivant pour entrer les informations de sortie (base de données).
- Choisissez Ajouter une base de données.
- Entrez un nom de base de données.
- Choisissez Suivant.
- Choisissez Créer un crawler.
- Choisissez Exécuter le crawler pour exécuter le crawler.
Vous pouvez surveiller l’état du crawler sur la console AWS Glue.
Utiliser Athena pour préparer les tables pour QuickSight
Athena extraira les données des tables de base de données créées par le crawler AWS Glue pour fournir un format que QuickSight utilisera pour créer le nuage de mots.
- Sur la console Athena, choisissez Éditeur de requêtes dans le volet de navigation.
- Pour Source de données, choisissez AwsDataCatalog.
- Pour Base de données, choisissez la base de données créée par le crawler.
Pour créer une table compatible pour QuickSight, les données doivent être dénouées des tableaux.
- La première étape consiste à créer une base de données temporaire avec les données pertinentes d’Amazon Comprehend :
CREATE TABLE temp AS
SELECT keyphrases, nested
FROM output
CROSS JOIN UNNEST(output.keyphrases) AS t (nested)
- L’instruction suivante se limite aux phrases d’au moins trois mots et les regroupe par fréquence :
CREATE TABLE tableforquicksight AS
SELECT COUNT(*) AS count, nested.text
FROM temp
WHERE nested.Score > .9 AND
length(nested.text) - length(replace(nested.text, ' ', '')) + 1 > 2
GROUP BY nested.text
ORDER BY count desc
Utiliser QuickSight pour visualiser la sortie
Enfin, vous pouvez créer la sortie visuelle de l’analyse.
- Sur la console QuickSight, choisissez Nouvelle analyse.
- Choisissez Nouvel ensemble de données.
- Pour Créer un ensemble de données, choisissez À partir de nouvelles sources de données.
- Choisissez Athena comme source de données.
- Entrez un nom pour la source de données et choisissez Créer une source de données.
- Choisissez Visualiser.
Assurez-vous que QuickSight a accès aux compartiments S3 où les tables Athena sont stockées.
- Sur la console QuickSight, choisissez l’icône du profil utilisateur et choisissez Gérer QuickSight.
- Choisissez Sécurité et autorisations.
- Recherchez la section Accès QuickSight aux services AWS.
En configurant l’accès aux services AWS, QuickSight peut accéder aux données de ces services. L’accès par les utilisateurs et les groupes peut être contrôlé grâce aux options.
- Vérifiez que Amazon S3 a accès.
Maintenant, vous pouvez créer le nuage de mots.
- Choisissez le nuage de mots sous Types de visualisation.
- Faites glisser le texte vers Grouper par et le comptage vers Taille.
Choisissez le menu des options (trois points) dans la visualisation pour accéder aux options d’édition. Par exemple, vous pouvez vouloir masquer le terme “autre” de l’affichage. Vous pouvez également modifier des éléments tels que le titre et le sous-titre de votre visuel. Pour télécharger le nuage de mots au format PDF, choisissez Télécharger dans la barre d’outils QuickSight.
Nettoyage
Pour éviter de subir des frais continus, supprimez les données, les processus ou les ressources inutilisés provisionnés sur leur console de service respective.
Conclusion
Amazon Comprehend utilise le traitement du langage naturel (NLP) pour extraire des informations sur le contenu des documents. Il développe des informations en reconnaissant les entités, les expressions clés, la langue, les sentiments et autres éléments courants dans un document. Vous pouvez utiliser Amazon Comprehend pour créer de nouveaux produits basés sur la compréhension de la structure des documents. Par exemple, avec Amazon Comprehend, vous pouvez analyser l’ensemble d’un référentiel de documents à la recherche d’expressions clés.
Cet article décrit les étapes pour construire un nuage de mots afin de visualiser une analyse de contenu textuel à partir d’Amazon Comprehend en utilisant des outils AWS et QuickSight pour visualiser les données.
Restons en contact via la section des commentaires !
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Comment changer de carrière pour devenir un spécialiste en science des données à 30 ans ?
- Traitement du langage naturel dans les applications iOS fonctionnalités, cas d’utilisation de Siri et processus
- LLMOps Modèles d’ingénierie de prompt de production avec Hamilton
- La méthode Capture-ReCapture
- Vous voulez améliorer votre prévision à court terme ? Essayez la détection de la demande.
- Le Langage des Emplacements Évaluation de la Compétence de Géocodage de l’IA Générative
- Voici les premiers intervenants pour le sommet des affaires AiX cet automne.