Indexez le contenu de votre site Web exploré en utilisant le nouveau Web Crawler pour Amazon Kendra.

Optimisez l'indexation du contenu de votre site Web en utilisant le nouveau Web Crawler pour Amazon Kendra.

Amazon Kendra est un service de recherche intelligent hautement précis et simple à utiliser, alimenté par l’apprentissage automatique (ML). Amazon Kendra propose une suite de connecteurs de sources de données pour simplifier le processus d’ingestion et d’indexation de votre contenu, où qu’il se trouve.

Les données précieuses des organisations sont stockées à la fois dans des référentiels structurés et non structurés. Une solution de recherche d’entreprise doit être capable de vous fournir une expérience entièrement gérée et de simplifier le processus d’indexation de votre contenu à partir de différentes sources de données de l’entreprise.

L’un de ces référentiels de données non structurées est constitué par les sites web internes et externes. Il peut être nécessaire de les parcourir pour créer des flux d’actualités, analyser l’utilisation du langage ou créer des bots pour répondre aux questions basées sur les données du site web.

Nous sommes ravis d’annoncer que vous pouvez désormais utiliser le nouveau Web Crawler d’Amazon Kendra pour rechercher des réponses à partir de contenu stocké dans des sites web internes et externes, ou pour créer des chatbots. Dans cet article, nous montrons comment indexer les informations stockées dans les sites web et utiliser la recherche intelligente dans Amazon Kendra pour rechercher des réponses à partir de contenu stocké dans des sites web internes et externes. De plus, la recherche intelligente alimentée par l’apprentissage automatique peut obtenir avec précision des réponses à vos questions à partir de documents non structurés avec un contenu narratif en langage naturel, pour lequel la recherche par mots-clés n’est pas très efficace.

Le Web Crawler offre les nouvelles fonctionnalités suivantes :

  • Prise en charge de l’authentification Basic, NTLM/Kerberos, Form et SAML
  • Possibilité de spécifier 100 URL d’origine et de stocker la configuration de connexion dans Amazon Simple Storage Service (Amazon S3)
  • Prise en charge d’un proxy web et internet avec possibilité de fournir des informations d’identification du proxy
  • Prise en charge de l’exploration de contenu dynamique, tel qu’un site web contenant du JavaScript
  • Fonctionnalités de mappage de champs et de filtrage regex

Aperçu de la solution

Avec Amazon Kendra, vous pouvez configurer plusieurs sources de données pour fournir un emplacement centralisé pour effectuer des recherches dans votre référentiel de documents. Pour notre solution, nous vous montrons comment indexer un site web exploré en utilisant le Web Crawler d’Amazon Kendra. La solution se compose des étapes suivantes :

  1. Choisissez un mécanisme d’authentification pour le site web (si nécessaire) et stockez les détails dans AWS Secrets Manager.
  2. Créez un index Amazon Kendra.
  3. Créez une source de données V2 du Web Crawler via la console Amazon Kendra.
  4. Exécutez une requête d’exemple pour tester la solution.

Prérequis

Pour essayer le Web Crawler d’Amazon Kendra, vous avez besoin des éléments suivants :

Collecte des informations d’authentification

Pour les sites web protégés et sécurisés, les types et normes d’authentification suivants sont pris en charge :

  • Authentification de base
  • NTLM/Kerberos
  • Authentification de formulaire
  • SAML

Vous aurez besoin des informations d’authentification lors de la configuration de la source de données.

Pour une authentification de base ou NTLM, vous devez fournir votre secret Secrets Manager, votre nom d’utilisateur et votre mot de passe.secrets manager basic auth

L’authentification par formulaire et SAML nécessite des informations supplémentaires, comme indiqué dans la capture d’écran suivante. Certains champs comme Nom d’utilisateur – bouton XPath sont facultatifs et dépendront de savoir si le site que vous explorez utilise un bouton après avoir saisi le nom d’utilisateur. Notez également que vous devrez savoir comment déterminer le chemin XPath du champ du nom d’utilisateur et du mot de passe, ainsi que des boutons d’envoi.

secrets manager saml

Créer un index Amazon Kendra

Pour créer un index Amazon Kendra, suivez les étapes suivantes :

  1. Sur la console Amazon Kendra, choisissez Créer un index.kendra
  2. Pour le nom de l’index, saisissez un nom pour l’index (par exemple, Web Crawler).
  3. Saisissez une description facultative.
  4. Pour le nom du rôle, saisissez un nom de rôle IAM.
  5. Configurez les paramètres facultatifs de chiffrement et les balises.
  6. Choisissez Suivant.index details
  7. Dans la section Configurer le contrôle d’accès utilisateur, laissez les paramètres par défaut et choisissez Suivant.user access control
  8. Pour les éditions de provisionnement, sélectionnez Édition Développeur et choisissez Suivant.provisioning edition
  9. Sur la page de révision, choisissez Créer.

Cela crée et propage le rôle IAM, puis crée l’index Amazon Kendra, ce qui peut prendre jusqu’à 30 minutes.

kendra index

Créer une source de données de crawl Web Amazon Kendra

Suivez les étapes suivantes pour créer votre source de données :

  1. Sur la console Amazon Kendra, choisissez Sources de données dans le volet de navigation.
  2. Repérez la vignette Connecteur WebCrawler V2.0 et choisissez Ajouter un connecteur.webcrawler connector
  3. Pour le nom de la source de données, saisissez un nom (par exemple, crawl-fda).
  4. Saisissez une description facultative.
  5. Choisissez Suivant.data source details
  6. Dans la section Source, sélectionnez URL de la source et saisissez une URL. Dans cet article, nous utilisons https://www.fda.gov/ comme exemple d’URL source.
  7. Dans la section Authentification, choisissez l’authentification appropriée en fonction du site que vous souhaitez crawler. Dans cet article, nous sélectionnons Aucune authentification car il s’agit d’un site public et n’a pas besoin d’authentification.
  8. Dans la section Proxy Web, vous pouvez spécifier un secret de Secrets Manager (si nécessaire).
    1. Choisissez Créer et ajouter un nouveau secret.
    2. Saisissez les détails d’authentification que vous avez collectés précédemment.
    3. Choisissez Enregistrer.
  9. Dans la section Rôle IAM, choisissez Créer un nouveau rôle et saisissez un nom (par exemple, AmazonKendra-Web Crawler-datasource-role).
  10. Choisissez Suivant.access and security
  11. Dans la section Portée de synchronisation, configurez vos paramètres de synchronisation en fonction du site que vous crawler. Dans cet article, nous laissons tous les paramètres par défaut.
  12. Pour le Mode de synchronisation, choisissez comment vous souhaitez mettre à jour votre index. Dans cet article, nous sélectionnons Synchronisation complète.
  13. Pour le Planning d’exécution de synchronisation, choisissez Exécuter à la demande.
  14. Choisissez Suivant.sync setting
  15. Facultativement, vous pouvez définir des correspondances de champs. Dans cet article, nous conservons les valeurs par défaut pour le moment.

Le mappage des champs est un exercice utile où vous pouvez substituer les noms de champs par des valeurs conviviales pour l’utilisateur qui correspondent au vocabulaire de votre organisation.

  1. Choisissez Suivant.mappage des champs
  2. Choisissez Ajouter une source de données.ajouter une source de données
  3. Pour synchroniser la source de données, choisissez Synchroniser maintenant sur la page des détails de la source de données.démarrer la synchronisation
  4. Attendez que la synchronisation soit terminée.synchronisation terminée

Exemple de site Web authentifié

Si vous souhaitez crawler un site qui nécessite une authentification, alors dans la section Authentification des étapes précédentes, vous devez spécifier les détails de l’authentification. Voici un exemple si vous avez sélectionné l’authentification par formulaire.

  1. Dans la section Source, sélectionnez URL source et saisissez une URL. Pour cet exemple, nous utilisons https://accounts.autodesk.com.

  2. Dans la section Authentification, sélectionnez Authentification par formulaire.

  3. Dans la section Proxy Web, spécifiez votre secret de Secrets Manager. Ceci est requis pour toute option autre que Aucune authentification.

    1. Choisissez Créer et ajouter un nouveau secret.
    2. Saisissez les détails d’authentification que vous avez collectés précédemment.
    3. Choisissez Enregistrer.
    créer un secret de gestionnaire de secrets

Tester la solution

Maintenant que vous avez ingéré le contenu du site dans votre index Amazon Kendra, vous pouvez tester quelques requêtes.

  1. Accédez à votre index et choisissez Rechercher le contenu indexé.
  2. Saisissez une requête de recherche d’exemple et testez vos résultats de recherche (votre requête variera en fonction du contenu du site que vous avez crawlé et de la requête saisie).résultats de recherche

Félicitations ! Vous avez utilisé avec succès Amazon Kendra pour obtenir des réponses et des informations basées sur le contenu indexé du site que vous avez crawlé.

Nettoyer

Pour éviter des coûts futurs, nettoyez les ressources que vous avez créées dans le cadre de cette solution. Si vous avez créé un nouvel index Amazon Kendra lors de la mise en œuvre de cette solution, supprimez-le. Si vous avez seulement ajouté une nouvelle source de données en utilisant le Web Crawler V2 d’Amazon Kendra, supprimez cette source de données.

Conclusion

Avec le nouveau Amazon Kendra Web Crawler V2, les organisations peuvent parcourir n’importe quel site Web public ou authentifié et l’utiliser pour une recherche intelligente alimentée par Amazon Kendra.

Pour en savoir plus sur ces possibilités et plus encore, consultez le Guide du développeur Amazon Kendra. Pour plus d’informations sur la façon dont vous pouvez créer, modifier ou supprimer des métadonnées et du contenu lors de l’ingestion de vos données, consultez les articles Enrichissement de vos documents lors de l’ingestion et Enrichissez votre contenu et vos métadonnées pour améliorer votre expérience de recherche avec l’enrichissement personnalisé des documents dans Amazon Kendra.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

La Conception des Objets du Quotidien (IA)

Le classique du design de Don Norman en 1988, intitulé The Design of Everyday Things, a exposé des principes d'expéri...

AI

Comment démarrer une agence d'IA (sans expérience en programmation)

Laissez-moi vous présenter l'une des plus grandes opportunités commerciales de la prochaine décennie.

AI

La réglementation de l'IA générative

Alors que l'intelligence artificielle générative (IA) reste au centre de l'attention, il y a un appel croissant à rég...

AI

Exploration de la structure des invitations réussies

Dans cet article, l'auteur présente un guide du programmeur pour les agents d'IA Bird et Pixie de GPTConsole afin que...

AI

Créer un meilleur StackOverflow avec ChatGPT

Nous avons été un peu 'en colère' lorsque OpenAI a désactivé la recherche sur Internet dans ChatGPT il y a une semain...