Les embeddings de phrases de l’IA, démystifiés
Les embeddings de phrases de l'IA, démystifiés' can be condensed to 'Démystification des embeddings de phrases en IA
Combler le fossé entre les ordinateurs et le langage : Comment les embeddings de phrases AI révolutionnent le NLP
Dans cet article de blog, démystifions comment les ordinateurs comprennent les phrases et les documents. Pour commencer cette discussion, nous remonterons le temps en commençant par les premières méthodes de représentation des phrases à l’aide de vecteurs n-grammes et de vecteurs TF-IDF. Les sections suivantes aborderont les méthodes qui agrègent les vecteurs de mots à partir des sacs de mots neuronaux vers les transformateurs de phrases et les modèles linguistiques que nous voyons aujourd’hui. Il y a beaucoup de technologies intéressantes à couvrir. Commençons notre voyage avec les n-grammes simples et élégants.
1. Vecteurs n-grammes
Les ordinateurs ne comprennent pas les mots, mais ils comprennent les nombres. En conséquence, nous devons convertir les mots et les phrases en vecteurs lors du traitement par un ordinateur. L’une des premières représentations des phrases sous forme de vecteur remonte à un article de 1948 de Claude Shanon, père de la théorie de l’information. Dans ce travail fondateur, les phrases étaient représentées comme un vecteur n-gramme de mots. Que cela signifie-t-il ?

Prenons l’exemple de la phrase “C’est une belle journée”. Nous pouvons découper cette phrase en n-grammes suivants :
- Unigrammes : C’est, une, belle, journée
- Bigrammes : C’est une, une belle, belle journée
- Trigrammes : C’est une belle, une belle journée
- et bien plus encore…
En général, une phrase peut être décomposée en ses n-grammes constitutifs, en itérant de 1 à n. Lors de la construction du vecteur, chaque nombre dans ce vecteur indique si le n-gramme était présent dans la phrase ou non. Certaines méthodes peuvent plutôt utiliser le compte du n-gramme présent dans la phrase. Une représentation vectorielle d’échantillon d’une phrase est montrée ci-dessus dans la Figure 1.
- Optimisez votre LLM sans surcharger votre GPU
- Estimez facilement les coûts de votre API OpenAI avec Tiktoken
- Un guide complet sur les termes d’interaction dans la prévision de séries temporelles
2. TF-IDF
Une autre méthode précoce mais populaire de représentation des phrases et des documents consistait à déterminer le vecteur TF-IDF d’une phrase ou le vecteur “Term Frequency – Inverse Document Frequency”. Dans ce cas, nous compterions le nombre de fois qu’un mot apparaît dans la phrase pour…
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 130 Astuces et Ressources d’Apprentissage Automatique Sélectionnées avec Soin sur 3 Ans (Plus un eBook Gratuit)
- L’intersection entre CDP et IA Comment l’intelligence artificielle révolutionne les plates-formes de données clients
- LLM (Large Language Models) pour une meilleure compréhension du produit par les développeurs
- Plus de conférenciers annoncés pour ODSC APAC 2023
- Découvrez WebAgent le nouvel LLM de DeepMind qui suit les instructions et accomplit des tâches sur les sites web.
- NLP Moderne Un Aperçu Détaillé. Partie 4 Les Derniers Développements
- Le modèle POE des systèmes matériels bio-inspirés