Les embeddings de phrases de l’IA, démystifiés

Les embeddings de phrases de l'IA, démystifiés' can be condensed to 'Démystification des embeddings de phrases en IA

Combler le fossé entre les ordinateurs et le langage : Comment les embeddings de phrases AI révolutionnent le NLP

Photo de Steve Johnson sur Unsplash

Dans cet article de blog, démystifions comment les ordinateurs comprennent les phrases et les documents. Pour commencer cette discussion, nous remonterons le temps en commençant par les premières méthodes de représentation des phrases à l’aide de vecteurs n-grammes et de vecteurs TF-IDF. Les sections suivantes aborderont les méthodes qui agrègent les vecteurs de mots à partir des sacs de mots neuronaux vers les transformateurs de phrases et les modèles linguistiques que nous voyons aujourd’hui. Il y a beaucoup de technologies intéressantes à couvrir. Commençons notre voyage avec les n-grammes simples et élégants.

1. Vecteurs n-grammes

Les ordinateurs ne comprennent pas les mots, mais ils comprennent les nombres. En conséquence, nous devons convertir les mots et les phrases en vecteurs lors du traitement par un ordinateur. L’une des premières représentations des phrases sous forme de vecteur remonte à un article de 1948 de Claude Shanon, père de la théorie de l’information. Dans ce travail fondateur, les phrases étaient représentées comme un vecteur n-gramme de mots. Que cela signifie-t-il ?

Figure 1 : Génération d'un vecteur n-gramme à partir d'une phrase. (image par l'auteur)

Prenons l’exemple de la phrase “C’est une belle journée”. Nous pouvons découper cette phrase en n-grammes suivants :

  • Unigrammes : C’est, une, belle, journée
  • Bigrammes : C’est une, une belle, belle journée
  • Trigrammes : C’est une belle, une belle journée
  • et bien plus encore…

En général, une phrase peut être décomposée en ses n-grammes constitutifs, en itérant de 1 à n. Lors de la construction du vecteur, chaque nombre dans ce vecteur indique si le n-gramme était présent dans la phrase ou non. Certaines méthodes peuvent plutôt utiliser le compte du n-gramme présent dans la phrase. Une représentation vectorielle d’échantillon d’une phrase est montrée ci-dessus dans la Figure 1.

2. TF-IDF

Une autre méthode précoce mais populaire de représentation des phrases et des documents consistait à déterminer le vecteur TF-IDF d’une phrase ou le vecteur “Term Frequency – Inverse Document Frequency”. Dans ce cas, nous compterions le nombre de fois qu’un mot apparaît dans la phrase pour…

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les manuels scolaires sont tout ce dont vous avez besoin une approche révolutionnaire de la formation en IA

Ceci est un aperçu de l'article Les manuels sont tout ce dont vous avez besoin, mettant en évidence le succès du modè...

AI

Vers une IA générative pour l'architecture des modèles

La révolution du transformateur Attention is All You Need a eu un impact profond sur la conception des architectures ...

AI

Est-ce que réellement 300 millions d'emplois seront exposés ou perdus à cause du remplacement par l'IA ?

Les auteurs du rapport Goldman Sachs suggèrent que 300 millions d'emplois pourraient être affectés par le remplacemen...

AI

Microsoft lance TypeChat une bibliothèque d'IA qui facilite la création d'interfaces de langage naturel en utilisant des types.

La bibliothèque TypeChat de Microsoft est une tentative de faciliter la création d’interfaces de langage nature...

AI

Des chercheurs du MIT et de Microsoft présentent DoLa une nouvelle stratégie de décodage de l'IA visant à réduire les hallucinations dans les LLM.

De nombreuses applications de traitement du langage naturel (NLP) ont bénéficié grandement de l’utilisation de ...

AI

Analyse des données humanitaires non structurées des tableaux Excel avec l'interprète de code ChatGPT

La nouvelle fonctionnalité expérimentale Interpréteur de code offre une prise en charge native pour la génération et ...