Extraction de synonymes (mots similaires) à partir de texte en utilisant BERT & NMSLIB 🔥

Extraction de synonymes avec BERT & NMSLIB 🔥

Une approche pour extraire des mots similaires/synonymes à partir de plusieurs lignes de texte en utilisant BERT & NMSLIB.

Illustration de Kamil Sypień

Nous commencerons par tokeniser le texte en mots car nous voulons des sorties à un seul mot. Ensuite, nous utiliserons BERT (sentence transformers) pour incorporer les mots les plus courants, puis nous utiliserons NMBLIB pour obtenir les correspondances les plus proches pour chacun d’entre eux. Nous utiliserons un ensemble de données de tweets provenant de Twitter pour trouver des mots similaires à l’intérieur.

NOTE — Dans cet article, nous recherchons des mots similaires/synonymes à l’intérieur de l’ensemble de données entier. Par conséquent, nous prendrons toutes les lignes et extrairons les mots les plus courants qui sont des noms et travaillerons sur eux dans leur ensemble. Il n’y aura pas de concept de lignes. De plus, les mots résultants ne seront pas nécessairement des synonymes parfaitement remplaçables, mais simplement des mots similaires qui peuvent ou non être directement remplaçables dans une phrase. Par exemple, nous obtiendrons quelque chose comme “excellence” & “qualité” et “soundcloud” & “spotify”.

Nettoyage des tweets

Nous commençons par nettoyer les données. Je supprime les stopwords et les chiffres et je mets également le texte en minuscules.

code pour nettoyer le texte

Création d’une liste de mots à partir de tous les tweets

Une fois que nous avons nettoyé chaque tweet, nous tokenisons chaque tweet en mots et en créons une liste.

Réduction de la liste de mots

Comme nous avons beaucoup de mots à traiter, il n’est pas logique de trouver des mots similaires pour tous. J’ai donc pris les mots les plus fréquents (top 10k) et filtré uniquement les noms parmi eux.

création de la liste de mots

Création des embeddings de mots

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Apprenez les modèles d'Attention à partir de zéro

Introduction Les modèles d’attention, également connus sous le nom de mécanismes d’attention, sont des te...

AI

Les transformateurs variationnels pour la composition musicale l'IA peut-elle remplacer les musiciens ?

Introduction Dans le monde enchanteur de la musique, la créativité ne connaît pas de limites. Des symphonies classiqu...

AI

Leonardo da Vinci À l'intérieur d'un esprit de génie

28 institutions du monde entier s'unissent pour mettre en valeur l'héritage inégalé de Leonardo da Vinci, mêlant art,...

AI

Arthur dévoile Bench un outil d'IA pour trouver les meilleurs modèles de langage pour le travail

Dans les rues de NYC, une start-up d’IA émergente nommée Arthur fait sensation dans le monde de l’apprent...

AI

Comment créer un ChatGPT personnalisé (3 étapes simples)

Saviez-vous que vous pouvez créer une version personnalisée de ChatGPT qui a été entraînée en utilisant vos propres d...

AI

Comprendre le fine-tuning de LLM Adapter les grands modèles de langage à vos besoins uniques

Explorez les dernières avancées dans les techniques de fine-tuning des grands modèles de langage (LLM) tels que Llama...