Extraction de synonymes (mots similaires) à partir de texte en utilisant BERT & NMSLIB 🔥
Extraction de synonymes avec BERT & NMSLIB 🔥
Une approche pour extraire des mots similaires/synonymes à partir de plusieurs lignes de texte en utilisant BERT & NMSLIB.

Nous commencerons par tokeniser le texte en mots car nous voulons des sorties à un seul mot. Ensuite, nous utiliserons BERT (sentence transformers) pour incorporer les mots les plus courants, puis nous utiliserons NMBLIB pour obtenir les correspondances les plus proches pour chacun d’entre eux. Nous utiliserons un ensemble de données de tweets provenant de Twitter pour trouver des mots similaires à l’intérieur.
NOTE — Dans cet article, nous recherchons des mots similaires/synonymes à l’intérieur de l’ensemble de données entier. Par conséquent, nous prendrons toutes les lignes et extrairons les mots les plus courants qui sont des noms et travaillerons sur eux dans leur ensemble. Il n’y aura pas de concept de lignes. De plus, les mots résultants ne seront pas nécessairement des synonymes parfaitement remplaçables, mais simplement des mots similaires qui peuvent ou non être directement remplaçables dans une phrase. Par exemple, nous obtiendrons quelque chose comme “excellence” & “qualité” et “soundcloud” & “spotify”.
Nettoyage des tweets
Nous commençons par nettoyer les données. Je supprime les stopwords et les chiffres et je mets également le texte en minuscules.
- Analyse des sentiments effectuée sur les tweets sur le séisme en Turquie
- PyTorch LSTM – Formes de l’entrée, de l’état caché, de l’état de la cellule et de la sortie
- Vers l’apprentissage profond en 3D Réseaux de neurones artificiels avec Python

Création d’une liste de mots à partir de tous les tweets
Une fois que nous avons nettoyé chaque tweet, nous tokenisons chaque tweet en mots et en créons une liste.
Réduction de la liste de mots
Comme nous avons beaucoup de mots à traiter, il n’est pas logique de trouver des mots similaires pour tous. J’ai donc pris les mots les plus fréquents (top 10k) et filtré uniquement les noms parmi eux.

Création des embeddings de mots
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Les chercheurs de l’UCI et de Harvard présentent TalkToModel, qui explique les modèles d’apprentissage automatique à ses utilisateurs
- Comment le nouveau paradigme de l’IA de Google élimine-t-il le coût de composition dans les algorithmes d’apprentissage automatique à plusieurs étapes pour une utilité améliorée?
- Les chercheurs en intelligence artificielle de Google présentent MADLAD-400 un ensemble de données de domaine Web de 2,8T de jetons qui couvre 419 langues.
- Microsoft Research introduit BatteryML un outil open-source pour l’apprentissage automatique sur la dégradation de la batterie.
- Cet article du groupe Alibaba présente FederatedScope-LLM un ensemble complet pour le réglage fin des LLMs dans l’apprentissage fédéré.
- Une technique de cartographie de la posture pourrait évaluer à distance les patients atteints de paralysie cérébrale
- Un guide rapide sur la normalisation pour votre modèle de traitement du langage naturel