CountVectorizer pour extraire des caractéristiques à partir de textes en Python, en détail
CountVectorizer pour extraire les caractéristiques de textes en Python, en détail
Tout ce que vous devez savoir pour utiliser CountVectorizer efficacement dans Sklearn
Le traitement de données le plus basique requis pour tout projet de Traitement du Langage Naturel (NLP) est de convertir les données textuelles en données numériques. Tant que les données sont sous forme textuelle, nous ne pouvons effectuer aucune action de calcul dessus.
Il existe plusieurs méthodes disponibles pour cette conversion de données texte-numérique. Ce tutoriel expliquera l’une des vectoriseurs les plus basiques, la méthode CountVectorizer de la bibliothèque scikit-learn.
Cette méthode est très simple. Elle prend la fréquence d’occurrence de chaque mot comme valeur numérique. Un exemple le rendra plus clair.
Dans le bloc de code suivant:
- Comprendre la rétention avec Gradio
- Le Côté Méconnu de RAG En Prenant en Compte ses Défis dans les Recherches Spécifiques à un Domaine
- Oh, Tu veux dire Gérer le changement?
- Nous importerons la méthode CountVectorizer.
- Appelons la méthode.
- Adaptons les données textuelles à la méthode CountVectorizer et convertissons-les en un tableau.
import pandas as pd from sklearn.feature_extraction.text import CountVectorizer #Ceci est le texte à vectorizertexte = ["Bonjour à tous! Je m'appelle Lilly. Le nom de ma tante est aussi Lilly. J'adore ma tante.\ J'essaie d'apprendre comment utiliser le vectoriseur de compte."]cv= CountVectorizer() count_matrix = cv.fit_transform(texte)cnt_arr = count_matrix.toarray()cnt_arr
Résultat :
array([[1, 1, 2, 1, 1, 1, 1, 2, 1, 2, 1, 2, 1, 1, 2, 1, 1, 1]], dtype=int64)
Ici, j’ai les valeurs numériques représentant les données textuelles ci-dessus.
Comment savons-nous quelles valeurs représentent quels mots dans le texte?
Pour clarifier cela, il sera utile de convertir le tableau en un DataFrame où les noms de colonne seront les mots eux-mêmes.
cnt_df = pd.DataFrame(data = cnt_arr, columns = cv.get_feature_names())cnt_df
Maintenant, c’est clair. La valeur du mot ‘aussi’ est de 1, ce qui signifie que ‘aussi’ n’apparaît qu’une fois dans le texte. Le mot ‘tante’ apparaît deux fois dans le texte. Donc, la valeur du mot ‘tante’ est de 2.
Dans le dernier exemple, toutes les phrases étaient dans une seule chaîne. Donc, nous avons obtenu une seule ligne de données pour quatre phrases. Réorganisons le texte et…
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Révolutionnez la collecte de fonds à but non lucratif grâce aux analyses prédictives alimentées par l’IA.
- Nombres Aléatoires en Apprentissage Automatique
- Distributions discrètes univariées Une explication facile à comprendre
- CLIP, Expliqué Intuitivement et Exhaustivement
- QLoRA Formation d’un modèle linguistique puissant sur une carte graphique de 16 Go.
- Remodeler la mémoire du modèle sans avoir besoin de reformation
- Synergie de LLM et GUI, au-delà du Chatbot