CountVectorizer pour extraire des caractéristiques à partir de textes en Python, en détail

CountVectorizer pour extraire les caractéristiques de textes en Python, en détail

Photo de Towfiqu barbhuiya sur Unsplash

Tout ce que vous devez savoir pour utiliser CountVectorizer efficacement dans Sklearn

Le traitement de données le plus basique requis pour tout projet de Traitement du Langage Naturel (NLP) est de convertir les données textuelles en données numériques. Tant que les données sont sous forme textuelle, nous ne pouvons effectuer aucune action de calcul dessus.

Il existe plusieurs méthodes disponibles pour cette conversion de données texte-numérique. Ce tutoriel expliquera l’une des vectoriseurs les plus basiques, la méthode CountVectorizer de la bibliothèque scikit-learn.

Cette méthode est très simple. Elle prend la fréquence d’occurrence de chaque mot comme valeur numérique. Un exemple le rendra plus clair.

Dans le bloc de code suivant:

  • Nous importerons la méthode CountVectorizer.
  • Appelons la méthode.
  • Adaptons les données textuelles à la méthode CountVectorizer et convertissons-les en un tableau.
import pandas as pd from sklearn.feature_extraction.text import CountVectorizer #Ceci est le texte à vectorizertexte = ["Bonjour à tous! Je m'appelle Lilly. Le nom de ma tante est aussi Lilly. J'adore ma tante.\        J'essaie d'apprendre comment utiliser le vectoriseur de compte."]cv= CountVectorizer() count_matrix = cv.fit_transform(texte)cnt_arr = count_matrix.toarray()cnt_arr

Résultat :

array([[1, 1, 2, 1, 1, 1, 1, 2, 1, 2, 1, 2, 1, 1, 2, 1, 1, 1]],      dtype=int64)

Ici, j’ai les valeurs numériques représentant les données textuelles ci-dessus.

Comment savons-nous quelles valeurs représentent quels mots dans le texte?

Pour clarifier cela, il sera utile de convertir le tableau en un DataFrame où les noms de colonne seront les mots eux-mêmes.

cnt_df = pd.DataFrame(data = cnt_arr, columns = cv.get_feature_names())cnt_df

Maintenant, c’est clair. La valeur du mot ‘aussi’ est de 1, ce qui signifie que ‘aussi’ n’apparaît qu’une fois dans le texte. Le mot ‘tante’ apparaît deux fois dans le texte. Donc, la valeur du mot ‘tante’ est de 2.

Dans le dernier exemple, toutes les phrases étaient dans une seule chaîne. Donc, nous avons obtenu une seule ligne de données pour quatre phrases. Réorganisons le texte et…

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Agents d'IA tendance de l'IA générative du mois

En seulement 30 minutes, apprenez à construire des applications d'agent d'IA sans code avec un LLM qui possède des co...

AI

Avancée dans l'intersection de la vision et du langage Présentation du projet Tout-Voyant

Alimentant la montée fulgurante des chatbots IA, les LLM sont le sujet de conversation. Ils démontrent des capacités ...

AI

Comment créer des applications LLM à l'aide d'une base de données vectorielle?

Introduction Dans le domaine de l’intelligence artificielle, les modèles de langue large (LLM) et les modèles d...

Apprentissage automatique

Comment fonctionne le diagnostic médical par l'IA ?

En médecine, l’intelligence artificielle (IA) est de plus en plus utilisée, notamment dans le diagnostic et la ...

AI

Deux, c'est mieux qu'un Comment combiner l'IA et l'automatisation pour créer un processus puissant d'ingénierie de la qualité

Cet article vous apprendra comment intégrer des techniques d'IA et d'automatisation pour améliorer votre processus d'...