Exploration de NLP – Démarrage de NLP (Étape n°1)

NLP Exploration - NLP Startup (Step #1)

Si vous êtes nouveau dans ma série “Exploring NLP”, veuillez consulter mon article introductif ici.

Exploration et maîtrise de l’IA — Un voyage dans les profondeurs

Bonjour, je suis Deepthi Sudharsan, étudiante en troisième année de licence en intelligence artificielle. Étant donné que je suis déjà…

VoAGI.com

Ce semestre, j’ai NLP comme partie de mon programme d’études. Hourra. Donc, dans le cadre d’une évaluation à venir pour la matière, je révisais les documents fournis et j’ai pris quelques notes que je partagerai aujourd’hui. J’espère que cela vous aidera. Je profite également de cette occasion pour remercier mes enseignants du département de CEN, Amrita Vishwa Vidhyapeetham, Coimbatore, Inde. C’est grâce à leur encadrement, leur motivation et leur soutien que j’ai commencé cette série. C’est grâce à leur enseignement que je suis passionnée par l’IA. Je tiens particulièrement à remercier M. Sachin Kumar S du département de CEN, Amrita Coimbatore, d’avoir suivi ce cours pour moi ce semestre. Certaines des informations et images présentées ici proviennent des ressources et documents fournis ou créés par lui.

Qu’est-ce que le NLP ?

L’étude de l’interaction entre les ordinateurs et les langues humaines s’appelle le traitement du langage naturel (NLP). Il essaie de donner aux ordinateurs la capacité de comprendre le texte et les contenus vocaux de manière similaire à celle des humains.

Objectif : Capturer complètement le sens contextuel. (Le contexte fait référence aux informations dérivées de la signification d’un texte)

Courtoisie : https://www.slideshare.net/YuriyGuts/natural-language-processing-nlp Slide 3
  1. Phonétique : étudie comment les humains produisent et perçoivent les sons ou les aspects équivalents de la langue des signes
  2. Phonologie : étudie comment les langues ou les dialectes organisent systématiquement leurs sons ou les parties constitutives des signes dans les langues des signes
  3. Morphologie : l’étude de la structure interne des mots – Le morphème est le bloc de construction de la morphologie – Un mot est la plus petite unité indépendante d’une langue – Les mots simples n’ont pas de structure interne (ou se composent d’un seul morphème). Exemple : travail, courir – Les mots complexes ont une structure interne (composée d’un ou plusieurs morphèmes). Exemple : travailleur (travail+eur), bâtiment (construire+ing)
  4. Syntaxe : l’étude de la façon dont les mots et les morphèmes se combinent pour former des unités plus grandes telles que des phrases et des phrases
  5. Sémantique : l’étude de la référence, de la signification ou de la vérité
  6. Pragmatique : l’étude de la façon dont le contexte contribue à la signification

Quelques terminologies importantes :

  1. Les tokens peuvent être considérés comme des mots, des caractères, des sous-mots, etc.
  2. La tokenisation est le processus de séparation des morceaux de phrases en tokens.
  3. Un corpus est une collection de données textuelles.
  4. Le vocabulaire est une collection de tokens uniques dans le corpus.
  5. Le lexique fait référence aux mots et à leurs significations.
La tokenisation est la première étape du pipeline NLP. Courtoisie : https://www.slideshare.net/YuriyGuts/natural-language-processing-nlp

Types de tokenisation

Une bonne référence : https://towardsdatascience.com/overview-of-nlp-tokenization-algorithms-c41a7d5ec4f9

Tokenisation au niveau des mots

Décompose la phrase donnée en mots en fonction d’un certain délimiteur

« She is smarter » devient « she », « is », « smarter ». Ici, le délimiteur est l’espace.

Inconvénients :

Lorsqu’il y a des mots « Out of Vocabulary (OOV) » (Une solution consiste à remplacer les mots rares par un jeton inconnu (UNK). Dans ce cas, le vocabulaire ne contiendra que les k mots les plus fréquents, mais les informations sur le nouveau mot seront perdues)

La taille du vocabulaire créé sera énorme, ce qui entraînera des problèmes de mémoire et de performances (une solution – passer à la tokenisation au niveau des caractères)

Lors de la division des phrases en fonction des espaces et de la ponctuation, des problèmes se posent pour les mots considérés comme un seul jeton mais qui sont séparés par un espace ou une ponctuation, comme don’t, New York, etc.

Tokenisation au niveau des caractères :

Décompose la phrase donnée en une séquence de caractères.

« Smarter » devient « s », « m », « a », « r », « t », « e », « r ».

Avantages :

Taille de vocabulaire plus petite (26 lettres de l’alphabet + caractères spéciaux, etc.) Les erreurs d’orthographe sont gérées

Tokenisation au niveau des sous-mots :

Décompose les mots en morceaux plus petits.

« Smarter » devient « Smart », « er »

Mots vides :

Les mots vides sont les mots couramment utilisés dans le texte, comme « the », « in », « where », etc.

import nltkfrom nltk.corpus import stopwords #Pythonprint(set(stopwords.words('english')))

Quelques défis du TAL :

  1. Ambiguïté (phrases ou expressions avec plusieurs interprétations. Deux types : syntaxique – plusieurs interprétations d’une phrase et lexicale – plusieurs interprétations d’un mot)
  2. Abréviations (formes courtes)
  3. Jetons non linguistiques
  4. Données des médias sociaux (sous forme de code mixte)

Modélisation linguistique :

Prédiction de l’unité linguistique possible (mot, texte, phrase, jeton, symbole, etc.) qui peut apparaître ensuite en tenant compte du contexte.

Les modèles qui attribuent des valeurs de probabilité à la séquence de jetons sont appelés modèles linguistiques

Le modèle le plus simple est le « N-gramme ». Il attribue des probabilités à une phrase ou à une séquence de « n » jetons.

Il utilise l’hypothèse de Markov ; la probabilité du mot suivant ne dépend que du mot précédent. Les modèles N-gramme examinent (n-1) mots dans le passé pour prédire le mot suivant.

Références

Aperçu des algorithmes de tokenisation en TAL

Introduction aux méthodes de tokenisation, y compris les sous-mots, BPE et SentencePiece

towardsdatascience.com

  1. ‘Speech & language processing’ , Daniel Jurafsky, James H Martin, preparation [consulté le 1er juin 2020] (Disponible sur : https://web. stanford. edu/~ jurafsky/slp3 (2018))
  2. https://www.slideshare.net/YuriyGuts/natural-language-processing-nlp
  3. ‘Foundations of Statistical Natural Language Processing’, Christopher Manning and Hinrich Schütze, MIT press, 1999
  4. ‘Natural Language Processing with Python’, Steven Bird,Ewan Klein and Edward Loper, O’Reilly Media, Inc.”, 2009.
  5. ‘Deep Learning for Natural Language Processing: Develop Deep Learning Models for your Natural Language Problems (Ebook)’, Jason Browlee, Machine Learning Mastery, 2017.
  6. ‘Speech & language processing’ , Daniel Jurafsky, James H Martin, preparation [consulté le 1er juin 2020]
  7. https://all-about-linguistics.group.shef.ac.uk/branches-of-linguistics/morphology/what-is-morphology//
  8. http://sams.edu.eg/en/faculties/flt/academic-programs-and-courses/department-of-english-language/
  9. https://www.coursehero.com/file/127598328/Human-Comm-Ch-2-4-Notesdocx//
  10. https://slideplayer.com/slide/7728110/
  11. https://www.geeksforgeeks.org/removing-stop-words-nltk-python/

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Des chercheurs de l'UC Berkeley présentent Gorilla un modèle basé sur LLaMA finement ajusté qui dépasse GPT-4 en ce qui concerne l'écriture d'appels d'API.

Une avancée récente dans le domaine de l’Intelligence Artificielle est l’introduction des Modèles de Lang...

AI

Comment l'apprentissage automatique va révolutionner l'industrie des données de localisation

L'industrie des données de localisation est en pleine croissance mais encore à ses débuts techniques. La plupart des ...

AI

Déverrouiller la boîte noire une loi quantitative pour comprendre le traitement des données dans les réseaux neuronaux profonds

L’attrait de l’intelligence artificielle a longtemps été enveloppé de mystère, en particulier dans le dom...

Apprentissage automatique

Ajustez de manière interactive Falcon-40B et d'autres LLMs sur les cahiers Amazon SageMaker Studio en utilisant QLoRA

Le réglage fin des grands modèles de langage (GML) vous permet d'ajuster des modèles fondamentaux open source pour ob...

AI

Découvrez Decaf une nouvelle plateforme de capture de déformation monoculaire à intelligence artificielle pour les interactions du visage et des mains.

Le suivi tridimensionnel (3D) à partir de vidéos RGB monoculaires est un domaine de pointe en vision par ordinateur e...

AI

Comment l'anonymisation des images impacte-t-elle les performances de la vision par ordinateur ? Exploration des techniques d'anonymisation traditionnelles vs réalistes

L’anonymisation de l’image consiste à altérer les données visuelles pour protéger la vie privée des indiv...