Créez votre première autocorrection sans apprentissage automatique

Créez votre première autocorrection sans ML

Un guide étape par étape pour construire votre propre correcteur d’orthographe.

Photo de Markus Spiske sur Unsplash

La correction orthographique est partout. Lorsque j’ai écrit cet article, Grammarly m’a aidé discrètement avec les fautes de frappe. Lorsque vous saisissez une requête sur un site de commerce électronique, elle sera d’abord traitée pour mieux correspondre au titre des articles souhaités.

La correction orthographique est sans aucun doute essentielle pour toute communication écrite. Elle améliore notre communication, maintient notre professionnalisme et augmente notre productivité. Lorsque nous envisageons d’en construire un, nous pouvons rapidement arriver à la solution qui convient à tous : l’apprentissage approfondi. Cependant, l’apprentissage approfondi n’est parfois pas le choix optimal.

Dans cet article, je souhaite vous présenter “noisy channel”, une technique classique de correction orthographique, et comment vous pouvez construire votre module de correction sans aucune connaissance approfondie en apprentissage approfondi.

Noisy channel

Nous pouvons considérer que chaque mot de nos documents a traversé un canal bruyant qui les a quelque peu “déformés”. Nous cherchons à apprendre le “canal décodeur”, qui peut inverser ce processus de “déformation”.

Pour corriger un mot mal orthographié, nous collectons toutes les corrections possibles et les faisons passer par le canal décodeur pour voir la correction ayant la plus grande probabilité.

Canal bruyant et canal décodeur (Image de l'auteur)

Comparé à l’approche de l’apprentissage automatique, je pense que le canal bruyant est plus favorable pour commencer pour les raisons suivantes :

  • Efficacité des coûts : Pas besoin de construire et de maintenir des modèles approfondis. Nous savons tous que seuls certains disposent des ressources nécessaires pour construire, servir et maintenir un modèle d’apprentissage approfondi.
  • Boîte blanche : Le canal bruyant est plus interprétable. Lorsqu’il y a un comportement inattendu du correcteur orthographique, nous pouvons analyser le score en composantes plus petites et identifier d’où vient le problème. Ainsi, nous pouvons optimiser en conséquence (par exemple, étendre le dictionnaire, ajuster les hyperparamètres,…).

Cependant, à mesure que les ressources de votre application augmentent, des modèles approfondis, tels que seq2seq, deviennent un meilleur choix car :

  • Le canal bruyant présente des lacunes

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Hugging Face est le nouveau GitHub pour les LLMs

Hugging Face devient le GitHub des grands modèles de langage (LLM). Hugging Face propose des outils qui simplifient l...

AI

ReactJS Avec ChatGPT Intégrer l'IA Conversationnelle dans Vos Applications Web

Dans ce blog, nous explorerons les possibilités et les avantages d'intégrer ChatGPT dans les applications ReactJS ain...

AI

Analyse et détection des biais dans un ensemble de données sur les défauts de paiement par carte de crédit

Cette section explore les biais dans un ensemble de données sur les défauts de cartes de crédit, examinant la discrim...

AI

Avantages de Python en tant que langage de développement pour l'IA et l'apprentissage automatique

Découvrez pourquoi Python est de plus en plus utilisé par les entreprises de développement de sites web pour conquéri...

AI

Créez des vidéos virales avec l'IA pour gagner de l'argent en ligne

Voici votre guide pour créer des vidéos de têtes parlantes générées par l'IA virales sur Instagram et TikTok (et les ...

AI

Insertion d'objets prenant en compte la profondeur dans les vidéos à l'aide de Python

Dans le domaine de la vision par ordinateur, l'estimation cohérente de la profondeur et de la pose de la caméra dans ...