Créez votre première autocorrection sans apprentissage automatique

Créez votre première autocorrection sans ML

Un guide étape par étape pour construire votre propre correcteur d’orthographe.

Photo de Markus Spiske sur Unsplash

La correction orthographique est partout. Lorsque j’ai écrit cet article, Grammarly m’a aidé discrètement avec les fautes de frappe. Lorsque vous saisissez une requête sur un site de commerce électronique, elle sera d’abord traitée pour mieux correspondre au titre des articles souhaités.

La correction orthographique est sans aucun doute essentielle pour toute communication écrite. Elle améliore notre communication, maintient notre professionnalisme et augmente notre productivité. Lorsque nous envisageons d’en construire un, nous pouvons rapidement arriver à la solution qui convient à tous : l’apprentissage approfondi. Cependant, l’apprentissage approfondi n’est parfois pas le choix optimal.

Dans cet article, je souhaite vous présenter “noisy channel”, une technique classique de correction orthographique, et comment vous pouvez construire votre module de correction sans aucune connaissance approfondie en apprentissage approfondi.

Noisy channel

Nous pouvons considérer que chaque mot de nos documents a traversé un canal bruyant qui les a quelque peu “déformés”. Nous cherchons à apprendre le “canal décodeur”, qui peut inverser ce processus de “déformation”.

Pour corriger un mot mal orthographié, nous collectons toutes les corrections possibles et les faisons passer par le canal décodeur pour voir la correction ayant la plus grande probabilité.

Canal bruyant et canal décodeur (Image de l'auteur)

Comparé à l’approche de l’apprentissage automatique, je pense que le canal bruyant est plus favorable pour commencer pour les raisons suivantes :

  • Efficacité des coûts : Pas besoin de construire et de maintenir des modèles approfondis. Nous savons tous que seuls certains disposent des ressources nécessaires pour construire, servir et maintenir un modèle d’apprentissage approfondi.
  • Boîte blanche : Le canal bruyant est plus interprétable. Lorsqu’il y a un comportement inattendu du correcteur orthographique, nous pouvons analyser le score en composantes plus petites et identifier d’où vient le problème. Ainsi, nous pouvons optimiser en conséquence (par exemple, étendre le dictionnaire, ajuster les hyperparamètres,…).

Cependant, à mesure que les ressources de votre application augmentent, des modèles approfondis, tels que seq2seq, deviennent un meilleur choix car :

  • Le canal bruyant présente des lacunes

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les mathématiques (très) simples peuvent-elles informer RLHF pour les grands modèles de langage ? Cet article sur l'IA dit oui !

L’intégration de l’apport humain est un élément clé des récentes améliorations impressionnantes des capac...

AI

Meilleurs outils d'IA pour les étudiants (septembre 2023)

L’intelligence artificielle (IA) a plusieurs applications dans l’éducation, notamment le développement de...

AI

Comment générer du son à l'aide du modèle d'IA de synthèse vocale Bark

Introduction Bark est un modèle texte-vers-audio génératif open-source créé par Suno.ai qui peut générer une parole m...

AI

Google et les chercheurs du MIT présentent StableRep une révolution dans l'entraînement de l'IA grâce à des images synthétiques pour un apprentissage automatique amélioré

Des chercheurs ont exploré le potentiel d’utilisation d’images synthétiques générées par des modèles de t...

AI

Découvrez Quivr Un projet open-source conçu pour stocker et récupérer des informations non structurées comme une deuxième mémoire.

Il y a eu une croissance continue dans le domaine de l’OpenAI au cours des dernières années. Des chercheurs de ...