Créez votre première autocorrection sans apprentissage automatique
Créez votre première autocorrection sans ML
Un guide étape par étape pour construire votre propre correcteur d’orthographe.
La correction orthographique est partout. Lorsque j’ai écrit cet article, Grammarly m’a aidé discrètement avec les fautes de frappe. Lorsque vous saisissez une requête sur un site de commerce électronique, elle sera d’abord traitée pour mieux correspondre au titre des articles souhaités.
La correction orthographique est sans aucun doute essentielle pour toute communication écrite. Elle améliore notre communication, maintient notre professionnalisme et augmente notre productivité. Lorsque nous envisageons d’en construire un, nous pouvons rapidement arriver à la solution qui convient à tous : l’apprentissage approfondi. Cependant, l’apprentissage approfondi n’est parfois pas le choix optimal.
Dans cet article, je souhaite vous présenter “noisy channel”, une technique classique de correction orthographique, et comment vous pouvez construire votre module de correction sans aucune connaissance approfondie en apprentissage approfondi.
Noisy channel
Nous pouvons considérer que chaque mot de nos documents a traversé un canal bruyant qui les a quelque peu “déformés”. Nous cherchons à apprendre le “canal décodeur”, qui peut inverser ce processus de “déformation”.
- Au-delà des tutoriels Apprendre l’analyse de données avec l’agent Pandas de LangChain
- Des chercheurs d’Inception, de MBZUAI et de Cerebras ont ouvert en open source Jais le modèle de langage arabe le plus avancé au monde.
- ANPR avec YOLOV8
Pour corriger un mot mal orthographié, nous collectons toutes les corrections possibles et les faisons passer par le canal décodeur pour voir la correction ayant la plus grande probabilité.

Comparé à l’approche de l’apprentissage automatique, je pense que le canal bruyant est plus favorable pour commencer pour les raisons suivantes :
- Efficacité des coûts : Pas besoin de construire et de maintenir des modèles approfondis. Nous savons tous que seuls certains disposent des ressources nécessaires pour construire, servir et maintenir un modèle d’apprentissage approfondi.
- Boîte blanche : Le canal bruyant est plus interprétable. Lorsqu’il y a un comportement inattendu du correcteur orthographique, nous pouvons analyser le score en composantes plus petites et identifier d’où vient le problème. Ainsi, nous pouvons optimiser en conséquence (par exemple, étendre le dictionnaire, ajuster les hyperparamètres,…).
Cependant, à mesure que les ressources de votre application augmentent, des modèles approfondis, tels que seq2seq, deviennent un meilleur choix car :
- Le canal bruyant présente des lacunes…
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Apprentissage profond efficace libérer la puissance de la compression de modèle
- Le fondu contrôlé
- Outils de visioconférence les plus performants en 2023
- Le paysage actuel du leadership en matière de données et de technologie – Le directeur de l’IA remplacera-t-il le directeur de la numérisation?
- Choisir la bonne stratégie GPU pour votre projet d’intelligence artificielle
- Commencer avec les structures de données Python en 5 étapes
- Cet article sur l’IA présente le score de raisonnement impacté par la complexité (CIRS) évaluation du rôle de la complexité du code dans l’amélioration des capacités de raisonnement des grands modèles de langage.