Utilisation de la ROC pour les dessins techniques complexes
ROC for complex technical drawings
La Reconnaissance Optique des Caractères (OCR) a révolutionné la manière dont les entreprises automatisent le traitement des documents. Cependant, la qualité et la précision de la technologie ne conviennent pas à toutes les applications. Plus le document à traiter est complexe, moins elle est précise. Cela est particulièrement vrai pour les dessins d’ingénierie. Bien que les technologies OCR prêtes à l’emploi ne soient pas adaptées à cette tâche, il existe d’autres moyens d’atteindre vos objectifs de traitement des documents avec l’OCR. Dans ce qui suit, j’explorerai plusieurs solutions viables pour vous donner une idée générale sans entrer dans les détails techniques.
Les défis de la reconnaissance des dessins d’ingénierie
En ce qui concerne les dessins techniques, l’OCR a du mal à comprendre la signification des éléments de texte individuels. La technologie peut lire le texte, mais elle n’en comprend pas la signification. Il existe plusieurs opportunités à considérer pour les ingénieurs et les fabricants si la reconnaissance automatique du document technique est configurée correctement. Voici les plus significatives.
Source de l’image : Mobidev
- Une revue complète de la Blockchain dans l’IA
- PyTorch LSTMCell – Formes de l’entrée, de l’état caché, de l’état de cellule et de la sortie
- Une nouvelle recherche en IA de Tel Aviv et de l’Université de Copenhague présente une approche plug-and-play pour ajuster rapidement les modèles de diffusion texte-image en utilisant un signal discriminatif.
Pour réaliser une analyse complexe de la documentation technique, les ingénieurs doivent entraîner des modèles d’intelligence artificielle. Tout comme les humains, les modèles d’IA ont besoin d’expérience et de formation pour comprendre ces dessins.
Un défi de la reconnaissance des plans et des dessins d’ingénierie est que le logiciel doit comprendre comment séparer les différentes vues du dessin. Ce sont des parties différentes du dessin qui donnent une idée de sa disposition. En séparant les vues et en comprenant comment elles sont liées les unes aux autres, le logiciel peut calculer la zone de délimitation.
Ce processus peut comporter plusieurs défis :
- Les vues peuvent se chevaucher
- Les vues peuvent être endommagées
- Les étiquettes peuvent être à égale distance de deux vues
- Les vues peuvent être imbriquées
La relation entre les vues est un autre problème possible. Vous devez vous demander si la vue est une partie plate du schéma, une partie tournée, un bloc ou autre chose. De plus, il peut y avoir d’autres problèmes tels que des mesures enchaînées, des annotations manquantes, des hauteurs définies implicitement par référence à une norme, ou d’autres problèmes.
Il est important de noter que l’OCR générique ne peut pas comprendre de manière fiable le texte entouré d’éléments graphiques tels que des lignes, des symboles et des annotations. En raison de ce fait, nous devons approfondir l’OCR avec l’apprentissage automatique, ce qui sera plus utile pour cette application.
Modèles OCR pré-entraînés et personnalisés
Il ne manque pas de logiciels OCR sur le marché, mais tous ces logiciels ne peuvent pas être entraînés ou modifiés par l’utilisateur. Comme nous l’avons appris, la formation peut être une nécessité pour analyser vos dessins d’ingénierie. Cependant, il existe des outils OCR pour ce type de dessins.
Outils OCR pré-entraînés
Voici quelques options courantes pour la reconnaissance OCR des dessins d’ingénierie :
- ABBYY FineReader : ce logiciel polyvalent d’interprétation de plans offre une technologie OCR avec des capacités de reconnaissance de texte. Il prend en charge différents formats d’image, la conservation de la mise en page, l’exportation de données et les intégrations.
- Adobe Acrobat Pro : en plus de fournir des fonctionnalités d’édition, de visualisation et de gestion de PDF, Acrobat vous permet de numériser des documents OCR et des plans, d’extraire du texte et d’effectuer des recherches. Il prend en charge différentes langues et permet aux utilisateurs de configurer des options.
- Bluebeam Revu : une autre application PDF populaire, Bluebeam Revu propose des technologies OCR pour l’extraction de texte des dessins d’ingénierie.
- AutoCAD : abréviation de Conception Assistée par Ordinateur, AutoCAD prend en charge des plugins OCR pour interpréter les plans et les convertir en éléments CAO modifiables.
- PlanGrid : ce logiciel inclut l’interprétation OCR des plans dès la sortie de l’emballage. Avec cette fonctionnalité, vous pouvez télécharger des images de plans, puis extraire, organiser, indexer et rechercher le texte.
- Textract : cette fonctionnalité basée sur le cloud d’AWS permet l’analyse OCR des documents et peut extraire des éléments tels que des tableaux à partir de documents. Elle peut également reconnaître des éléments à partir de plans et propose des API pour l’intégration avec d’autres applications.
- Butler OCR : en fournissant aux développeurs des API d’extraction de documents, Butler OCR associe l’apprentissage automatique à une revue humaine pour améliorer la précision de la reconnaissance de documents.
Solutions OCR personnalisées
Si vous recherchez des solutions OCR personnalisées pouvant être entraînées pour une meilleure extraction automatique des données à partir de dessins d’ingénierie et les adapter à votre format de données spécifique, voici quelques options populaires :
- Tesseract : ce moteur OCR flexible et open-source maintenu par Google peut être entraîné sur des données personnalisées pour reconnaître des caractères et des symboles spécifiques aux plans.
- OpenCV : la bibliothèque open-source de vision par ordinateur peut être combinée à des outils OCR tels que Tesseract pour construire des solutions d’interprétation personnalisées. Ses fonctions de traitement et d’analyse d’images peuvent améliorer la précision de l’OCR sur les dessins d’ingénierie lorsqu’elles sont utilisées correctement.
En dehors de ces outils, il est également possible de développer indépendamment des modèles personnalisés d’apprentissage automatique. En utilisant des modèles d’entraînement sur des ensembles de données étiquetées, des cadres comme TensorFlow ou PyTorch, ces solutions peuvent être ajustées pour reconnaître des éléments spécifiques de schémas et atteindre une précision plus élevée pour les besoins d’une organisation.
Les modèles pré-entraînés offrent une commodité et une facilité d’utilisation, mais peuvent ne pas être aussi efficaces pour interpréter les dessins d’ingénierie que des solutions personnalisées. Ces solutions personnalisées nécessitent également des ressources et une expertise supplémentaires pour être développées et entretenues.
Les solutions personnalisées nécessitent des ressources financières et humaines supplémentaires pour être développées. Je recommanderais de commencer par une preuve de concept (PoC) pour valider les capacités techniques et un produit minimum viable (MVP) pour vérifier la perception du marché du projet avant d’investir trop massivement dans une solution OCR personnalisée.
Le processus de mise en œuvre d’un module OCR pour la lecture de dessins d’ingénierie
Le meilleur point de départ pour créer un logiciel OCR pour les dessins d’ingénierie serait d’analyser les outils open source disponibles. Si vous épuisez vos options open source, vous devrez peut-être vous tourner vers des options propriétaires avec des intégrations d’API.
Créer une solution OCR à partir de zéro est peu pratique car cela nécessite un ensemble de données énorme pour l’entraînement. C’est difficile et coûteux à rassembler et nécessite de nombreuses ressources pour l’entraînement du modèle. Dans la plupart des cas, l’ajustement fin des modèles existants devrait répondre à vos besoins.
Le processus à partir de là ressemble à ceci :
- Considérer les exigences : vous devez comprendre quel type de dessins d’ingénierie votre application devrait prendre en charge et quels types de fonctionnalités sont nécessaires pour atteindre cet objectif.
- Capture d’image et prétraitement : réfléchissez aux appareils que vous prévoyez d’utiliser pour capturer les images. Des étapes de prétraitement supplémentaires peuvent être nécessaires pour améliorer la qualité des résultats. Cela peut inclure le recadrage, le redimensionnement, la réduction du bruit, et plus encore.
- Intégration OCR : envisagez le moteur OCR qui fonctionnera le mieux avec votre application. Les bibliothèques OCR ont des API qui permettent à votre application d’extraire du texte à partir d’images capturées. Il est important de prendre en compte les solutions OCR open source pour réaliser des économies de coûts. Les API tierces peuvent être capricieuses en ce qui concerne la tarification au fil du temps ou perdre leur support.
- Reconnaissance et traitement du texte : ensuite, il est temps de mettre en œuvre la logique pour traiter et reconnaître le texte. Certaines tâches possibles que vous pouvez envisager d’ajouter à cette étape sont le nettoyage du texte, la reconnaissance de la langue, ou toute autre technique pouvant fournir des résultats de reconnaissance de texte plus clairs.
- Interface utilisateur et expérience : une interface utilisateur facile à utiliser pour l’application est importante afin que l’utilisateur puisse l’utiliser efficacement pour capturer des images et initier l’OCR. Les résultats doivent être présentés à l’utilisateur de manière facile à comprendre.
- Tests : testez minutieusement l’application pour garantir sa précision et sa convivialité. Les retours des utilisateurs sont essentiels à ce processus.
Conclusion
Face aux défis de la création d’un logiciel OCR pour des dessins d’ingénierie complexes, les organisations disposent de plusieurs options pour aborder le problème. Des modèles pré-entraînés et des outils personnalisables permettent de créer des solutions plus personnalisées, les entreprises peuvent ainsi trouver des moyens d’analyser, d’indexer et de rechercher efficacement des plans et d’autres documents complexes. Tout ce qu’il faut, c’est de l’ingéniosité, de la créativité et du temps pour créer une solution répondant à leurs besoins.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Déploiement des modèles PyTorch avec le serveur d’inférence Nvidia Triton
- Créez des mèmes avec le plugin ChatGPT Meme Creator (pour développer votre entreprise)
- Tim Davis, Co-fondateur et Président de Modular – Série d’interviews
- Dévoiler l’avenir de l’IA avec GPT-4 et l’IA Explicative (XAI)
- La Pratique de la Gestion des Risques de l’IA
- Un guide en anglais simple pour rétroconcevoir le code source de Reddit avec LangChain, Activeloop et GPT-4
- Les plugins ChatGPT indispensables pour les créateurs de contenu