Je suis en train de suivre un cours de traitement du langage naturel à mon université et je suis encore confus avec un concept de base. J’obtiens la définition du marquage POS dans le livre Fondements du traitement statistique du langage naturel : Le marquage est la tâche d’étiquetage (ou de marquage) de chaque mot […]
J’ai un tableau de 1000 entrées environ, avec des exemples ci-dessous: wickedweather liquidweather driveourtrucks gocompact slimprojector Je voudrais pouvoir les diviser en leurs mots respectifs, comme: wicked weather liquid weather drive our trucks go compact slim projector J’espérais une expression régulière faire mon tour. Mais, comme il n’y a pas de limite à franchir, il […]
C’est peut-être un peu tôt pour le demander, mais j’utilise Windows 10 Technical Preview Build 10122. Je voudrais configurer Cortana pour avoir des commandes personnalisées. Voici comment elle travaille: Hey Cortana, Microsoft traitera la commande et s’il n’y a rien pour elle, elle recherchera simplement l’entrée sur bing. Cependant, je voudrais pouvoir dire quelque chose […]
Je suis nouveau dans l’exploration de texte. J’utilise un jar open source (Mate Parser) qui me donne un résultat au format CoNLL 2009 après l’parsing des dépendances. Je souhaite utiliser les résultats de l’parsing des dépendances pour l’extraction d’informations. Mais je suis capable de comprendre une partie de la sortie mais pas capable de comprendre […]
Je travaille actuellement sur un projet, un simple parsingur de sentiments, de sorte qu’il y aura 2 et 3 classes dans des cas distincts . J’utilise un corpus assez riche en termes de mots uniques (environ 200 000). J’ai utilisé la méthode du « sac de mots » pour la sélection des fonctionnalités et pour […]
J’ai environ 100 Mo de texte, sans balisage, divisé en environ 10 000 entrées. Je voudrais générer automatiquement une liste ‘tag’. Le problème est qu’il existe des groupes de mots (c.-à-d. Des phrases) qui n’ont de sens que lorsqu’ils sont regroupés. Si je compte juste les mots, j’obtiens un grand nombre de mots vraiment communs […]
Question J’ai donc récemment mis au sharepoint nouveaux projets possibles qui devraient traiter de la “signification” du texte soumis et généré par les utilisateurs. Le traitement du langage naturel est le domaine qui traite de ce genre de problèmes, et après quelques recherches initiales, j’ai trouvé le hub OpenNLP et des collaborations universitaires comme le […]
J’étudie actuellement les options pour extraire des noms de personne, des emplacements, des mots techniques et des catégories à partir de texte (beaucoup d’articles du Web) qui seront ensuite intégrés dans un index Lucene / ElasticSearch. Les informations supplémentaires sont ensuite ajoutées en tant que métadonnées et devraient augmenter la précision de la recherche. Par […]
J’expérimente elasticsearch en tant que serveur de recherche et ma tâche est de créer une fonctionnalité de recherche “sémantique”. À partir d’une courte phrase textuelle telle que “J’ai un tuyau en rafale”, le système doit en déduire que l’utilisateur recherche un plombier et renvoie tous les plombiers indexés dans elasticsearch. Cela peut-il être fait directement […]
Je travaille sur des tâches de classification de documents en Java. Les deux algorithmes sont fortement recommandés, quels sont les avantages et les inconvénients de chacun et lesquels sont plus couramment utilisés dans la littérature pour les tâches de traitement de langage naturel?