Articles of nlp

Quelle est la différence entre le marquage POS et l’parsing superficielle?

Je suis en train de suivre un cours de traitement du langage naturel à mon université et je suis encore confus avec un concept de base. J’obtiens la définition du marquage POS dans le livre Fondements du traitement statistique du langage naturel : Le marquage est la tâche d’étiquetage (ou de marquage) de chaque mot […]

Comment puis-je diviser plusieurs mots joints?

J’ai un tableau de 1000 entrées environ, avec des exemples ci-dessous: wickedweather liquidweather driveourtrucks gocompact slimprojector Je voudrais pouvoir les diviser en leurs mots respectifs, comme: wicked weather liquid weather drive our trucks go compact slim projector J’espérais une expression régulière faire mon tour. Mais, comme il n’y a pas de limite à franchir, il […]

Comment connecter des commandes Cortana à des scripts personnalisés?

C’est peut-être un peu tôt pour le demander, mais j’utilise Windows 10 Technical Preview Build 10122. Je voudrais configurer Cortana pour avoir des commandes personnalisées. Voici comment elle travaille: Hey Cortana, Microsoft traitera la commande et s’il n’y a rien pour elle, elle recherchera simplement l’entrée sur bing. Cependant, je voudrais pouvoir dire quelque chose […]

Qu’est-ce que le format de données CoNLL?

Je suis nouveau dans l’exploration de texte. J’utilise un jar open source (Mate Parser) qui me donne un résultat au format CoNLL 2009 après l’parsing des dépendances. Je souhaite utiliser les résultats de l’parsing des dépendances pour l’extraction d’informations. Mais je suis capable de comprendre une partie de la sortie mais pas capable de comprendre […]

Sélection de fonctions et réduction pour la classification de texte

Je travaille actuellement sur un projet, un simple parsingur de sentiments, de sorte qu’il y aura 2 et 3 classes dans des cas distincts . J’utilise un corpus assez riche en termes de mots uniques (environ 200 000). J’ai utilisé la méthode du « sac de mots » pour la sélection des fonctionnalités et pour […]

Algorithmes pour détecter les phrases et les mots-clés du texte

J’ai environ 100 Mo de texte, sans balisage, divisé en environ 10 000 entrées. Je voudrais générer automatiquement une liste ‘tag’. Le problème est qu’il existe des groupes de mots (c.-à-d. Des phrases) qui n’ont de sens que lorsqu’ils sont regroupés. Si je compte juste les mots, j’obtiens un grand nombre de mots vraiment communs […]

Quels sont les bons points de départ pour une personne intéressée par le traitement du langage naturel?

Question J’ai donc récemment mis au sharepoint nouveaux projets possibles qui devraient traiter de la “signification” du texte soumis et généré par les utilisateurs. Le traitement du langage naturel est le domaine qui traite de ce genre de problèmes, et après quelques recherches initiales, j’ai trouvé le hub OpenNLP et des collaborations universitaires comme le […]

Extraction / reconnaissance d’entités avec des outils gratuits lors de l’alimentation de Lucene Index

J’étudie actuellement les options pour extraire des noms de personne, des emplacements, des mots techniques et des catégories à partir de texte (beaucoup d’articles du Web) qui seront ensuite intégrés dans un index Lucene / ElasticSearch. Les informations supplémentaires sont ensuite ajoutées en tant que métadonnées et devraient augmenter la précision de la recherche. Par […]

Recherche sémantique avec NLP et elasticsearch

J’expérimente elasticsearch en tant que serveur de recherche et ma tâche est de créer une fonctionnalité de recherche “sémantique”. À partir d’une courte phrase textuelle telle que “J’ai un tuyau en rafale”, le système doit en déduire que l’utilisateur recherche un plombier et renvoie tous les plombiers indexés dans elasticsearch. Cela peut-il être fait directement […]

Quelles sont les principales différences et avantages des algorithmes Porter et Lancaster Stemming?

Je travaille sur des tâches de classification de documents en Java. Les deux algorithmes sont fortement recommandés, quels sont les avantages et les inconvénients de chacun et lesquels sont plus couramment utilisés dans la littérature pour les tâches de traitement de langage naturel?