Données de formation pour l’parsing des sentiments

Où puis-je obtenir un corpus de documents qui ont déjà été classés comme positifs / négatifs pour le sentiment dans le domaine de l’entreprise? Je souhaite un large corpus de documents fournissant des critiques pour les entresockets, comme des revues d’entresockets fournies par des analystes et des médias.

Je trouve des corpus qui ont des revues de produits et de films. Existe-t-il un corpus pour le domaine d’affaires, y compris des revues d’entresockets qui correspondent à la langue des affaires?

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

Vous pouvez utiliser Twitter, avec ses smileys, comme ceci: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a- Corpus-for-Sentiment-Analyse-et-Opinion-Mining.pdf

J’espère que ça va te faire commencer. Il y a plus dans la littérature, si vous êtes intéressé par des sous-tâches spécifiques telles que la négation, l’étendue des sentiments, etc.

Pour vous concentrer sur les entresockets, vous pouvez associer une méthode à la détection de sujet ou, à moindre coût, à de nombreuses mentions d’une entreprise donnée. Ou vous pouvez obtenir vos données annotées par Mechanical Turkers.

C’est une liste que j’ai écrite il y a quelques semaines, sur mon blog . Certains de ces jeux de données ont été récemment inclus dans la plate-forme NLTK Python.

Lexiques


Jeux de données


Les références:

  • Keenformatics – Lexiques et jeux de données d’parsing de sentiment (mon blog)
  • Expérience personnelle

Si vous avez des ressources (médias, blogs, etc.) sur le domaine que vous souhaitez explorer, vous pouvez créer votre propre corpus. Je le fais en python:

  • utiliser Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ pour parsingr le contenu que je souhaite classer.
  • séparer ces phrases signifiant des opinions positives / négatives sur les entresockets.
  • Utilisez NLTK pour traiter ces phrases, marquer des mots, marquer des points de vente, etc.
  • Utilisez NLTK PMI pour calculer les bigrammes ou les sortinggrammes les plus fréquents dans une seule classe

La création de corpus est un travail difficile de prétraitement, de vérification, de marquage, etc., mais présente l’avantage de préparer un modèle pour un domaine spécifique, augmentant ainsi la précision. Si vous pouvez obtenir un corpus déjà préparé, continuez avec l’parsing des sentiments;)

Je ne suis au courant d’aucun de ces corpus étant librement disponible, mais vous pouvez essayer une méthode non supervisée sur un dataset sans étiquette.

Vous pouvez obtenir une large sélection de critiques en ligne de Datafiniti. La plupart des commentaires sont accompagnés de données de notation, ce qui donnerait plus de granularité au sentiment que de positif / négatif. Voici une liste des entresockets avec des critiques , et voici une liste de produits avec des critiques .