Où puis-je obtenir un corpus de documents qui ont déjà été classés comme positifs / négatifs pour le sentiment dans le domaine de l’entreprise? Je souhaite un large corpus de documents fournissant des critiques pour les entresockets, comme des revues d’entresockets fournies par des analystes et des médias.
Je trouve des corpus qui ont des revues de produits et de films. Existe-t-il un corpus pour le domaine d’affaires, y compris des revues d’entresockets qui correspondent à la langue des affaires?
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
Vous pouvez utiliser Twitter, avec ses smileys, comme ceci: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a- Corpus-for-Sentiment-Analyse-et-Opinion-Mining.pdf
J’espère que ça va te faire commencer. Il y a plus dans la littérature, si vous êtes intéressé par des sous-tâches spécifiques telles que la négation, l’étendue des sentiments, etc.
Pour vous concentrer sur les entresockets, vous pouvez associer une méthode à la détection de sujet ou, à moindre coût, à de nombreuses mentions d’une entreprise donnée. Ou vous pouvez obtenir vos données annotées par Mechanical Turkers.
C’est une liste que j’ai écrite il y a quelques semaines, sur mon blog . Certains de ces jeux de données ont été récemment inclus dans la plate-forme NLTK Python.
Opinion Lexique de Bing Liu
Lexique de la subjectivité MPQA
SentiWordNet
Harvard General Inquirer
Enquête linguistique et comptage de mots (LIWC)
Lexique Vader
Ensembles de données MPQA
NOTES : Licence publique GNU.
Sentiment140 (Tweets)
STS-Gold (Tweets)
Ensemble de données de révision client (Avis produits)
Inclus dans la plate-forme NLTK Python
Ensemble des avantages et inconvénients (avantages et inconvénients des phrases)
ou
Inclus dans la plate-forme NLTK Python
Phrases comparatives (Critiques)
Inclus dans la plate-forme NLTK Python
Sanders Analytics Twitter Sentiment Corpus (Tweets)
5513 tweets classés par main sur 4 sujets différents. Grâce au ToS de Twitter, un petit script Python est inclus pour télécharger tous les tweets. Les classifications de sentiment elles-mêmes sont fournies gratuitement et sans ressortingctions. Ils peuvent être utilisés pour des produits commerciaux. Ils peuvent être redissortingbués. Ils peuvent être modifiés.
Tweets espagnols (tweets)
SemEval 2014 (Tweets)
Vous ne devez pas redissortingbuer les tweets, les annotations ou le corpus obtenu (à partir du fichier readme)
Divers jeux de données (Critiques)
Divers jeux de données # 2 (Critiques)
Les références:
Voici quelques autres;
http://inclass.kaggle.com/c/si650winter11
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
Si vous avez des ressources (médias, blogs, etc.) sur le domaine que vous souhaitez explorer, vous pouvez créer votre propre corpus. Je le fais en python:
La création de corpus est un travail difficile de prétraitement, de vérification, de marquage, etc., mais présente l’avantage de préparer un modèle pour un domaine spécifique, augmentant ainsi la précision. Si vous pouvez obtenir un corpus déjà préparé, continuez avec l’parsing des sentiments;)
Je ne suis au courant d’aucun de ces corpus étant librement disponible, mais vous pouvez essayer une méthode non supervisée sur un dataset sans étiquette.
Vous pouvez obtenir une large sélection de critiques en ligne de Datafiniti. La plupart des commentaires sont accompagnés de données de notation, ce qui donnerait plus de granularité au sentiment que de positif / négatif. Voici une liste des entresockets avec des critiques , et voici une liste de produits avec des critiques .