VADERって？

ICWSM-14で提案されたsentiment analysisの手法。

Hutto, C.J. & Gilbert, E.E. (2014). VADER: A Parsimonious Rule-based Model for Weblogs and Social Media (ICWSM-14). Ann Arbor, MI, June 2014.
http://comp.social.gatech.edu/papers/icwsm14.vader.hutto.pdf

以下の特長があるようです。

評価実験では4200ツイートの極性判定でF1値が0.96とのこと。

どんな風にして作られたかざっくり書いてみます。

1. 収録語彙の候補を集める

さまざまな言語資源から収録語彙を収集。

全部で9000くらいになるらしい

Amazon Mechanical Turk (AMT) で人を募って、語のpositive/negativeの度合い[-4, +4]をレーティングする。

このとき、AMTを使うにあたって品質コントロールのためにいろいろやってる。

こうしてレーティングされた結果から無効な語彙をカット。

結果、7500語が残ったそう

1.と2.でやったのはpositive/negativeの度合いで、今度はネガポジ関係ない感情的な強さを示す特徴をみつける。

1万ツイート中からpattern.enのpositive/negativeのスコアが高い順に400ずつツイートを抽出。

人間が各ツイートの強さをレーティングしてそれを分析して5つの特徴を使うことにしている。