2018-01-01から1年間の記事一覧

自然言語処理の前処理・素性いろいろ

先日、前処理大全という本を読んで影響を受けたので、今回は自然言語処理の前処理とついでに素性の作り方をPythonコードとともに列挙したいと思います。

不均衡データの学習 ~imblanced-learnを例に~

ちゃお・・・† まいおり・・・† 不均衡データとは? 不均衡データとはクラスに属するサンプルサイズに偏りがある不均衡なデータのことです。 例えば、ネット広告のCTR (Click Through Rate; クリック率) のデータは正例 (クリックした数) が少なく、負例 (ク…

Sentiment AnalysisのVADER論文を読んだ

ちゃお・・・† まいおり・・・† 今回はNLTKに採用されたVADERの論文について紹介しようと思います。 VADERって? ICWSM-14で提案されたsentiment analysisの手法。 Hutto, C.J. & Gilbert, E.E. (2014). VADER: A Parsimonious Rule-based Model for Weblogs…