機械学習

データの Concept drift 問題について

機械学習やその周辺分野では、モデルを無益なものにするデータの変動をConcept drift (コンセプト変動; コンセプトドリフト; 概念ドリフト) と呼びます。 Concept driftは、モデルが予測するための説明変数の統計的性質が思いがけないことで時間とともに変わ…

自然言語処理の前処理・素性いろいろ

先日、前処理大全という本を読んで影響を受けたので、今回は自然言語処理の前処理とついでに素性の作り方をPythonコードとともに列挙したいと思います。

不均衡データの学習 ~imblanced-learnを例に~

ちゃお・・・† まいおり・・・† 不均衡データとは? 不均衡データとはクラスに属するサンプルサイズに偏りがある不均衡なデータのことです。 例えば、ネット広告のCTR (Click Through Rate; クリック率) のデータは正例 (クリックした数) が少なく、負例 (ク…

さらなる Naive Bayes: 不均衡データに対する UniversalSetNB と SelectiveNB の紹介

ちゃお……† まいおり……† こちらの記事は機械学習と数学 Advent Calendar 2017の23日目の記事となります。 qiita.com 以前、Naive BayesとComplement Naive Bayes, Negation Naive Bayesでの多クラス分類を比較しました。今回も別のNaive Bayes亜種での多クラ…

不均衡データに対するNaive BayesとComplement Naive Bayes, Negation Naive Bayesの比較

ちゃお・・・† 舞い降り・・・† 今回は、Naive BayesとComplement Naive Bayes, Negation Naive Bayesでの多クラス分類を比較したい思います。なお多クラス分類とは、文書 がどのクラス に属しているかを求めることです。 それぞれの手法 Naive Bayes Naive …

PyLadies Tokyoで機械学習のアルゴリズム選択とハイパーパラメーター最適化について話しました

舞い降り...† 10/24のPyLadies Tokyo一周年パーティーで機械学習の自動化についてLTしました。 所属してる会社以外の人の前でLTするのははじめてだったのでちょっと緊張。 Pythonで自動機械学習 auto sklearn from Yukino Ikegami www.slideshare.net 元とな…