IPA辞書品詞体系ベースの辞書への語彙追加のための動詞の活用

あくまでもIPA辞書品詞体系ベースの辞書への語彙追加を目的とした動詞の活用の説明とします。

データの Concept drift 問題について

機械学習やその周辺分野では、モデルを無益なものにするデータの変動をConcept drift (コンセプト変動; コンセプトドリフト; 概念ドリフト) と呼びます。 Concept driftは、モデルが予測するための説明変数の統計的性質が思いがけないことで時間とともに変わ…

MacのAutomatorでサービスを作って定型的テキスト処理を楽にしましょう

ちゃお……† 普段の仕事とかで、カタカナをひらがなにしたり漢字をひらがなにしたりだとかそういうちょっとした文字列の置換をしたい場合がちょくちょくあります。わたしは、いちいちそういうのキーボードで再入力してIMEとかで変換するのがとてもめんどくさく…

自然言語処理の前処理・素性いろいろ

先日、前処理大全という本を読んで影響を受けたので、今回は自然言語処理の前処理とついでに素性の作り方をPythonコードとともに列挙したいと思います。

不均衡データの学習 ~imblanced-learnを例に~

ちゃお・・・† まいおり・・・† 不均衡データとは? 不均衡データとはクラスに属するサンプルサイズに偏りがある不均衡なデータのことです。 例えば、ネット広告のCTR (Click Through Rate; クリック率) のデータは正例 (クリックした数) が少なく、負例 (ク…

Sentiment AnalysisのVADER論文を読んだ

ちゃお・・・† まいおり・・・† 今回はNLTKに採用されたVADERの論文について紹介しようと思います。 VADERって? ICWSM-14で提案されたsentiment analysisの手法。 Hutto, C.J. & Gilbert, E.E. (2014). VADER: A Parsimonious Rule-based Model for Weblogs…

さらなる Naive Bayes: 不均衡データに対する UniversalSetNB と SelectiveNB の紹介

ちゃお……† まいおり……† こちらの記事は機械学習と数学 Advent Calendar 2017の23日目の記事となります。 qiita.com 以前、Naive BayesとComplement Naive Bayes, Negation Naive Bayesでの多クラス分類を比較しました。今回も別のNaive Bayes亜種での多クラ…

いろんなtf-idf

今回はtf-idfの話をしようと思います……†tf-idfは、文書中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。 tf-idfは、tf(英: Term Frequency、単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つ…

不均衡データに対するNaive BayesとComplement Naive Bayes, Negation Naive Bayesの比較

ちゃお・・・† 舞い降り・・・† 今回は、Naive BayesとComplement Naive Bayes, Negation Naive Bayesでの多クラス分類を比較したい思います。なお多クラス分類とは、文書 がどのクラス に属しているかを求めることです。 それぞれの手法 Naive Bayes Naive …

日本語テキストのLexical density測って遊んでみた

ちゃお。舞い降りんだよ。 今回はLexical density (語彙密度) の話をしたいと思います。結論からいうと微妙な結果だったのであまり期待しないでください。 内容語と機能語 Lexical densityの話の前にまずざっと内容語と機能語の説明をします。 語は、大きく…

制約充足問題として最強のボジョレーを求める

ボジョレーヌーボーといえば、毎年公開されるキャッチコピーが話題ですね。では論理的な整合性を担保しつつ最高のボジョレーを決めるにはどうすればいいでしょう? 毎年のキャッチコピーを不等式として表現すれば制約充足問題として解けるんじゃないか?とい…

確率的カウントアルゴリズム Morris Counting の話

ちゃお。舞い降り......† ハイパフォーマンスPython作者: Micha Gorelick,Ian Ozsvald,相川愛三出版社/メーカー: オライリージャパン発売日: 2015/11/20メディア: 大型本この商品を含むブログ (3件) を見る 11/20にオライリーのHigh Performance Pythonの日…

PyLadies Tokyoで機械学習のアルゴリズム選択とハイパーパラメーター最適化について話しました

舞い降り...† 10/24のPyLadies Tokyo一周年パーティーで機械学習の自動化についてLTしました。 所属してる会社以外の人の前でLTするのははじめてだったのでちょっと緊張。 Pythonで自動機械学習 auto sklearn from Yukino Ikegami www.slideshare.net 元とな…

mecab-neologd 前処理用 Python モジュール neologdn 公開しました

PyConJP 2015に参加して意識が高まったのでブログをはじめます。 舞い降り……† はじめに 私のいる世界では計算機で日本語を処理するときは大体MeCabを使います。 でも、IPA辞書やunidicなどでは語彙に物足りなさを感じます (IPA辞書には「スマホ」が収録され…