Subscribed unsubscribe Subscribe Subscribe

いろんなtf-idf

今回はtf-idfの話をしようと思います……†tf-idfは、文書中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。 tf-idfは、tf(英: Term Frequency、単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つ…

Naive BayesとComplement Naive Bayes, Negation Naive Bayesの比較

ちゃお・・・† 舞い降り・・・† 今回は、Naive BayesとComplement Naive Bayes, Negation Naive Bayesでの多クラス分類を比較したい思います。なお多クラス分類とは、文書 がどのクラス に属しているかを求めることです。 それぞれの手法 Naive Bayes Naive …

日本語テキストのLexical density測って遊んでみた

ちゃお。舞い降りんだよ。 今回はLexical density (語彙密度) の話をしたいと思います。結論からいうと微妙な結果だったのであまり期待しないでください。 内容語と機能語 Lexical densityの話の前にまずざっと内容語と機能語の説明をします。 語は、大きく…

制約充足問題として最強のボジョレーを求める

ボジョレーヌーボーといえば、毎年公開されるキャッチコピーが話題ですね。では論理的な整合性を担保しつつ最高のボジョレーを決めるにはどうすればいいでしょう? 毎年のキャッチコピーを不等式として表現すれば制約充足問題として解けるんじゃないか?とい…

確率的カウントアルゴリズム Morris Counting の話

ちゃお。舞い降り......† ハイパフォーマンスPython作者: Micha Gorelick,Ian Ozsvald,相川愛三出版社/メーカー: オライリージャパン発売日: 2015/11/20メディア: 大型本この商品を含むブログ (3件) を見る 11/20にオライリーのHigh Performance Pythonの日…

PyLadies Tokyoで機械学習のアルゴリズム選択とハイパーパラメーター最適化について話しました

舞い降り...† 10/24のPyLadies Tokyo一周年パーティーで機械学習の自動化についてLTしました。 所属してる会社以外の人の前でLTするのははじめてだったのでちょっと緊張。 Pythonで自動機械学習 auto sklearn from Yukino Ikegami www.slideshare.net 元とな…

mecab-neologd 前処理用 Python モジュール neologdn 公開しました

PyConJP 2015に参加して意識が高まったのでブログをはじめます。 舞い降り……† はじめに 私のいる世界では計算機で日本語を処理するときは大体MeCabを使います。 でも、IPA辞書やunidicなどでは語彙に物足りなさを感じます (IPA辞書には「スマホ」が収録され…