テキスト分析

いろんなtf-idf

今回はtf-idfの話をしようと思います……†tf-idfは、文書中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。 tf-idfは、tf(英: Term Frequency、単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つ…

日本語テキストのLexical density測って遊んでみた

ちゃお。舞い降りんだよ。 今回はLexical density (語彙密度) の話をしたいと思います。結論からいうと微妙な結果だったのであまり期待しないでください。 内容語と機能語 Lexical densityの話の前にまずざっと内容語と機能語の説明をします。 語は、大きく…

制約充足問題として最強のボジョレーを求める

ボジョレーヌーボーといえば、毎年公開されるキャッチコピーが話題ですね。では論理的な整合性を担保しつつ最高のボジョレーを決めるにはどうすればいいでしょう? 毎年のキャッチコピーを不等式として表現すれば制約充足問題として解けるんじゃないか?とい…