トップ «前の日記(2012-04-19) 最新 次の日記(2012-04-22)» 編集

日々の破片

著作一覧

2012-04-21

_ kuromojiを試してみた

20日にHeroku Meetupに参加したのだが、そこで全文検索エンジンのプラグインの紹介があった。

で、プラグインそのものよりも、日本語形態素解析(と書いてはいるもののよくわかっていない。トークンの切り出しをしてくれるマシン程度の認識なわけだが)のkuromojiに興味を持った。

ソースを見てみたら、Javaで書かれている。

ということは、Rubyで簡単に利用できるってことだ。

で、お試しにちょろいcgi(rjbはそれなりの速度で起動するから、cgiでもそこそこ動く)を作ってみた。

(21日にほぼ動いていたのだが、eachを実装するのに手間取った。なので、日記の日付は21日。でも後進しているのは23日)

黒文字くん

面倒なのでcssも何もなし。htmlのフォームに日本語のテキストを入れてやって、submitすると、kuromojiを呼び出して切り出した結果を表示する。

用語や固有名詞を入れると、さすがにユーザー辞書を指定しないとおかしな切り方になるけど、それはそういうものだろう。

ArrayListをeachでアクセスしたかったので、rjbは1.4.0を作ることになった。


2003|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|06|07|08|09|10|11|12|
2013|01|02|03|04|05|06|07|08|09|10|11|12|
2014|01|02|03|04|05|06|07|08|09|10|11|12|
2015|01|02|03|04|05|06|07|08|09|10|11|12|
2016|01|02|03|04|05|06|07|08|09|10|11|12|
2017|01|02|03|04|05|06|07|08|09|10|11|12|
2018|01|02|03|04|05|06|07|08|09|10|11|12|
2019|01|02|03|04|05|06|07|08|09|10|11|12|
2020|01|02|03|04|05|06|07|08|09|10|11|12|
2021|01|02|03|04|05|06|07|08|09|10|11|12|
2022|01|02|03|04|05|06|07|08|09|10|11|12|
2023|01|02|03|04|05|06|07|08|09|10|11|12|
2024|01|02|03|

ジェズイットを見習え