Solr

opensource

Abstract#

Apache系オープンソースの検索エンジン。エンタープライズサーチエンジンの紹介で知りました。ちょっと試してみようと思います。

Topic#

Javaは、2009年7月1日時点で最新のJDK1.6.14。Tomcatは、最新の6.0.20です。あとSolrのバージョンは最新の1.3を選んでます。
たぶんどこかのXMLファイルに記載すれば行けるんだと思うんだけど。。。
http://tomcat.apache.org/tomcat-6.0-doc/config/context.html

結局JNDIでの設定方法が分からなかったので、ある情報[1]をもとにTomcatを起動するJavaのオプションにSolrのホームディレクトリを設定して起動するとやっと起動。さて何ができるのやら。
どうもインデックスを作るには、サーバに対し、検索したいメタデータが含まれるXMLファイルをPOSTするというイメージみたいです[2]。ポートがおかしいって言われたら、port.jarを実行する際に、-helpをつけて実行すると、ポートの指定の仕方を教えてくれます。Tomcatは普通8080がデフォルトなので、変えてやる必要があります。

これは、インデックスデータをアップデートするというイメージかな。というとインデックスデータを作らないといけないってことかな。どうもまだ、Solrでは、WordやExcel、PDFといったファイルをインデックスするのは、正式にサポートしていない様子。それは、Luceneプロジェクトのサブプロジェクトの一つであるTika[3](まだVer1.0がリリースされていない)がその役割を負っており、それをプラグイン的に組み込もうとしているみたい[4]。なんだ、まだNAMAZUが実現できていることも正式に実現できてないんだ。もう少し待ちますかね。
インデックスを作った後であれば、Adminの画面からちょっとできます。実際は、プログラム上で組み込んで使うのでしょう。

興味#

うまくやれば一括検索もできそう。

Reference#

  1. [#1]Solr wiki. Solr with Apache Tomcat. http://wiki.apache.org/solr/SolrTomcat
  2. [#2]Solr tutorial. http://lucene.apache.org/solr/tutorial.html
  3. [#3]Tika Project. http://lucene.apache.org/tika
  4. [#4]Solr Wiki. ExtractingRequestHandler. http://wiki.apache.org/solr/ExtractingRequestHandler