opensource
Abstract#
Apache系オープンソースの検索エンジン。エンタープライズサーチエンジンの紹介で知りました。ちょっと試してみようと思います。
Topic#
Javaは、2009年7月1日時点で最新のJDK1.6.14。Tomcatは、最新の6.0.20です。あとSolrのバージョンは最新の1.3を選んでます。 |
たぶんどこかのXMLファイルに記載すれば行けるんだと思うんだけど。。。 |
http://tomcat.apache.org/tomcat-6.0-doc/config/context.html
結局JNDIでの設定方法が分からなかったので、ある情報をもとにTomcatを起動するJavaのオプションにSolrのホームディレクトリを設定して起動するとやっと起動。さて何ができるのやら。 |
どうもインデックスを作るには、サーバに対し、検索したいメタデータが含まれるXMLファイルをPOSTするというイメージみたいです。ポートがおかしいって言われたら、port.jarを実行する際に、-helpをつけて実行すると、ポートの指定の仕方を教えてくれます。Tomcatは普通8080がデフォルトなので、変えてやる必要があります。 |
これは、インデックスデータをアップデートするというイメージかな。というとインデックスデータを作らないといけないってことかな。どうもまだ、Solrでは、WordやExcel、PDFといったファイルをインデックスするのは、正式にサポートしていない様子。それは、Luceneプロジェクトのサブプロジェクトの一つであるTika(まだVer1.0がリリースされていない)がその役割を負っており、それをプラグイン的に組み込もうとしているみたい。なんだ、まだNAMAZUが実現できていることも正式に実現できてないんだ。もう少し待ちますかね。 |
インデックスを作った後であれば、Adminの画面からちょっとできます。実際は、プログラム上で組み込んで使うのでしょう。 |
- 何ができるのか?Google Desktop?Namazu?一括検索?
Reference#
- Solr wiki. Solr with Apache Tomcat. http://wiki.apache.org/solr/SolrTomcat
- Solr tutorial. http://lucene.apache.org/solr/tutorial.html
- Tika Project. http://lucene.apache.org/tika
- Solr Wiki. ExtractingRequestHandler. http://wiki.apache.org/solr/ExtractingRequestHandler