サイト内全文検索システム

オープンソースの全文検索システムである「Namazu」を利用して、WEBページやPDF、Officeドキュメントをインデックス化し、大量の文章を高速に検索する事ができます。

 

活用

通常は静的HTMLページの検索方法のひとつとして設置されている事の多いNamazuですが、例えば、社内のファイルサーバ内の各ファイルをインデックス化し、社内ドキュメントの検索&ストレージシステムを構築する事ができます。また、公開されているWEBページの場合はGoogleなどのサーチエンジンを利用出来ますが、クローズドなWEBページなどを検索するシステムの構築などに役立ちます。

特徴

入力されたワードに対する一部一致、全部一致だけで検索するシステムでは目的の文書を探す事は困難です。膨大な文書から目的のものを検索するためには、与えられた複数のワードを元に単語要素解析を行い、もっとも一致している可能性の高い文書を提示する必要があります。Namazuでは、キーワードの文書内での出現位置、出現回数によってスコアを付け、そのスコアの高い文書から表示させると言う処理を行っているため、オープンソースながら高精度の検索エンジンとなっています。

主な機能

・コンテンツ自動索引化機能
・ファイル形式マルチ対応(WORD、EXCEL、PDF、画像、TIFF、HTML、XML)
・言語形態素解析&ファジー検索機能
・キーワードに対する一致度の、ポイント式重み付け
・各種検索オプション

TOP OF PAGE