Sponsored Link
校内文書の全文検索システムを構築
職員会議などの校内文書を、ウェブサーバーにて全文検索ができるようにします。蓄積されているファイルから、キーワードで検索できるようにするものです。しかも、最小限のメンテナンスで継続できるように考えてみました。

ここでは、ワープロファイルを使うのではなく、スキャナで取り込んだPDFを扱います。ワープロファイルの場合は、ワードや一太郎だけでなく、ワードプロやOpenOffice.Orgなど、多種多様なのと、PDFに変換する手間があります。それであれば、配布されたプリントをスキャンした方が楽です。

ScanSnapなどのスキャナは、インクジェットプリンタのように用紙をセットすれば、次々とスキャンして、文字認識を実行します。しかも、表と裏を同時に処理するので、手間がかかりません。

このデータを校内のサーバーに転送します。RealSyncのミラーリングをするバックアップソフトを使うと、新規ファイルのみコピーしてくれます。ウェブサーバーからダウンロードできる場所に置かなければならないので、ウェブサーバーの公開ディレクトリをファイルサーバーで共有するか、シンボリックリンクを貼るかなどをします。

あとは、ウェブサーバーで全文検索をするための設定をします。全文検索には、Namazuというプログラムを使います。

(1) xpdfをインストール
PDFファイルからテキストを呼び出すプログラム。

(2) KAKASIをインストール
漢字かなまじり文をひらがな文やローマ字文に変換するプログラム

(3) Namazuをインストール
全文検索システムのプログラム

このサイトにコメントをするには、ログインする必要があります。 ここをクリック サインアップ
This site is powered by e107.