Windows用のコマンドツール「PDF Menu Collector」(ベータ版)を公開します。
機能
インターネット上にPDFファイルとして公開されている 複数のファイルを一括ダウンロードします。 また、ダウンロードされた各ファイルからテキストを抽出し、 それぞれのファイルに任意の文字列が含まれているかどうかを 一覧にしてCSVファイルに出力します。
何のためのもの?
焼鳥チェーン店「串鳥」のメニューを収集し、 店舗ごとの品目を調べるためのものです。
基本的な使い方
zipをダウンロードし、解凍したフォルダを適当なところに配置します。 PdfMenuCollector.exeをダブルクリックするとソフトが起動し、 串鳥のメニューダウンロードおよびPDF解析を始めます。
ダウンロードされたPDFファイルは exeファイルと同じフォルダ内の「pdf」フォルダに保存されます。 また、店舗ごとのメニュー品目一覧が、exeファイルと同じフォルダに [日付].csv のファイル名で出力されます。
高度な使い方
「download.txt」に、店舗名とPDFファイルの公開URLが リスト化されていますので、これを編集することで ダウンロード対象のファイルを自由に変更できます。
「items.txt」に、メニュー項目がリスト化されています。 これを編集することで、メニュー項目の追加や削除、および 同じものとして扱う品目のまとめ上げを変更できます。
ベータ版留意点
一覧CSV生成機能については、いくつか問題があり、 あまり精度がよろしくありません。
・PDFファイル内の日本語文字に正しく解析できないものがあり、 暫定対処として、無視する文字の一覧をテキストファイル 「replace.txt」で指定しています。
・串鳥メニューのPDFファイルの一部に、 別の店舗のメニューの上から画像を貼り重ねているようなものがあって、 実際にメニューに載っていない文字が抽出されるものがあるようです。 けっこう致命的な問題なんですが、今のところどうにもできる気がしない (最悪画像にしてからOCRとかしか…)。 そのうち何かうまい方法を考えます。
ダウンロード
以下からどうぞ。