「PDF Menu Collector」公開

Windows用のコマンドツール「PDF Menu Collector」(ベータ版)を公開します。

機能

インターネット上にPDFファイルとして公開されている
複数のファイルを一括ダウンロードします。
また、ダウンロードされた各ファイルからテキストを抽出し、
それぞれのファイルに任意の文字列が含まれているかどうかを
一覧にしてCSVファイルに出力します。
 

 

何のためのもの?

焼鳥チェーン店「串鳥」のメニューを収集し、
店舗ごとの品目を調べるためのものです。
 

基本的な使い方

zipをダウンロードし、解凍したフォルダを適当なところに配置します。
PdfMenuCollector.exeをダブルクリックするとソフトが起動し、
串鳥のメニューダウンロードおよびPDF解析を始めます。

 


ダウンロードされたPDFファイルは
exeファイルと同じフォルダ内の「pdf」フォルダに保存されます。
また、店舗ごとのメニュー品目一覧が、exeファイルと同じフォルダに
[日付].csv のファイル名で出力されます。

 

高度な使い方

「download.txt」に、店舗名とPDFファイルの公開URLが
リスト化されていますので、これを編集することで
ダウンロード対象のファイルを自由に変更できます。

「items.txt」に、メニュー項目がリスト化されています。
これを編集することで、メニュー項目の追加や削除、および
同じものとして扱う品目のまとめ上げを変更できます。
 

ベータ版留意点

一覧CSV生成機能については、いくつか問題があり、
あまり精度がよろしくありません。

・PDFファイル内の日本語文字に正しく解析できないものがあり、
暫定対処として、無視する文字の一覧をテキストファイル
「replace.txt」で指定しています。

・串鳥メニューのPDFファイルの一部に、
別の店舗のメニューの上から画像を貼り重ねているようなものがあって、
実際にメニューに載っていない文字が抽出されるものがあるようです。
けっこう致命的な問題なんですが、今のところどうにもできる気がしない
(最悪画像にしてからOCRとかしか…)。
そのうち何かうまい方法を考えます。
 

ダウンロード

以下からどうぞ。

PdfMenuCollector.zip