OITA: Oika's Information Technological Activities

@oika 情報技術的活動日誌。

「PDF Menu Collector」公開

Windows用のコマンドツール「PDF Menu Collector」(ベータ版)を公開します。

機能

インターネット上にPDFファイルとして公開されている 複数のファイルを一括ダウンロードします。 また、ダウンロードされた各ファイルからテキストを抽出し、 それぞれのファイルに任意の文字列が含まれているかどうかを 一覧にしてCSVファイルに出力します。 

 

何のためのもの?

焼鳥チェーン店「串鳥」のメニューを収集し、 店舗ごとの品目を調べるためのものです。

基本的な使い方

zipをダウンロードし、解凍したフォルダを適当なところに配置します。 PdfMenuCollector.exeをダブルクリックするとソフトが起動し、 串鳥のメニューダウンロードおよびPDF解析を始めます。

ダウンロードされたPDFファイルは exeファイルと同じフォルダ内の「pdf」フォルダに保存されます。 また、店舗ごとのメニュー品目一覧が、exeファイルと同じフォルダに [日付].csv のファイル名で出力されます。

高度な使い方

「download.txt」に、店舗名とPDFファイルの公開URLが リスト化されていますので、これを編集することで ダウンロード対象のファイルを自由に変更できます。

「items.txt」に、メニュー項目がリスト化されています。 これを編集することで、メニュー項目の追加や削除、および 同じものとして扱う品目のまとめ上げを変更できます。

ベータ版留意点

一覧CSV生成機能については、いくつか問題があり、 あまり精度がよろしくありません。

・PDFファイル内の日本語文字に正しく解析できないものがあり、 暫定対処として、無視する文字の一覧をテキストファイル 「replace.txt」で指定しています。

・串鳥メニューのPDFファイルの一部に、 別の店舗のメニューの上から画像を貼り重ねているようなものがあって、 実際にメニューに載っていない文字が抽出されるものがあるようです。 けっこう致命的な問題なんですが、今のところどうにもできる気がしない (最悪画像にしてからOCRとかしか…)。 そのうち何かうまい方法を考えます。

ダウンロード

以下からどうぞ。

PdfMenuCollector.zip