Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

愛媛県が公開している災害状況のPDFをデータ化したい #40

Open
kkd opened this issue Jul 26, 2018 · 12 comments
Open
Labels
ボランティア向け ボランティア希望者にとって役立つ内容 自動化 データの自動取得、記事の自動修正など。人力を使わずできるようにしたい。 見える化・視覚化 直感的に理解できるように視覚化・図解化したい。

Comments

@kkd
Copy link
Contributor

kkd commented Jul 26, 2018

概要

このページ被害状況のPDFから、災害についての数値データを抜いてSpreadSheetなりTSV/CSVにできないか?

現在はこちら→http://www.pref.ehime.jp/h12200/documents/higaijokyo57.pdf

毎日 PM 12:00に更新される。 (higaijokyoNN.pdfという名称)

やりたいこと

災害に関するデータを公開しているが、PDFになっているのでデータとして扱うことが難しい。
それぞれ表になっている情報を、個別の表形式にしてスプレッドシートに格納したい。
(日々の差分が確認見れるようにCSV・TSVにしてgitに格納するのが望ましいかも)

なぜ必要か

これらのデータを元に愛媛県の被害状況ダッシュボードを作成したいため( #35 参照)

不明点

PDFから抜き出して表としてまとめるのが簡単にできるか?
pdftotextだと、表としては取得できないっぽい。

@kkd kkd added 自動化 データの自動取得、記事の自動修正など。人力を使わずできるようにしたい。 見える化・視覚化 直感的に理解できるように視覚化・図解化したい。 ボランティア向け ボランティア希望者にとって役立つ内容 labels Jul 26, 2018
@sassy
Copy link
Member

sassy commented Jul 28, 2018

表にまとめるのが難しくて、
矩形の中にあるテキストを探すのが結構手間ですね。
ってやっていて気がつきました。
本当は表をcsvとして出力したいのですが。

@kkd
Copy link
Contributor Author

kkd commented Aug 1, 2018

@sassy この方も、同じのをテキスト化していて紹介していただきました。

https://imabari.hateblo.jp/entry/2018/08/01/180518

tabula使うと、PDFのテキストをテーブルに落とせると言う話も聞きました。
(サンプルがブログにあるとかいってましたが)
ちょっと見てもらえたりします?

@imabari
Copy link
Contributor

imabari commented Aug 1, 2018

はじめまして

記事はこちらになります
https://imabari.hateblo.jp/entry/2017/08/29/211526

こちらからtabulaをダウンロードして
https://github.com/tabulapdf/tabula-java/releases

java -jar .\tabula-1.0.2-jar-with-dependencies.jar -o higaijokyo65.csv -p all -r .\higaijokyo65.pdf

表の部分はテキスト化されます。

@kkd
Copy link
Contributor Author

kkd commented Aug 1, 2018

tabulaで表のままテキスト化できれば、その部分をpandasに読み込む、あるいはcsvに出力することは可能でしょうか?

@imabari
Copy link
Contributor

imabari commented Aug 1, 2018

変換するとcsvになっています
higaijokyo65.xlsx

@sassy
Copy link
Member

sassy commented Aug 1, 2018

@imabari @kkd
情報ありがとうございます!(javaには疎いので助かります。)
やってみたらできました。

これをそのままPR出せばいいですか?

@imabari
Copy link
Contributor

imabari commented Aug 1, 2018

テキスト化するだけでしたらWordでPDFを開いてexcelに貼り付けするほうがきれいかもしれません。
pythonでしたらtabula-pyを使うといいかもしれません
https://github.com/chezou/tabula-py

@sassy
Copy link
Member

sassy commented Aug 1, 2018

tabula-py はただのJavaのラッパーでpandasのデータ形式で出力するものなので、
今回の用途とはずれるかなと思いました。

@imabari
Copy link
Contributor

imabari commented Aug 2, 2018

平成30年7月豪雨による被害状況等について(第65報)をテキスト化しましたが
毎回変換するのは難しいので差分更新するほうがいいかと思います。
https://docs.google.com/spreadsheets/d/1y9DEzNqESRJlHQ4g3lXshRlheRhR5W-i2iazEAtKzVw/edit?usp=sharing

@kazweda
Copy link
Contributor

kazweda commented Aug 2, 2018

参考までに、愛媛県の被害状況のpdfをfeedにしてみました。
https://feed43.com/ehime-h3007-higaijokyo-pdf.xml
見出しの「被害状況」と「道路に関する情報」の間を取得しています。
(と偉そうに言いながら、もしかしたら imabari さんの記事を参考にfeed43を使い始めたような...

@imabari
Copy link
Contributor

imabari commented Aug 2, 2018

@npmyj
ありがとうございます。使うきっかけになったようで記事を書いてよかったです。

@kkd
PDFをテキスト化またはCSVしても今日のように取り消し線で消されている場合は目視でのチェックが必要です。
tabulaとwordで変換したものを整形しましたが実質2時間ぐらいかかりました。
差分にしても変更箇所がたくさんありチェックするのも時間がかかります。
あと更新されるたびに前のPDFは削除されるため追いかけていくのも大変です。
ちなみPDFは12:00までに報告されたものをまとめて17:00すぎに更新されるようです。
結論はテキスト化ぐらいがまだ現実的だと思います。

htmlの見た目だけでいいならPopplerのpdftohtmlでhtmlにはできます。
http://pdf-file.nnn2.com/?p=884

@kkd kkd added this to In progress in サイト構成・記事 Aug 3, 2018
@kkd
Copy link
Contributor Author

kkd commented Aug 9, 2018

@npmyj 遅ればせながらTwitterにフィード流すようにしました。ありがとうとざいます!

@imabari
大変な作業ありがとうございます!これほんと大変ですよね。。。
県の人とつながって元ファイルのままの公開お願いしたいところです。。。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
ボランティア向け ボランティア希望者にとって役立つ内容 自動化 データの自動取得、記事の自動修正など。人力を使わずできるようにしたい。 見える化・視覚化 直感的に理解できるように視覚化・図解化したい。
Projects
Development

No branches or pull requests

4 participants