-
Notifications
You must be signed in to change notification settings - Fork 5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
愛媛県が公開している災害状況のPDFをデータ化したい #40
Comments
表にまとめるのが難しくて、 |
@sassy この方も、同じのをテキスト化していて紹介していただきました。 https://imabari.hateblo.jp/entry/2018/08/01/180518 tabula使うと、PDFのテキストをテーブルに落とせると言う話も聞きました。 |
はじめまして 記事はこちらになります こちらからtabulaをダウンロードして java -jar .\tabula-1.0.2-jar-with-dependencies.jar -o higaijokyo65.csv -p all -r .\higaijokyo65.pdf 表の部分はテキスト化されます。 |
tabulaで表のままテキスト化できれば、その部分をpandasに読み込む、あるいはcsvに出力することは可能でしょうか? |
変換するとcsvになっています |
テキスト化するだけでしたらWordでPDFを開いてexcelに貼り付けするほうがきれいかもしれません。 |
tabula-py はただのJavaのラッパーでpandasのデータ形式で出力するものなので、 |
平成30年7月豪雨による被害状況等について(第65報)をテキスト化しましたが |
参考までに、愛媛県の被害状況のpdfをfeedにしてみました。 |
@npmyj @kkd htmlの見た目だけでいいならPopplerのpdftohtmlでhtmlにはできます。 |
@npmyj 遅ればせながらTwitterにフィード流すようにしました。ありがとうとざいます! @imabari |
概要
このページの被害状況のPDFから、災害についての数値データを抜いてSpreadSheetなりTSV/CSVにできないか?
現在はこちら→http://www.pref.ehime.jp/h12200/documents/higaijokyo57.pdf
毎日 PM 12:00に更新される。 (higaijokyoNN.pdfという名称)
やりたいこと
災害に関するデータを公開しているが、PDFになっているのでデータとして扱うことが難しい。
それぞれ表になっている情報を、個別の表形式にしてスプレッドシートに格納したい。
(日々の差分が確認見れるようにCSV・TSVにしてgitに格納するのが望ましいかも)
なぜ必要か
これらのデータを元に愛媛県の被害状況ダッシュボードを作成したいため( #35 参照)
不明点
PDFから抜き出して表としてまとめるのが簡単にできるか?
pdftotextだと、表としては取得できないっぽい。
The text was updated successfully, but these errors were encountered: