解析pdf到xml转换的德国联邦议院大厅列表
verbaendeliste-bundestag的Python项目详细描述
使用pdftohtml从pdf中获取xml文件。
pdftohtml -xml input.pdf output.xml
然后使用带有第一个和最后一个相关页码的提取器将其转换为已解析的json:
python extract_lobby.py 4 690 < lobbylist.xml > lobbylist.json
这里是[提取的json(2012年6月15日)](http://stefanwehrmeyer.com/projects/verbaendeliste/20120615.json)。
许可证:麻省理工学院许可证