从html表中提取数据并将结果存储到csv文件中。
table2csv的Python项目详细描述
下载HTML表作为CSV的简单脚本。
安装
pip install -U table2csv
用法
table2csv http://en.wikipedia.org/wiki/List_of_Super_Bowl_champions > dump.txt
功能
- 接受URL
- 标识所有表
- 合并共享相同结构的表(例如,相同的列标题获取 合并)
- 找出哪张桌子最大
- 提取文本
- 提取链接
待办事项
- 添加指定要在页面上显示的表的功能 下载(不只是最大的一个)
- 添加对不正确使用<th>标记的列的支持[完成] 标题标签(即不完美的html表格)
- 检测在每列中找到的数据类型
- 添加对行上具有层次索引的表的支持和/或 列