从html表中提取数据并将结果存储到csv文件中。

table2csv的Python项目详细描述


下载HTML表作为CSV的简单脚本。

安装

pip install -U table2csv

用法

table2csv http://en.wikipedia.org/wiki/List_of_Super_Bowl_champions > dump.txt

功能

  • 接受URL
  • 标识所有表
  • 合并共享相同结构的表(例如,相同的列标题获取 合并)
  • 找出哪张桌子最大
  • 提取文本
  • 提取链接

待办事项

  • 添加指定要在页面上显示的表的功能 下载(不只是最大的一个)
  • 添加对不正确使用<th>标记的列的支持[完成] 标题标签(即不完美的html表格)
  • 检测在每列中找到的数据类型
  • 添加对行上具有层次索引的表的支持和/或 列

View on Github

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何避免springbootstarterparent和dependency中的flyway包冲突   java文本文件写入不起作用   java获取名为DAO类的Bean创建异常   java类路径和清单文件   如何使用Java中的模式来获取像C中的“sscanf”这样的组?   java Spring自动连接具有构造函数的类   clientSecurity运行的java geode示例失败   java JavaFX:在FXML中从ResourceBundle访问非string对象   java登录到google firebase   java对象在通过构造函数后不会更改。为什么?   java(Android)对特定页面的操作webView   javascript如何在webview的js中从java调用变量   持久化—一种在Java中存储和检索对象而不使用关系数据库的简单方法?   java Ldap获取通讯组列表中的用户   java检查温度条件   java后退按钮警报框(Android Studio)   数组java列表问题:为什么我运行它时,它会在第三次打印时打印出4?   java相对路径与绝对路径