用python库从具有rowspan的html表中提取数据

py-html-table的Python项目详细描述


PY HTML表格包

这是一个简单的包,它使用beautifulsoup来提取具有rowspan的html表数据。

安装

pip install py html表

声明

将py_html_table.py_html_table导入为pyht

参数

ParameterMeaningSample Values
tablepython variable containing html code of tableany variable name
beginNo.of rows to begin scrapping. Starts from 02
colTotal No.of columns in the table. Starts from 15
outputType of output that you needlist (or) dataframe (or) csv
raw'Y' to get exact content inside table cell. 'N' to get only text'Y' or 'N'

注意:所有变量名必须作为包的输入提供

用法示例

导入请求
从bs4导入beautifulsoup
导入请求 将lxml.html导入为lh
将py_html_table.py_html_table导入为pyht

url='https://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States'
session=请求html.htmlsession()
r=session.get(url)
content=美化组(r.content,“lxml”)
所有表=内容。选择(“.wikitable”)
table=所有表[0]
col=9
开始=2
输出=“数据帧”
原始='n'
pyht.extract(表、开始、列、输出、原始)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java无法使用JSF访问托管bean方法   java是制作具有多值类型的HashMap的正确方法   javafx中TicTacToe的java更新UI   windows Java文件。getCanonicalFile()无法处理冒号“:”   java在一个布局屏幕中创建多个(26)按钮   java Android Studio:Gradle构建完成,有251个错误   我们如何在Java上为callfireapiclient编写单元/集成测试?   java无法将1715UTC转换为本地/gmt类型   具有已定义的数字序列的JAVA循环   Java程序正在netbeans中编译,但未在CMD中编译,包不存在   java Android构造函数和onCreate()之间有什么区别?   java配置弹性搜索结果评分   java LibGDX纹理是否可绘制?   java如何在Android中设置应用程序默认打开pdf   java是否有一种创造性的方法将多个参数传递给contentEquals()方法?   java在Android上存储Ed25519私钥