我正在学习网页抓取,并尝试做以下问题:
阅读apj abdul kalam维基百科页面上的所有数据,并从该页面上摘录他的成就。你知道吗
我要提取此表:
Screenshot of the table I want to extract from that page
from urllib.request import urlopen as ur
import wikipedia as wp
from bs4 import BeautifulSoup as bs
x=wp.search("A P J ABDUL KALAM")
p=wp.page("A P J ABDUL KALAM")
parse=bs(p.html(),"lxml")
for i in parse.findAll("table",{"class":"wikitable sortable"}):
print(i.text)
当我运行上述代码时,我得到了表,但它不是行和列的形式:
你需要重新格式化一下。你知道吗
输出
我使用qmaruf answer并使用prettyTable lib添加了一个更漂亮的输出
输出:
我将执行以下操作,将HTML格式读入数据帧。然后索引到结果中以获得所需的表。你知道吗
相关问题 更多 >
编程相关推荐