如何使用BeautifulSoup和Python获取跟在表格/跨度后面的文本?

2024-04-26 12:54:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要得到下面屏幕截图中显示的文本2,585。我对编码很陌生,但到目前为止我所掌握的是:

import urllib2
from bs4 import BeautifulSoup

url= 'insertURL'
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data, 'html.parser')
span = soup.find('span', id='d21475972e793-wk-Fact -8D34B98C76EF518C788A2177E5B18DB0')
print (span.text)

任何信息都是有用的!!谢谢。在

Website HTML


Tags: textfrom文本importurl编码data屏幕
1条回答
网友
1楼 · 发布于 2024-04-26 12:54:00

3件事,你的使用请求不是urllib2。选择带有名称空间的XML,因此需要使用XML作为解析器。你想要的元素不是跨度,而是九:不实践。下面是一个使用另一个web页面的工作示例(您只需要将它指向您的页面并使用注释行)。在

# Using requests no need for urllib2.
import requests
from bs4 import BeautifulSoup

# Using this page as an example.
url= 'https://www.sec.gov/Archives/edgar/data/27904/000002790417000004/0000027904-17-000004.txt'
r = requests.get(url)
data = r.text
# use xml as the parser.
soup = BeautifulSoup(data, 'xml')
ix = soup.find('ix:nonFraction', id="Fact-7365D69E1478B0A952B8159A2E39B9D8-wk-Fact-7365D69E1478B0A952B8159A2E39B9D8")
# Your original code for your page.
# ix = soup.find('ix:nonFraction',  id='d21475972e793-wk-Fact-8D34B98C76EF518C788A2177E5B18DB0')
print (ix.text)

相关问题 更多 >