从SEC EDGAR文件中刮取营业收入时无

<ix:nonfraction id="fact-identifier-125" name="us-gaap:OperatingIncomeLoss" contextref="FD2019Q3QTD" unitref="usd" decimals="-6" scale="6" format="ixt:numdotdecimal" data-original-id="d305292495e1903-wk-Fact-6250FB76089207E7F73CB52756E0D8D0" continued-taxonomy="false" enabled-taxonomy="true" highlight-taxonomy="false" selected-taxonomy="false" hover-taxonomy="false" onclick="Taxonomies.clickEvent(event, this)" onkeyup="Taxonomies.clickEvent(event, this)" onmouseenter="Taxonomies.enterElement(event, this);" onmouseleave="Taxonomies.leaveElement(event, this);" tabindex="18" isadditionalitemsonly="false">11,544</ix:nonfraction>

from bs4 import BeautifulSoup import requests url = 'https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm' response = requests.get(url) content = BeautifulSoup(response.content, 'html.parser') operatingincomeloss = content.find('ix:nonfraction', attrs={"name": "us-gaap:OperatingIncomeLoss", "contextref":"FD2019Q3QTD"}) print (operatingincomeloss)

2条回答

网友

1楼 · 编辑于 2024-04-29 04:24:43

正如@aԋɱҽԃaєιcαη所说，页面是通过^{加载的。我已经对这段代码使用了xhr请求

考虑到您使用的属性，我只使用了name属性，因为每个元素的contextref都发生了变化

如果要循环其他元素，还可以更改name属性

正如您所说，您希望循环遍历这个标记，我已经在下面的代码中打印了返回的所有输出

代码：

import requests
from bs4 import BeautifulSoup
res = requests.get('https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm')
soup = BeautifulSoup(res.text, 'html.parser')
for data in soup.find_all('ix:nonfraction', {'name': 'us-gaap:OperatingIncomeLoss'}):
    print(data.text)

输出：

网友

2楼 · 编辑于 2024-04-29 04:24:43

页面是通过JavaScript加载的，我已经附加了XHR请求并提取了所需的数据

import requests
from bs4 import BeautifulSoup

r = requests.get(
    "https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm")

soup = BeautifulSoup(r.text, 'html.parser')

for item in soup.select("#d305292495e1903-wk-Fact-6250FB76089207E7F73CB52756E0D8D0"):
    print(item.text)

输出：

11,544

更新：

import requests
from bs4 import BeautifulSoup

r = requests.get(
    "https://www.sec.gov/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm")

soup = BeautifulSoup(r.text, 'html.parser')

for item in soup.findAll("ix:nonfraction", {'contextref': 'FD2019Q3QTD', 'name': 'us-gaap:OperatingIncomeLoss'}):
    print(item.text)

相关问题更多 >

编程相关推荐

热门问题

热门文章