我正试图通过季度填写获得最近一个季度的营业收入/亏损
以绿色突出显示的所需输出:financial statement
下面是我试图抓取的文档的URL:https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm
如果您想直观地看到数据点,请参见第一部分第1项。财务报表、营业收入
我试图获取的图形的HTML代码:
<ix:nonfraction id="fact-identifier-125" name="us-gaap:OperatingIncomeLoss" contextref="FD2019Q3QTD" unitref="usd" decimals="-6" scale="6" format="ixt:numdotdecimal" data-original-id="d305292495e1903-wk-Fact-6250FB76089207E7F73CB52756E0D8D0" continued-taxonomy="false" enabled-taxonomy="true" highlight-taxonomy="false" selected-taxonomy="false" hover-taxonomy="false" onclick="Taxonomies.clickEvent(event, this)" onkeyup="Taxonomies.clickEvent(event, this)" onmouseenter="Taxonomies.enterElement(event, this);" onmouseleave="Taxonomies.leaveElement(event, this);" tabindex="18" isadditionalitemsonly="false">11,544</ix:nonfraction>
我用于获取此数据点(11544)的代码:
from bs4 import BeautifulSoup
import requests
url = 'https://www.sec.gov/ix?doc=/Archives/edgar/data/320193/000032019319000076/a10-qq320196292019.htm'
response = requests.get(url)
content = BeautifulSoup(response.content, 'html.parser')
operatingincomeloss = content.find('ix:nonfraction', attrs={"name": "us-gaap:OperatingIncomeLoss", "contextref":"FD2019Q3QTD"})
print (operatingincomeloss)
我也试过了
operatingincomeloss = content.find('ix:nonfraction', attrs={"name": "us-gaap:OperatingIncomeLoss"}
最后,我想循环通过所有相关的填充来提取这个数据点。目前,我一个也没有。当我在内容中按CTRl+F组合键时,我也找不到ix:nonfraction标记
正如@aԋɱҽԃaєιcαη所说,页面是通过^{加载的。
我已经对这段代码使用了
xhr
请求考虑到您使用的属性,我只使用了
name
属性,因为每个元素的contextref
都发生了变化如果要循环其他元素,还可以更改
name
属性正如您所说,您希望循环遍历这个标记,我已经在下面的代码中打印了返回的所有输出
代码:
输出:
页面是通过
JavaScript
加载的,我已经附加了XHR
请求并提取了所需的数据输出:
更新:
相关问题 更多 >
编程相关推荐