你知道有哪种API(付费或免费)、工具或python包可以解析SEC 10-K文件中的各个部分吗
我正在寻找与整个10-K文件分开的10-K文件的各个部分(例如,第1项:业务、第1A项:风险因素等),最好从任何页眉(公司名称)、页脚(页码)和主要包含数字数据的表格中清除。我已经用python为整个10-K语句编写了一个解析器,使用BeautifulSoup,但是将它们划分为单独的部分看起来是相当有挑战性的——尽管不是不可能的
在重新发明轮子之前,我想,我先问问社区,他们是否知道任何现有的解决方案。我发现了https://jodie.ai/hi/,它将10-K语句分为多个部分,但只能追溯到2009年
谢谢你的帮助
我刚才就我提出的一个相关问题发表了评论,其中the related BigQuery dataset可能是你问题的答案。我还没有设法让它工作自己,但提取个人档案部分
我发现的下一个选项不是API,因此不会保持最新状态,但可以追溯到1993年,它是位于https://sraf.nd.edu/data/的存储库。我还不能确定这些部分是否完全按照您所要查找的内容进行了划分,但是已经进行了大量的预清理,使其成为您更容易的起点和/或针对您自己的解析代码进行有用的检查。那里的resources site包括到早期论文的链接,这些论文分析了相同和有用的东西,如字典和相关单词列表,并且the code page包括他们自己的python清理工作,这似乎是相当全面的
仍然不是我想你和我都在寻找的完整、干净的API,而是我找到的最好的API
我必须解决同样的问题,并为10-K和10-Q文件开发了一个项目提取算法。algo支持所有项目类型,可以返回标准化的明文和每个项目的原始HTML:
请求参数
通过提供10-K或10-Q文件的URL、要提取的项目和类型,您可以使用API检索任何项目:
url
(必填)-10-K或10-Q文件的URL,例如TSLA 10-Khttps://www.sec.gov/Archives/edgar/data/1318605/000156459021004599/tsla-10k_20201231.htmitems
(必选)—要提取的一个或多个项。提供多个以逗号分隔的项目,例如1,1A,1B,2,5
type
(可选)-可以是text
或html
text
返回没有任何XBRL、XML或HTML标记的清晰格式化文本。所有表格均已删除html
返回包含表的项的原始、清除的HTML版本。默认值:text
token
(必需)-您的API密钥李>如果需要生成最近10-K/Q文件的列表,可以使用查询API(https://sec-api.io/docs/query-api)
请求示例-第1A项风险因素,文本
响应示例-第1A项风险因素,文本
文件:https://sec-api.io/docs/sec-filings-item-extraction-api
相关问题 更多 >
编程相关推荐