埃德加足球俱乐部
corpcrawl的Python项目详细描述
#关于 这是证券交易委员会edgar数据库的python scraper。看10K表 要求上市公司向美国证券交易委员会提交的文件。然后它试图提取 10K附件21.1中的附属关系。
corpcrawl是一个与存储无关的scraper,因此您需要实现自己的存储方案。
#安装 您可以通过pip从pypi获得包。
pip install corpcrawl
在python控制台中,您可以尝试
import corpcrawl
如果成功了,您就可以开始了
#如何使用
##运行它 首先导入所需的零件
from corpcrawl.crawler import CorpCrawl from corpcrawl.backend import Backend
- def main()
- my_backend = MyBackend() crawler = CorpCrawl(cache_path = ‘/an/absolute/path/to/some/dir’, backend = my_backend) c.crawl(years = [2011, 2012], quarters = [1, 2, 3, 4])
class MyBackend(Backend):
- def get_company(self, name):
- pass
- def add_company(self, comp):
- print “Adding %s” % str(comp)
这是一个尽可能简单的后端。此代码将抓取文件并打印出每个文件的名称 2011年和2012年各季度发现的公司和子公司。 很明显你会想把它连接到一个数据库或者别的什么东西上。
#注释 sec的数据是非常非结构化的。因此,有很多错误。这是0.0.1版,因此 实现您自己的方法来按摩它返回的数据,如果您能够贡献 所以让核心解析器更好。