埃德加足球俱乐部

corpcrawl的Python项目详细描述


#关于 这是证券交易委员会edgar数据库的python scraper。看10K表 要求上市公司向美国证券交易委员会提交的文件。然后它试图提取 10K附件21.1中的附属关系。

corpcrawl是一个与存储无关的scraper,因此您需要实现自己的存储方案。

#安装 您可以通过pip从pypi获得包。

pip install corpcrawl

在python控制台中,您可以尝试

import corpcrawl

如果成功了,您就可以开始了

#如何使用

##运行它 首先导入所需的零件

from corpcrawl.crawler import CorpCrawl from corpcrawl.backend import Backend

def main()
my_backend = MyBackend() crawler = CorpCrawl(cache_path = ‘/an/absolute/path/to/some/dir’, backend = my_backend) c.crawl(years = [2011, 2012], quarters = [1, 2, 3, 4])

class MyBackend(Backend):

def get_company(self, name):
pass
def add_company(self, comp):
print “Adding %s” % str(comp)

这是一个尽可能简单的后端。此代码将抓取文件并打印出每个文件的名称 2011年和2012年各季度发现的公司和子公司。 很明显你会想把它连接到一个数据库或者别的什么东西上。

#注释 sec的数据是非常非结构化的。因此,有很多错误。这是0.0.1版,因此 实现您自己的方法来按摩它返回的数据,如果您能够贡献 所以让核心解析器更好。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java能否使用OpenJPA将一个实体持久化到多个持久化单元?   java如何访问当前按下的键   java singleton是否意味着哈希代码总是返回相同的值?   inputstream无法在Java中同时使用STDIN和STDERR读取程序输出   java运行时有多贵。getRuntime()与获取内存度量相结合   java AndroidStudio ListView适配器更新   java小程序请求未扩展实时会话   java是设置布尔值所必需的关键部分?   java比较两个字符串,并突出显示发现的不匹配项   java带抽屉布局,无论哪个屏幕处于活动状态,如何在按下后退键时关闭应用程序?   爪哇:颜色有什么区别。黑色和彩色。黑色   Velocity模板中子类的java访问方法   java如何快速学习Drools或其他规则引擎   从Java应用程序访问时缓存数据库查询结果   java cassandra nodetool JPLISAgent。c错误   java我正在解析一个没有pubDate的RSS提要,有没有其他方法可以确定一个项目是何时发布的?