for循环没有在python中完成迭代

2024-04-26 21:46:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我对Python和一般编程也是新手。 让我先解释一下我试图用下面的代码完成什么,然后再解释我遇到的问题。在

该程序的目的是从EDGAR数据库中提取10-k文件的url。10-k档案基本上是上市公司的年报。在

tk_sr_3q是我先前创建的一个python文件,其中包含大约10万个元素的列表。所有元素都是EDGAR数据库中10-k文件搜索结果的url。在

例如:

http://www.sec.gov/cgi-bin/browse-edgar?action=getcompany&CIK=51143&type=10-k&dateb=&owner=exclude&count=100

http://www.sec.gov/cgi-bin/browse-edgar?action=getcompany&CIK=1595703&type=10-k&dateb=&owner=include&count=100

有些公司有很多10-k文件,有些有一些,有些没有。我想从每个公司得到不超过6个10-k文件的url,然后以列表格式在文本文件中写入它们。在

当我运行程序时,它没有完成。但是它生成的文本文件包含大约三千个元素,如果运行正确,这是不可能的。在

非常感谢你阅读我的问题。在

import tk_sr_3q
tkfd_url_list_file = open('tkfd_url_list.txt', 'w')

for url in tk_sr_3q.list:
    tk_sr_src = requests.get(url)
    tk_sr_src_soup = BeautifulSoup(tk_sr_src.content)
    fd_link_list = tk_sr_src_soup.find_all('a', {'id': 'documentsbutton'}, limit=6)
    for link in fd_link_list:
        tkfd_url = 'http://www.sec.gov'+link['href']
        tkfd_url_list_file.write("%s" % "'"+tkfd_url+"'"+',')

tkfd_url_list_file.close()

Tags: 文件程序srchttpurl元素wwwlink