我正在收集中央银行研究出版物的信息,到目前为止,对于美联储,我有以下Python代码:
START_URL = 'https://ideas.repec.org/s/fip/fedgfe.html'
page = requests.get(START_URL)
soup = BeautifulSoup(page.text, 'html.parser')
for paper in soup.findAll("li",class_="list-group-item downfree"):
print(paper.text)
这将为许多出版物中的第一个出版物生成以下内容:
2018-070 Reliably Computing Nonlinear Dynamic Stochastic Model Solutions: An Algorithm with Error Formulasby Gary S. Anderson
我现在想把它转换成一个Python字典,它最终将包含大量的论文:
^{pr2}$
您可以使用regex来匹配字符串的每个部分。在
[-\d]+
字符串只有数字和-
(?<=\s).*?(?=by)
字符串以blank开头,以by结尾(以author开头)(?<=by\s).*
作者,整个字符串的其余部分完整代码
提取所有子体并只选择NavigableStrings的子体会得到很好的结果。确保从bs4导入NavigableString。我也使用了numpy列表理解,但是你也可以使用for循环。在
相关问题 更多 >
编程相关推荐