如何将bs4.element.ResultSet转换为字符串？Python

2条回答

网友

1楼 · 编辑于 2024-04-25 17:53:22

这里的问题可能是the document底部的一些二进制图形数据包含字符序列<P，Beautiful Soup正试图将其修复为实际的HTML标记。我还没有找到导致“超过递归深度”错误的文本，但它在某个地方。对我来说是p[6053]，但是既然你似乎修改了文件一点（或者你使用了不同的解析器来处理漂亮的汤），我想对你来说会有所不同。

假设您不需要文档底部的二进制数据来从实际的<p>标记中提取所需的任何内容，请尝试以下操作：

# boot out the last `<document>`, which contains the binary data
soup.find_all('document')[-1].extract()

p = soup.find_all('p')
paragraphs = []
for x in p:
    paragraphs.append(str(x))

网友

2楼 · 编辑于 2024-04-25 17:53:22

我认为问题在于BeautifulsSoup对象p不是生成的iteratiely，因此在您完成构造p = soup.find_all('p')之前到达method call limit。注意RecursionError在构建soup.prettify()时同样抛出。

对于我的解决方案，我使用了re模块来收集所有的<p>...</p>标记（参见下面的代码）。我的最终结果是len(p) = 5571。此计数低于您的计数，因为正则表达式条件与二进制图形数据中的任何文本都不匹配。

import re
import urllib
from urllib.request import Request, urlopen

url = 'https://www.sec.gov/Archives/edgar/data/1547063/000119312513465948/0001193125-13-465948.txt'

response = urllib.request.urlopen(url).read()
p = re.findall('<P((.|\s)+?)</P>', str(response)) #(pattern, string)

paragraphs = []
for x in p:
    paragraphs.append(str(x))

相关问题更多 >

编程相关推荐

热门问题

热门文章