从经过解析的美丽汤列表中移除<br>标记？

3条回答

网友

1楼 · 编辑于 2024-04-28 19:53:30

如果要将<br />转换为换行符，请执行以下操作：

def text_with_newlines(elem):
    text = ''
    for e in elem.recursiveChildGenerator():
        if isinstance(e, basestring):
            text += e.strip()
        elif e.name == 'br':
            text += '\n'
    return text

网友

2楼 · 编辑于 2024-04-28 19:53:30

for e in soup.findAll('br'):
    e.extract()

网友

3楼 · 编辑于 2024-04-28 19:53:30

用空格替换开头的标记 Beautiful soup还接受urlopen对象上的.read（），因此这应该可以工作--

page = urllib2.urlopen(pageurl)
page_text=page.read()
new_text=re.sub('</br>',' ',page_text)
soup = BeautifulSoup(new_text)
tables = soup.find("td", "bodyTd")
for row in tables.findAll('tr'):
.....

re.sub用空白替换了br标记

编程相关推荐

java流/下载文件，无需在Spring Boot中保留内存
kotlin/java是否有类似TryParse（）的东西？
java Spring引导找不到用户类型的属性ID
java Spring 2到Spring 3的迁移：一个控制器用于多个视图
java包含多个程序包名为“安卓”的库。支持图样可提取'
java spring JPA是否支持自定义值框架？
java转义出基于文本字段的搜索栏
java AAPT:错误：未找到样式属性“安卓:attr/WindowsPlashCreenBackground”
java从文本文件中读取纬度和经度
java哪里可以找到如何使用排序的示例。顺序ignorecase（），其中nullhandling nulls last用于自定义Spring JPA如何提供查询

相关问题更多 >

编程相关推荐

热门问题

热门文章

从经过解析的美丽汤列表中移除<br>标记？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >