如何获取与浏览器视图而不是html源代码相匹配的换行文本（使用python和beautifulsoup）

1条回答

网友

1楼 · 发布于 2024-04-20 09:26:02

最后我用了一些替代品。它适用于我正在使用的HTML

from bs4 import BeautifulSoup

sample = """<p>Some
sample html<br>
new line
<p>New paragraph"""

# Remove all line breaks in the source
sample_remove_line_breaks = re.sub(r'\r?\n', ' ', sample)

# Add line breaks for each `<br>` and `<p>` tag
sample_add_html_line_breaks = re.sub(r'<p>', '\n\n<p>', re.sub(r'<br>', '<br>\n', sample_remove_line_breaks))

plain_text = BeautifulSoup(sample_add_html_line_breaks,"html.parser").get_text()

编程相关推荐

java如何修复使用高停止条件时的StackOverflowerError
java两个非常好的int被除掉，仍然返回0
java将SpringWeb应用程序（Web.xml）迁移到Springboot 1.5.10
java使用CQL查询的结果集检索整行
java Solr 7：当某些请求命中Solr时，QueuedThreadPool线程数很高
在ActionListener中访问另一个类时发生java NullPointerException
异常处理Java重构类似方法的代码
java Hi我需要帮助在我的JSP页面中传输图像
Android中的java工作线程
覆盖字段值的JavaDB模型策略

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何获取与浏览器视图而不是html源代码相匹配的换行文本（使用python和beautifulsoup）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >