当我使用BeautifulSoup从html获取文本时,我发现它会忽略多个空格。对于下面的示例,在</seg>
和<seg>
之间有2个空格,但是输出只有一个空格,不管有多少空格,它都会输出一个空格
import bs4
text = "<line><seg>aaa</seg> <seg>bbb</seg></line>"
soup = bs4.BeautifulSoup(text)
print(soup.text)
print(soup.find_all(text=True))
输出为:
aaa bbb
['aaa', ' ', 'bbb']
但我真正想要的是:
aaa bbb
['aaa', ' ', 'bbb']
有什么想法吗
或
javascript中是否有等效的方法?获取文本但忽略标记外的多个空格
这是html解析器的正常行为
见:
https://developer.mozilla.org/en-US/docs/Web/API/Document_Object_Model/Whitespace
引用一些相关部分:
HTML largely ignores whitespace?
What does happen to whitespace?
How does CSS process whitespace?
相关问题 更多 >
编程相关推荐