关于美化组中获取文本（）的建议

网友

1楼 · 编辑于 2024-05-13 11:47:06

如果您使用的是bs4，则可以使用^{}：

" ".join(result.strings)

网友

2楼 · 编辑于 2024-05-13 11:47:06

result.get_text(separator=" ")应该可以。

网友

3楼 · 编辑于 2024-05-13 11:47:06

使用“contents”，然后替换<br>？

下面是一个完整的（工作、测试）示例：

from bs4 import BeautifulSoup
import urllib2

url="http://www.floris.us/SO/bstest.html"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())

result = soup.find(attrs={'class':'myclass'})
print "The result of soup.find:"
print result

print "\nresult.contents:"
print result.contents
print "\nresult.get_text():"
print result.get_text()
for r in result:
  if (r.string is None):
    r.string = ' '

print "\nAfter replacing all the 'None' with ' ':"
print result.get_text()

结果：

The result of soup.find:
<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>

result.contents:
[u'Lorem ipsum', <br/>, u'dolor sit amet,', <br/>, u'consectetur...']

result.get_text():
Lorem ipsumdolor sit amet,consectetur...

After replacing all the 'None' with ' ':
Lorem ipsum dolor sit amet, consectetur...

这比肖恩的非常简洁的解决方案要复杂得多，但是由于我说过我会按照我所指明的路线创建和测试一个解决方案，所以我决定兑现我的承诺。你可以更好地看到这里发生的事情-<br/>是它自己在result.contents元组中的元素，但是当转换成字符串时，“什么都没有了”。

相关问题更多 >

编程相关推荐

热门问题

热门文章

关于美化组中获取文本（）的建议

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >