因此,我的代码从URL检索HTML文件并将其保存为文本文档
urllib.urlretrieve("http://www.testlink.com", "example.txt")
retrieve = open("example.txt", "r")
然后,我希望它从包含关键字的行中提取特定的文本。字符串如下所示:
<b class="whb">This is the text I want to retrieve</b> This is additional text that I don't want.
目前,我的代码打印了整行,如下所示:
for line in retrieve.readlines():
if '<b class="whb">' in line:
print line
如何指定要打印的行的哪一部分?我想要什么在b^{cl1}$
谢谢你
正如我在评论中所说,我会使用BeautifulSoup。下面是一个小例子:
如果您有一个
html_doc
是一个较大的HTML文档,其中有几个<b>
标记,则可以将最后一行替换为:如果
html_doc
有多个<b class='whb'>
选项卡,并且您想要所有这些选项卡,那么请使用findAll()
:BeautifulSoup是一个功能强大的网站刮刀。请阅读documentation以了解您在特定情况下需要什么
相关问题 更多 >
编程相关推荐