我有一个网页的源代码,格式如下:
<span class="l r positive-icon">
Turkish
</span>
<span>
The.Mist[2007]DvDrip[Eng]-aXXo
</span>
<span class="l r neutral-icon">
Vietnamese
</span>
<span>
The.Mist.2007.720p.Bluray.x264.YIFY
</span>
如您所见,有“l r正图标”或“l r中性图标”类的跨距。我只想得到语言,所以任何类的跨度之间的一切。我使用这个regexp,但它给了我一个空列表:
allLanguages = re.findall('<span class=".*">\s(.*)\s</span>', allLanguagesTags)
allLanguagesTags包含上面显示的源代码。谁能给我一个提示吗
不要使用正则表达式。使用实际的HTML解析器。我建议您改用BeautifulSoup:
演示:
相关问题 更多 >
编程相关推荐