使用lxml解析HTML段落
我刚接触lxml,想从一个网址中提取<p>段落内容</p>
和<li>列表项内容</li>
,然后用这些内容进行后续操作。
我参考了一个帖子中的例子,尝试了下面的代码,但没有成功:
html = lxml.html('http://www.google.com/intl/en/about/corporate/index.html')
url = 'http://www.google.com/intl/en/about/corporate/index.html'
print html.parse.xpath('//p/text()')
我还试着查看了lxml.html中的例子,但没有找到使用网址的相关示例。
你能给我一些建议,告诉我应该使用哪些方法吗?谢谢。
1 个回答
7
在编程中,有时候我们会遇到一些问题,特别是在使用某些工具或库的时候。这些问题可能会让我们感到困惑,不知道该怎么解决。比如,有人可能在使用某个功能时,发现它并没有按照预期工作,这时候就需要去查找原因。
通常,我们可以通过查看文档、搜索相关问题或者在社区里询问来找到解决方案。很多时候,其他人也遇到过类似的问题,他们的经验可能会帮助我们更快地找到答案。
另外,保持耐心和好奇心也是很重要的。编程的世界很大,遇到问题是学习的一部分。只要我们不断尝试和学习,就一定能找到解决办法。
import lxml.html
htmltree = lxml.html.parse('http://www.google.com/intl/en/about/corporate/index.html')
print htmltree.xpath('//p/text()')