用Python提取维基百科文章的引言部分
我想提取维基百科文章的介绍部分(忽略其他所有内容,包括表格、图片和其他部分)。我查看了文章的HTML源代码,但没有看到这个部分被包裹在任何特殊标签里。
有没有人能给我一个快速的解决办法?我正在写Python脚本。
谢谢!
2 个回答
3
- 你可以看看 mwlib,这个工具可以用来解析维基百科的源代码。
- 另外,你也可以使用 wikidump 这个库。
- 通过 BeautifulSoup 进行HTML网页抓取。
哦,这个话题在Stack Overflow上已经有问题了:
0
我觉得你可以通过获取整个页面的内容,去掉所有的表格,然后寻找在某个标记后面第一个出现的<p>...</p>块来找到介绍文本。最后那部分可以用这个正则表达式:
/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/
这里的.S选项是为了让.也能匹配换行符...