用Python提取维基百科文章的引言部分

3 投票
2 回答
1110 浏览
提问于 2025-04-16 07:42

我想提取维基百科文章的介绍部分(忽略其他所有内容,包括表格、图片和其他部分)。我查看了文章的HTML源代码,但没有看到这个部分被包裹在任何特殊标签里。

有没有人能给我一个快速的解决办法?我正在写Python脚本。

谢谢!

2 个回答

3
  1. 你可以看看 mwlib,这个工具可以用来解析维基百科的源代码。
  2. 另外,你也可以使用 wikidump 这个库。
  3. 通过 BeautifulSoup 进行HTML网页抓取。

哦,这个话题在Stack Overflow上已经有问题了:

  1. 解析维基百科的数据
  2. 如何通过Python解析/提取MediaWiki格式的文章数据
0

我觉得你可以通过获取整个页面的内容,去掉所有的表格,然后寻找在某个标记后面第一个出现的<p>...</p>块来找到介绍文本。最后那部分可以用这个正则表达式:

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

这里的.S选项是为了让.也能匹配换行符...

撰写回答