使用Python获取维基百科摘要
我想获取一篇维基百科
文章的第一段
内容。所以我在使用wikitools
。
from wikitools import wiki
from wikitools import api
from wikitools import page
wikiobj = wiki.Wiki("http://en.wikipedia.org/w/api.php")
wikipage = page.Page(wikiobj, title="Office_Space")
wikidata = wikipage.getWikiText(True)
print wikidata
这是使用wikitools
得到的结果,点击这里查看。在这个结果中,有很多标签。我不想要这些。
我只需要文章
中的以下部分。(这是从维基百科复制粘贴的)。这可能吗?谢谢。或者有没有其他的替代方法?非常感谢。
Office Space is a 1999 American comedy film satirizing work life in a typical 1990s software company. Written and directed by Mike Judge, it focuses on a handful of individuals fed up with their jobs portrayed by Ron Livingston, Jennifer Aniston, Gary Cole, David Herman, Ajay Naidu, and Diedrich Bader.
The film's sympathetic depiction of ordinary IT workers garnered a cult following within that field, but also addresses themes familiar to white collar employees in general.
Shot in Las Colinas and Austin, Texas, Office Space is based on Judge's Milton cartoon series. It was his first foray into live action film and second full length motion picture release.
2 个回答
0
wikipedia_utils中的模板解析器(在这篇关于如何抓取和解析维基百科的文章中提到)看起来可以把wikitools返回的所有内容放进一个Python的数据结构里,这样你就可以从中提取你想要的部分。
补充:你可能还会发现Python库mwlib对这个目的很有帮助,具体可以参考这个StackOverflow的回答。
0
最后我找到了这个脚本。它现在可以正常工作了。无论如何,谢谢大家 :-D