2024-05-23 14:25:30 发布
网友
我需要得到任何电影的信息框的内容。我知道这部电影的名字。一种方法是获取Wikipedia页面的完整内容,然后对其进行解析,直到找到{{Infobox,然后获取infobox的内容。
{{Infobox
有没有其他的方法来使用API或解析器呢?
我正在使用Python和pywikipediabot API。
我还熟悉wikitools的API。因此,如果有人有与wikitools API相关的解决方案,请不要使用pywikipedia,也要提到这一点。
您可以使用pywikipdiabot获取wikipage内容,然后,您可以使用regex(一种类似mwlib[0]的解析器)搜索infobox,甚至可以使用pywikipediabot并使用他的一个模板工具。例如,在textlib上,您可以找到一些处理模板的函数(提示:搜索“#处理模板的函数”)。[一]
[0]-http://pypi.python.org/pypi/mwlib
[1]-http://svn.wikimedia.org/viewvc/pywikipedia/trunk/pywikipedia/pywikibot/textlib.py?view=markup
与其重新发明轮子,不如查看DBPedia,它已经将所有维基百科信息框提取为一种易于解析的数据库格式。
另一个伟大的MediaWiki解析器是mwparserfromhell。
In [1]: import mwparserfromhell In [2]: import pywikibot In [3]: enwp = pywikibot.Site('en','wikipedia') In [4]: page = pywikibot.Page(enwp, 'Waking Life') In [5]: wikitext = page.get() In [6]: wikicode = mwparserfromhell.parse(wikitext) In [7]: templates = wikicode.filter_templates() In [8]: templates? Type: list String Form:[u'{{Use mdy dates|date=September 2012}}', u"{{Infobox film\n| name = Waking Life\n| im <...> critic film|waking-life|Waking Life}}', u'{{Richard Linklater}}', u'{{DEFAULTSORT:Waking Life}}'] Length: 31 Docstring: list() -> new empty list list(iterable) -> new list initialized from iterable's items In [10]: templates[:2] Out[10]: [u'{{Use mdy dates|date=September 2012}}', u"{{Infobox film\n| name = Waking Life\n| image = Waking-Life-Poster.jpg\n| image_size = 220px\n| alt =\n| caption = Theatrical release poster\n| director = [[Richard Linklater]]\n| producer = [[Tommy Pallotta]]<br />[[Jonah Smith]]<br />Anne Walker-McBay<br />Palmer West\n| writer = Richard Linklater\n| starring = [[Wiley Wiggins]]\n| music = Glover Gill\n| cinematography = Richard Linklater<br />[[Tommy Pallotta]]\n| editing = Sandra Adair\n| studio = [[Thousand Words]]\n| distributor = [[Fox Searchlight Pictures]]\n| released = {{Film date|2001|01|23|[[Sundance Film Festival|Sundance]]|2001|10|19|United States}}\n| runtime = 101 minutes<!--Theatrical runtime: 100:40--><ref>{{cite web |title=''WAKING LIFE'' (15) |url=http://www.bbfc.co.uk/releases/waking-life-2002-3|work=[[British Board of Film Classification]]|date=September 19, 2001|accessdate=May 6, 2013}}</ref>\n| country = United States\n| language = English\n| budget =\n| gross = $3,176,880<ref>{{cite web|title=''Waking Life'' (2001)|work=[[Box Office Mojo]] |url=http://www.boxofficemojo.com/movies/?id=wakinglife.htm|accessdate=March 20, 2010}}</ref>\n}}"] In [11]: infobox_film = templates[1] In [12]: for param in infobox_film.params: print param.name, param.value name Waking Life image Waking-Life-Poster.jpg image_size 220px alt caption Theatrical release poster director [[Richard Linklater]] producer [[Tommy Pallotta]]<br />[[Jonah Smith]]<br />Anne Walker-McBay<br />Palmer West writer Richard Linklater starring [[Wiley Wiggins]] music Glover Gill cinematography Richard Linklater<br />[[Tommy Pallotta]] editing Sandra Adair studio [[Thousand Words]] distributor [[Fox Searchlight Pictures]] released {{Film date|2001|01|23|[[Sundance Film Festival|Sundance]]|2001|10|19|United States}} runtime 101 minutes<!--Theatrical runtime: 100:40--><ref>{{cite web |title=''WAKING LIFE'' (15) |url=http://www.bbfc.co.uk/releases/waking-life-2002-3|work=[[British Board of Film Classification]]|date=September 19, 2001|accessdate=May 6, 2013}}</ref> country United States language English budget gross $3,176,880<ref>{{cite web|title=''Waking Life'' (2001)|work=[[Box Office Mojo]] |url=http://www.boxofficemojo.com/movies/?id=wakinglife.htm|accessdate=March 20, 2010}}</ref>
别忘了params也是mwparserfromhell对象!
您可以使用pywikipdiabot获取wikipage内容,然后,您可以使用regex(一种类似mwlib[0]的解析器)搜索infobox,甚至可以使用pywikipediabot并使用他的一个模板工具。例如,在textlib上,您可以找到一些处理模板的函数(提示:搜索“#处理模板的函数”)。[一]
[0]-http://pypi.python.org/pypi/mwlib
[1]-http://svn.wikimedia.org/viewvc/pywikipedia/trunk/pywikipedia/pywikibot/textlib.py?view=markup
与其重新发明轮子,不如查看DBPedia,它已经将所有维基百科信息框提取为一种易于解析的数据库格式。
另一个伟大的MediaWiki解析器是mwparserfromhell。
别忘了params也是mwparserfromhell对象!
相关问题 更多 >
编程相关推荐