通过xml.dom.minidom处理RSS/RDF
我正在尝试用Python处理一个很不错的RSS订阅源。这里有一个示例:
...
<item rdf:about="http://weblist.me/">
<title>WebList - The Place To Find The Best List On The Web</title>
<dc:date>2009-12-24T17:46:14Z</dc:date>
<link>http://weblist.me/</link>
...
</item>
<item rdf:about="http://thumboo.com/">
<title>Thumboo! Free Website Thumbnails and PHP Script to Generate Web Screenshots</title>
<dc:date>2006-10-24T18:11:32Z</dc:date>
<link>http://thumboo.com/</link>
...
相关的代码是:
def getText(nodelist):
rc = ""
for node in nodelist:
if node.nodeType == node.TEXT_NODE:
rc = rc + node.data
return rc
dom = xml.dom.minidom.parse(file)
items = dom.getElementsByTagName("item")
for i in items:
title = i.getElementsByTagName("title")
print getText(title)
我本以为这段代码会打印出每个标题,但实际上我得到的输出几乎是空白。我肯定是哪里搞错了,但我不知道问题出在哪里?
1 个回答
4
你现在把
getText
,但是这些节点的类型不是node.TEXT_NODE
。你需要在getText
方法里遍历这个节点的所有子节点。
def getTextSingle(node):
parts = [child.data for child in node.childNodes if child.nodeType == node.TEXT_NODE]
return u"".join(parts)
def getText(nodelist):
return u"".join(getTextSingle(node) for node in nodelist)
更好的做法是,在调用getTextSingle
之前,先调用node.normalize()
,这样可以把连续的node.TEXT_NODE
类型的子节点合并成一个单独的node.TEXT_NODE
。