我使用scrapy从一个使用OAI-PMH framework的归档文件中爬过this XML data。我并不十分熟悉OAI-PMH究竟如何影响Scrapy,但当我使用以下命令时,似乎有一个问题:
scrapy view http://fukushima.archive-disasters.jp/infolib/oai_repository/repository?verb=ListRecords&metadataPrefix=ndlkn
不是在我的浏览器中打开网站,而是打开一个记事本文件,其中包含以下内容:
^{pr2}$命令行上将显示以下内容:
[default] INFO: Spider closed (finished)
'metadataPrefix' is not recognized as an internal or external command, operable program or batch file.
在XML中,metadataPrefix
出现的唯一时间是在第3行:
<request metadataPrefix="ndlkn" verb="ListRecords">
有什么方法可以让我用Scrapy的“查看”命令使用这个网站吗?在
另外,我也有麻烦通过破壳访问XML数据本身。在以前的scray版本中,在使用remove_namespaces()
之后,我可以使用sel.xpath('//record')
访问页面上的所有记录,但现在这会生成{
下面是以下命令的外观:
scrapy shell http://fukushima.archive-disasters.jp/infolib/oai_repository/repository?verb=ListRecords&metadataPrefix=ndlkn
典型废料输出,则:
>>> sel.remove_namespaces()
>>> sel.xpath('//record')
[]
>>> sel.xpath('//OAI-PMH')
[<Selector xpath='//OAI-PMH' data=u'<OAI-PMH xmlns="http://www.openarchives.'>]
>>> sel.xpath('//OAI-PMH/request')
[<Selector xpath='//OAI-PMH/request' data=u'<request xmlns="http://www.openarchives.'>]
>>> sel.xpath('//OAI-PMH/ListRecords')
[]
我需要使用什么XPath?在
抱歉问了这么长时间。我只是担心这两个问题有联系,OAI-PMH在这里造成了问题。请让我知道,如果我应该打破这个或任何其他方式,我可以让它更清楚。在
编辑:我觉得自己太笨了,但我意识到了问题所在。因为URL中有一个&
,所以它需要用引号括起来,或者在调用scrapy view
或scrapy shell
后进行转义。这就解决了我的两个问题!希望这对将来的任何人都有帮助。在
我意识到我的错误。因为URL中有一个
&
,所以它需要在scrapy view
或scrapy shell
之后加引号或转义。这就解决了我的两个问题!希望这对将来的任何人都有帮助。在相关问题 更多 >
编程相关推荐