“视图”和OAIPMH中的小错误

2024-04-27 22:50:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用scrapy从一个使用OAI-PMH framework的归档文件中爬过this XML data。我并不十分熟悉OAI-PMH究竟如何影响Scrapy,但当我使用以下命令时,似乎有一个问题:

scrapy view http://fukushima.archive-disasters.jp/infolib/oai_repository/repository?verb=ListRecords&metadataPrefix=ndlkn

不是在我的浏览器中打开网站,而是打开一个记事本文件,其中包含以下内容:

^{pr2}$

命令行上将显示以下内容:

[default] INFO: Spider closed (finished)
'metadataPrefix' is not recognized as an internal or external command, operable program or batch file.

在XML中,metadataPrefix出现的唯一时间是在第3行:

<request metadataPrefix="ndlkn" verb="ListRecords">

有什么方法可以让我用Scrapy的“查看”命令使用这个网站吗?在

另外,我也有麻烦通过破壳访问XML数据本身。在以前的scray版本中,在使用remove_namespaces()之后,我可以使用sel.xpath('//record')访问页面上的所有记录,但现在这会生成{},我很难确定所需的正确xpath。在

下面是以下命令的外观:

scrapy shell http://fukushima.archive-disasters.jp/infolib/oai_repository/repository?verb=ListRecords&metadataPrefix=ndlkn

典型废料输出,则:

    >>> sel.remove_namespaces()
    >>> sel.xpath('//record')
    []
    >>> sel.xpath('//OAI-PMH')
    [<Selector xpath='//OAI-PMH' data=u'<OAI-PMH xmlns="http://www.openarchives.'>]
    >>> sel.xpath('//OAI-PMH/request')
    [<Selector xpath='//OAI-PMH/request' data=u'<request xmlns="http://www.openarchives.'>]
    >>> sel.xpath('//OAI-PMH/ListRecords')
    []

我需要使用什么XPath?在

抱歉问了这么长时间。我只是担心这两个问题有联系,OAI-PMH在这里造成了问题。请让我知道,如果我应该打破这个或任何其他方式,我可以让它更清楚。在

编辑:我觉得自己太笨了,但我意识到了问题所在。因为URL中有一个&,所以它需要用引号括起来,或者在调用scrapy viewscrapy shell后进行转义。这就解决了我的两个问题!希望这对将来的任何人都有帮助。在


Tags: 命令httpdatarepositoryrequestxmlxpathscrapy
1条回答
网友
1楼 · 发布于 2024-04-27 22:50:32

我意识到我的错误。因为URL中有一个&,所以它需要在scrapy viewscrapy shell之后加引号或转义。这就解决了我的两个问题!希望这对将来的任何人都有帮助。在

相关问题 更多 >