“视图”和OAIPMH中的小错误

2024-05-23 21:26:53 发布

男 | 程序猿一只，喜欢编程写python代码。

我使用scrapy从一个使用OAI-PMH framework的归档文件中爬过this XML data。我并不十分熟悉OAI-PMH究竟如何影响Scrapy，但当我使用以下命令时，似乎有一个问题：

scrapy view http://fukushima.archive-disasters.jp/infolib/oai_repository/repository?verb=ListRecords&metadataPrefix=ndlkn

不是在我的浏览器中打开网站，而是打开一个记事本文件，其中包含以下内容：

^{pr2}$

命令行上将显示以下内容：

[default] INFO: Spider closed (finished)
'metadataPrefix' is not recognized as an internal or external command, operable program or batch file.

在XML中，metadataPrefix出现的唯一时间是在第3行：

<request metadataPrefix="ndlkn" verb="ListRecords">

有什么方法可以让我用Scrapy的“查看”命令使用这个网站吗？在

另外，我也有麻烦通过破壳访问XML数据本身。在以前的scray版本中，在使用remove_namespaces()之后，我可以使用sel.xpath('//record')访问页面上的所有记录，但现在这会生成{}，我很难确定所需的正确xpath。在

下面是以下命令的外观：

scrapy shell http://fukushima.archive-disasters.jp/infolib/oai_repository/repository?verb=ListRecords&metadataPrefix=ndlkn

典型废料输出，则：

    >>> sel.remove_namespaces()
    >>> sel.xpath('//record')
    []
    >>> sel.xpath('//OAI-PMH')
    [<Selector xpath='//OAI-PMH' data=u'<OAI-PMH xmlns="http://www.openarchives.'>]
    >>> sel.xpath('//OAI-PMH/request')
    [<Selector xpath='//OAI-PMH/request' data=u'<request xmlns="http://www.openarchives.'>]
    >>> sel.xpath('//OAI-PMH/ListRecords')
    []

我需要使用什么XPath？在

抱歉问了这么长时间。我只是担心这两个问题有联系，OAI-PMH在这里造成了问题。请让我知道，如果我应该打破这个或任何其他方式，我可以让它更清楚。在

编辑：我觉得自己太笨了，但我意识到了问题所在。因为URL中有一个&，所以它需要用引号括起来，或者在调用scrapy view或scrapy shell后进行转义。这就解决了我的两个问题！希望这对将来的任何人都有帮助。在

Tags：命令 http data repository request xml xpath scrapy

1条回答

网友

1楼 · 发布于 2024-05-23 21:26:53

我意识到我的错误。因为URL中有一个&，所以它需要在scrapy view或scrapy shell之后加引号或转义。这就解决了我的两个问题！希望这对将来的任何人都有帮助。在

“视图”和OAIPMH中的小错误

相关问题更多 >

编程相关推荐

热门问题

热门文章

“视图”和OAIPMH中的小错误

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >