如何序列化XML Exp中的项目列表的废字段

class Course(scrapy.Item): title = scrapy.Field() lessons = scrapy.Field() class Lesson(scrapy.Item): session = scrapy.Field() topic = scrapy.Field() assignment = scrapy.Field() class ReadingAssignment(scrapy.Item): textBook = scrapy.Field() pages = scrapy.Field() course = Course() course['title'] = 'Greatness' course['lessons'] = [] lesson = Lesson() lesson['session'] = 'Week 1' lesson['topic'] = 'Think Great' lesson['assignment'] = [] reading = ReadingAssignment() reading['textBook'] = 'Great Book 1' reading['pages'] = '1-20' lesson['assignment'].append(reading) course['lessons'].append(lesson) lesson = Lesson() lesson['session'] = 'Week 2' lesson['topic'] = 'Act Great' lesson['assignment'] = [] reading = ReadingAssignment() reading['textBook'] = 'Great Book 2' reading['pages'] = '21-40' lesson['assignment'].append(reading) course['lessons'].append(lesson) lesson = Lesson() lesson['session'] = 'Week 3' lesson['topic'] = 'Look Great' lesson['assignment'] = [] reading = ReadingAssignment() reading['textBook'] = 'Great Book 3' reading['pages'] = '41-60' lesson['assignment'].append(reading) course['lessons'].append(lesson) lesson = Lesson() lesson['session'] = 'Week 4' lesson['topic'] = 'Be Great' lesson['assignment'] = [] reading = ReadingAssignment() reading['textBook'] = 'Great Book 4' reading['pages'] = '61-80' lesson['assignment'].append(reading) course['lessons'].append(lesson)

<items> <course> <title>Greatness</title> <lessons> <lesson> <session>Week 1</session> <topic>Think Great</topic> <assignment> <reading> <textBook>Great Book 1</textBook> <pages>1-20</pages> </reading> </assignment> </lesson> <lesson> <session>Week 2</session> <topic>Act Great</topic> <assignment> <reading> <textBook>Great Book 2</textBook> <pages>21-40</pages> </reading> </assignment> </lesson> <lesson> <session>Week 3</session> <topic>Look Great</topic> <assignment> <reading> <textBook>Great Book 3</textBook> <pages>41-60</pages> </reading> </assignment> </lesson> <lesson> <session>Week 4</session> <topic>Be Great</topic> <assignment> <reading> <textBook>Great Book 4</textBook> <pages>61-80</pages> </reading> </assignment> </lesson> </lessons> </course> </items>

1条回答

网友

1楼 · 发布于 2024-05-23 18:07:04

这确实没有很好的文档记录，我们将不得不阅读^{} source code，结果发现<value>标记选项已硬编码在^{} method中：

elif is_listlike(serialized_value):
    self._beautify_newline()
    for value in serialized_value:
        self._export_xml_field('value', value, depth=depth+1)
    self._beautify_indent(depth=depth)

幸运的是，有一条出路，在前面的线路上：

^{pr2}$

这意味着要处理一个字典，但实际上它将接受任何具有返回字符串和项元组的.items()方法的任何东西！在

然而，导出器中缺少一个重要步骤：递归。基本上，您只能在顶级项字段上设置serializer标志，任何超出顶级项的Field()子类上的Field()元素都会被当前的Scrapy实现完全忽略。每个导出器在如何驱动内部^{} method上都有自己的特点，因此我们不能预先处理递归，因为每个特定的导出器（JSON、XML等）在需要序列化字段的方式上各不相同。我们可以用XmlItemExporter类的一个子类来解决这个问题，更多信息见下文。在

所以这里的第一个技巧是创建一个专用对象，该对象有一个.items()方法，并为您提供<container>标记。请注意，您必须自己处理序列化的递归！垃圾序列化程序本身不处理嵌套结构的递归：

class CustomXMLValuesSerializer:
    @classmethod
    def serialize_as(cls, name):
        def serializer(items, serialize):
            return cls(name, items, serialize)
        return serializer

    def __init__(self, name, items, serialize=None):
        self._name = name
        self._items = items
        self._serialize = serialize if serialise is not None else lambda x: x

    def items(self):
        for item in self._items:
            yield (self._name, self._serialize(item))

然后使用CustomXMLValuesSerializer.serialize_as()类方法为列表字段创建自定义序列化程序：

class Course(scrapy.Item):
    title = scrapy.Field()
    lessons = scrapy.Field(
        serializer=CustomXMLValuesSerializer.serialize_as("lesson")
    )

class Lesson(scrapy.Item):
    session = scrapy.Field()
    topic = scrapy.Field()
    assignment = scrapy.Field(
        serializer=CustomXMLValuesSerializer.serialize_as("reading")
    )

class ReadingAssignment(scrapy.Item):
    textBook = scrapy.Field()
    pages = scrapy.Field()

最后，我们需要一个稍微定制的导出器，它可以让我们递归地处理嵌套项：

from functools import partial

class RecursingXmlItemExporter(XmlItemExporter):
    def _recursive_serialized_fields(self, item):
        if isinstance(item, scrapy.Item):
            return dict(self._get_serialized_fields(item, default_value=''))
        return item

    def serialize_field(self, field, name, value):
        serializer = field.get('serializer', lambda x: x)
        try:
            return serializer(value, self._recursive_serialized_fields)
        except TypeError:
            return serializer(value)

注意，这会传入default_value=''，因为that's what the base ^{} implementation uses。在

请确保使用此自定义导出器，因为它在所需的上下文中传递以序列化嵌套项：

exporter = RecursingXmlItemExporter(some_file, indent=2, item_element='course')
exporter.start_exporting()
exporter.export_item(course)
exporter.finish_exporting()

现在容器实际上是使用name字符串作为容器元素导出的：

<?xml version="1.0" encoding="utf-8"?>
<items>
  <course>
    <title>Greatness</title>
    <lessons>
      <lesson>
        <session>Week 1</session>
        <topic>Think Great</topic>
        <assignment>
          <reading>
            <textBook>Great Book 1</textBook>
            <pages>1-20</pages>
          </reading>
        </assignment>
      </lesson>
      <lesson>
        <session>Week 2</session>
        <topic>Act Great</topic>
        <assignment>
          <reading>
            <textBook>Great Book 2</textBook>
            <pages>21-40</pages>
          </reading>
        </assignment>
      </lesson>
      <lesson>
        <session>Week 3</session>
        <topic>Look Great</topic>
        <assignment>
          <reading>
            <textBook>Great Book 3</textBook>
            <pages>41-60</pages>
          </reading>
        </assignment>
      </lesson>
      <lesson>
        <session>Week 4</session>
        <topic>Be Great</topic>
        <assignment>
          <reading>
            <textBook>Great Book 4</textBook>
            <pages>61-80</pages>
          </reading>
        </assignment>
      </lesson>
    </lessons>
  </course>
</items>

我用scray字段issue #3888，看看项目是否有兴趣更好地支持嵌套的Item结构。在

另一种方法是使用对XmlItemExporter.export_item()方法的单独调用导出嵌套项，但这要求导出器可以作为与序列化器相同命名空间中的全局访问，或者您将导出器子类化并。。。将导出器传递给序列化程序。然后你必须满足于XmlItemExporter.export_item()硬编码缩进。在

相关问题更多 >

编程相关推荐

热门问题

热门文章