解析美国专利商标局 XML 文件

import xml.etree.ElementTree as x path = r"C:\Users\XX\Downloads\ipg190423\ipg190423.xml" d = [] s = "" f = open(path) for l in f: if l == "<?xml version=\"1.0\" encoding=\"UTF-8\"?>\n": if len(s)>0: d.append(s) s = "" s += l d.append(s) index = 0 for xm in d: root = x.fromstring(xm) for e in root.iter(tag="patent-"): print(e) index += 1 filename = format(str(index) + ".xml") with open(filename, 'w') as f: f.write(x.tostring(e))

1条回答

网友

1楼 · 发布于 2024-06-10 14:27:32

我下载了其中一个文档，问题是它们不是有效的XML文档。它们由连接在一起的多个XML文档组成。基本结构是：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE us-patent-grant SYSTEM "us-patent-grant-v45-2014-04-03.dtd" [ ]>
<us-patent-grant>
.
.
.
</us-patent-grant>
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE us-patent-grant SYSTEM "us-patent-grant-v45-2014-04-03.dtd" [ ]>
<us-patent-grant>
.
.
.
</us-patent-grant>

例如，在ipgb20190101_wk01.zip中，有7162个XML文档连接在一起。在解析这些数据之前，您必须编写代码以按顺序提取每个XML文档。在

更新

可以使用^{}命令将XML文档提取到单独的文件中：

^{pr2}$

这将为您提供文件patent-0000.xml到patent-7126.xml（假设您使用了与我相同的示例数据）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章