用于搜索专利数据库的Python模块，即USPTO或EP问题的回答

用于搜索专利数据库的Python模块，即USPTO或EP

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

您至少可以使用任何XML解析工具（如lxml python模块）解析USPTO。 Gabe Fierro写了一篇很好的论文，可以在这里找到：<a href="http://funginstitute.berkeley.edu/wp-content/uploads/2013/06/Extracting_and_Formatting.pdf" rel="nofollow">Extracting and Formatting Patent Data from USPTO XML</a>（没有付费墙） Gabe还参与了一些关于如何做到这一点的有益讨论。 最后，如果你知道你要找的是什么，并且有足够的磁盘空间，你还可以获取本地存储的海量数据进行处理。USPTO批量下载<a href="http://www.google.com/googlebooks/uspto-patents-grants-text.html" rel="nofollow">here</a>。 有任何具体问题请告诉我！我曾经踏过这片土地：） 另外，Google Patent search API已被弃用，但现在您可以使用URL标记通过主Google search API进行相同的搜索（我手头没有这些标记，但您可以通过Google patents进行搜索，Google.com将对其进行响应）。 更新：现在在国内，您想要使用google自定义搜索API进行专利搜索的标志是&tbm=pts-请注意，google自定义搜索引擎和获取其代码对专利搜索非常有利，因为交付的JSON具有良好的数据结构和专利特定的字段。 示例代码： <pre><code>import requests import urllib import time import json access_token = <get yours by signing up for google custom search engine api> cse_id = <get yours by signing up for google custom search engine api> # Build url start=1 search_text = "+(inassignee:\"Altera\" | \"Owner name: Altera\") site:www.google.com/patents/" # &tbm=pts sets you on the patent search url = 'https://www.googleapis.com/customsearch/v1?key='+access_token+'&cx='+cse_id+'&start='+str(start)+'&num=10&tbm=pts&q='+ urllib.quote(search_text) response = requests.get(url) response.json() f = open('Sample_patent_data'+str(int(time.time()))+'.txt', 'w') f.write(json.dumps(response.json(), indent=4)) f.close() </code></pre> 这将（添加免费的API访问信息后）获取Altera拥有的前十个专利条目（作为示例），并将生成的JSON保存到文本文件中。打开您最喜欢的web JSON编辑器并查看JSON文件。尤其是我建议在[“items”][]和子[“pagemap”]中查找。只要解析这个JSON，就可以得到标题、缩略图、代码片段、标题、链接，甚至引用（如果相关的话）。

用于搜索专利数据库的Python模块，即USPTO或EP

1 个回答

相关Python问题