<p>您至少可以使用任何XML解析工具(如lxml python模块)解析USPTO。</p>
<p>Gabe Fierro写了一篇很好的论文,可以在这里找到:<a href="http://funginstitute.berkeley.edu/wp-content/uploads/2013/06/Extracting_and_Formatting.pdf" rel="nofollow">Extracting and Formatting Patent Data from USPTO XML</a>(没有付费墙)</p>
<p>Gabe还参与了一些关于如何做到这一点的有益讨论。</p>
<p>最后,如果你知道你要找的是什么,并且有足够的磁盘空间,你还可以获取本地存储的海量数据进行处理。USPTO批量下载<a href="http://www.google.com/googlebooks/uspto-patents-grants-text.html" rel="nofollow">here</a>。</p>
<p>有任何具体问题请告诉我!我曾经踏过这片土地:)</p>
<p>另外,Google Patent search API已被弃用,但现在您可以使用URL标记通过主Google search API进行相同的搜索(我手头没有这些标记,但您可以通过Google patents进行搜索,Google.com将对其进行响应)。</p>
<p>更新:现在在国内,您想要使用google自定义搜索API进行专利搜索的标志是&tbm=pts-请注意,google自定义搜索引擎和获取其代码对专利搜索非常有利,因为交付的JSON具有良好的数据结构和专利特定的字段。</p>
<p>示例代码:</p>
<pre><code>import requests
import urllib
import time
import json
access_token = <get yours by signing up for google custom search engine api>
cse_id = <get yours by signing up for google custom search engine api>
# Build url
start=1
search_text = "+(inassignee:\"Altera\" | \"Owner name: Altera\") site:www.google.com/patents/"
# &tbm=pts sets you on the patent search
url = 'https://www.googleapis.com/customsearch/v1?key='+access_token+'&cx='+cse_id+'&start='+str(start)+'&num=10&tbm=pts&q='+ urllib.quote(search_text)
response = requests.get(url)
response.json()
f = open('Sample_patent_data'+str(int(time.time()))+'.txt', 'w')
f.write(json.dumps(response.json(), indent=4))
f.close()
</code></pre>
<p>这将(添加免费的API访问信息后)获取Altera拥有的前十个专利条目(作为示例),并将生成的JSON保存到文本文件中。打开您最喜欢的web JSON编辑器并查看JSON文件。尤其是我建议在[“items”][]和子[“pagemap”]中查找。只要解析这个JSON,就可以得到标题、缩略图、代码片段、标题、链接,甚至引用(如果相关的话)。</p>