用于搜索专利数据库的Python模块,即USPTO或EP

2024-04-28 12:00:25 发布

您现在位置:Python中文网/ 问答频道 /正文

为了我的工作,我必须在生物医学研究和工业领域找到潜在的客户。

我用biopython模块编写了一些非常方便的程序,它有一个很好的界面来搜索NCBI。我还使用了“临床试验”模块来搜索clinical trials.gov

我现在想搜索专利数据库,比如EPO或USPTO,但是我甚至找不到python模块的任何痕迹。但也许我遗漏了一些显而易见的东西?

由于google有一个专利搜索选项,我想知道是否有一个python模块可以搜索google,它可以只用于搜索专利?


Tags: 模块程序客户界面googlencbi专利领域
2条回答

您至少可以使用任何XML解析工具(如lxml python模块)解析USPTO。

Gabe Fierro写了一篇很好的论文,可以在这里找到:Extracting and Formatting Patent Data from USPTO XML(没有付费墙)

Gabe还参与了一些关于如何做到这一点的有益讨论。

最后,如果你知道你要找的是什么,并且有足够的磁盘空间,你还可以获取本地存储的海量数据进行处理。USPTO批量下载here

有任何具体问题请告诉我!我曾经踏过这片土地:)

另外,Google Patent search API已被弃用,但现在您可以使用URL标记通过主Google search API进行相同的搜索(我手头没有这些标记,但您可以通过Google patents进行搜索,Google.com将对其进行响应)。

更新:现在在国内,您想要使用google自定义搜索API进行专利搜索的标志是&tbm=pts-请注意,google自定义搜索引擎和获取其代码对专利搜索非常有利,因为交付的JSON具有良好的数据结构和专利特定的字段。

示例代码:

import requests
import urllib
import time
import json

access_token = <get yours by signing up for google custom search engine api>
cse_id = <get yours by signing up for google custom search engine api>

# Build url
start=1
search_text = "+(inassignee:\"Altera\" | \"Owner name: Altera\") site:www.google.com/patents/"
# &tbm=pts sets you on the patent search
url = 'https://www.googleapis.com/customsearch/v1?key='+access_token+'&cx='+cse_id+'&start='+str(start)+'&num=10&tbm=pts&q='+ urllib.quote(search_text)

response = requests.get(url)

response.json()
f = open('Sample_patent_data'+str(int(time.time()))+'.txt', 'w')
f.write(json.dumps(response.json(), indent=4))
f.close()

这将(添加免费的API访问信息后)获取Altera拥有的前十个专利条目(作为示例),并将生成的JSON保存到文本文件中。打开您最喜欢的web JSON编辑器并查看JSON文件。尤其是我建议在[“items”][]和子[“pagemap”]中查找。只要解析这个JSON,就可以得到标题、缩略图、代码片段、标题、链接,甚至引用(如果相关的话)。

我不知道是否有现成的python模块,但您可以自己构建。USPTO和EPO都有api,可以在http://www.epo.org/searching/free/ops.htmlhttp://tsdr.uspto.gov/找到。

我不知道从那里使用文档有多容易,但是您可以尝试制作一个简单的查询器来检索和解析结果。当然,你需要的数据越广泛,编写模块的工作量就越大。

相关问题 更多 >