从网站上搜集生物数据
bioscraping的Python项目详细描述
#生物废料
用python编程与远程数据库交互的web scraper 使用sqlite3对web数据进行本地缓存,以防止过多的web 交通。
到目前为止,已实现:
- [uniprot](http://uniprot.org)由uniprot蛋白id(例如'q8bp71')
- [公共医疗](www.ncbi.nlm.nih.gov/pubmed/)按PMID(例如“24213538”)分类
#安装
##python 2.7.x和3.x pip安装bioscraping
#测试
没有真正的单元测试,但是您可以使用 python test/not_a_real_test.py。
#用法
- 出版
来自Bioscraping Import PubMedClient
pubmed=pubmedclient()
默认情况下,将编写名为.bioscraping.pubmed.sqlite.db的文件。使用pubmedclient(“:memory:”)存储内存中的数据。
pubmed.fetch(<PMID>)
返回pmid的带author和abstract的文本。
##uniprot
from bioscraping import UniprotClient
uniprot = UniprotClient()
默认情况下是编写名为的文件。bioscraping.uniprot.sqlite.db。使用uniprotclient(“:memory:”)进行内存数据存储。
uniprot.fetch(<Uniprot ID>)
返回从XML解析的数据字典。
#买家当心
uniprotclient有一个潜在的竞争条件,tempfile需要 在对并发进程安全之前实现。(请参阅待办事项)