轻松地从geo-ncbi下载fastq文件。
geoDL的Python项目详细描述
请注意,geodl是beta版本,因此预计会有错误
geodl是一个从GEO-NCBI下载fastq文件的python程序。该程序输入一个地理访问号码,并在EMBL-EBI/ENA网站上执行搜索,以收集元数据并下载fastq文件。元数据用于使用实验样本名称(而不是srr编号)重命名样本。
依赖关系
- geodl应该同时使用python3和python2但是测试必须仍然运行
- beautifulsoup4,colorama和6python包是必需的
- wget在内部使用,因此是geodl的依赖项
安装
在Linux和MacOSX上
$ pip install --user geoDL
请注意,安装beta版本可能需要标志–pre。
用法
usage: geoDL.py [-h][--dry][--samples [SAMPLES [SAMPLES ...]]][--colname COLNAME]{geo,meta,ena} GSE|metadata|ENA {geo,meta,ena} Specify which type of input GSE|metadata|ENA geo: GSE accession number, eg: GSE13373 Map the GSE accession to the ENA study accession and fetch the metadata meta: Use metadata file instead of fetching it on ENA website (bypass GEO) Meta data should include at minima the following columns: ['Fastq files (ftp)', 'Submitter's sample name'] ena: ENA study accession number, eg: PRJEB13373 Fetch the metadata directely on the ENA website optional arguments: -h, --help show this help message and exit --dry Don't actually download anything, just print the wget cmds --samples [SAMPLES [SAMPLES ...]] Space separated list of GSM samples to download. For ENA mode, subset the metadata --colname COLNAME Name of the column to use in the metadata file to name the samples
示例
下载元数据和GSE13373系列的所有示例,并将其重命名为示例名称:
$ geoDL geo GSE13373
仅下载一些示例:
$ geoDL GSE13373 -s GSM00001 GSM00003
下载使用预先下载的元数据并使用列run_alias作为示例的名称:
$ geoDL meta my_metadata.txt --column run_alias
使用ENA代码而不是GSE代码:
$ geoDL ena PRJEB13373
β测试
- 测试python2支持
- wget的测试处理