处理drop seq、10x(3prime)和indrop rna seq数据集

baseqDrops的Python项目详细描述


#BaseQdrops
一个用于处理10x、indrop和drop seq数据集的通用管道。

` BaseQdrops`

建议计算机或服务器具有内存>;=30GB和CPU核>;=8以实现高效处理;

基因组;
+`samtools`:用于排序对齐的BAM文件(version>;=1.6);
+`whitelistdir`:indrop和10x的条形码白名单文件应放在whitelistdir下。这些文件可以从https://github.com/beiseq/baseqdrops/tree/master/whitelist;
+`cellranger\u ref<;genome>;下载;`阅读对齐和标记基因的关键过程是从开源cellranger管道(https://github.com/10xgenomics/cellranger)中得到启发和借鉴的。基因组索引和转录组的引用可以从https://support.10xgenomics.com/single cell gene expression/software/downloads/latest下载。
在配置文件中,cellranger引用的目录名为"cellranger\lt;genome>;"。

配置记录在名为"config_drops.ini"的文件中:


[drops]
samtools=/path/to/samtools
star=/path/to/star
whitelistdir=/path/to/whitelist_file_directory
celllanger_ref_hg38=/路径/to/reference/refdata-cellranger-grch38-1.2.0/

`单元条码计数:对数据集中已有的条码进行计数。这将生成一个名为:barcode_u count_lt;sample>;.csv;
2的文件。`单元条码更正、聚合和筛选`:更正1bp不匹配范围内的单元条码,然后聚合并按最小读取次数(默认值5000)筛选条码,这将生成名为:barcode_u stats_lt;sample>;.csv;
3的有效条码列表。`拆分有效单元格条形码的读取:根据条形码的2bp前缀,将原始对端原始读取拆分为16个单端文件进行多处理;条形码拆分文件夹包含以下文件:拆分。<;sample>;<;aa at ac ag…gg>;.fq;
4。`使用star`:几个(由--parallel/-p定义的)star程序同时运行,结果将在名为star_align的文件夹中;bam文件按序列头进一步排序;
5。` reads taging`:将读取对齐位置标记到相应的基因名;
6。`生成表达式表:将生成由umi(result.umis<;sample>;.txt)量化的表达式表和原始读取计数(result.reads<;sample>;.txt);

run pipeline

应提供以下参数:(或run:baseqdrops run pipe--有关信息的帮助)

+`--outdir/-d`:输出路径(默认。/,结果将存储在./<;name>;);
+`--config`:配置文件的路径;
+`--genome/-g`:基因组版本[hg38/mm38/hgmm];
+`--protocol/-p`:[10x indrop dropseq];
+`--minreads`:条形码所需的最小读取量;
+`--name/-n`:样本名称,将创建一个文件夹<;outdir>;/<;name>;作为主目录;
+`--parallel`:同时运行星型进程和标记进程的数目(默认值为4,需要更多内存才能获得更大的并行数);
+`--fq1/-1`:对端1排序文件的路径;
+`--fq2/-2`:对端2排序文件的路径;
+`--top-million-reads`:对于大型数据集,可以选择使用部分数据快速查看,超过N百万的读取将被跳过;

_hg38`已在配置文件中定义,您可以运行:

baseqdrops run pipe--config./config_drops.ini-g hg38-p 10x--minreads 1000-n 10x_test-1 10x_1.1.fq.gz-2 10x.2.fq.gz-d./

所有参数应按上述要求提供,应提供额外的"-step",例如:

baseqdrops run pipe--config./config.ini-g hg38-p dropseq--minreads 1000-n dropseq2--top_百万读取20-1 dropseq_1.1.fq.gz-2 dropseq.2.fq.gz--step count-d./

修正,聚合和筛选`--step stats
+`split the reads of valid cell barcode`:--step split
+`alignment to genome using star`:--step star
+`reads tagging`:--step tagging
+`generating expression table`:--step table

请发邮件至:friedpine@gmail.com



欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Hibernate:合并并删除,而不是从数据库中删除实体对象   java如何在WebFilter中有条件地从Mono返回?   java调用mysql c3p0函数   可执行jar Java jar文件加载错误:无法找到或加载主类。类导致的错误:java。lang.ClassNotFoundException:某些东西。班   java如何减少/更改爬网后的延迟?   从其他语言(如Java、PHP、Perl、Python等)调用C/C++代码的最佳方式是什么?   java如何模拟影响对象的void返回方法   当我试图在ubuntu上启动JavaScala时,它抛出了一个异常   java如何正确输出游戏   理解java和C++背景下的JavaScript原型   oracle如何将Java函数转换为postgresql函数   多线程为什么我的java服务器程序在超时后不退出?   java如何使listView中的按钮在单击时工作?   试图将这个嵌套的java forloop转换为python,但我不知道如何转换。有没有一种方法可以像这样为循环执行if语句?   java幂函数在计算器中的应用   如何在java中滚动浏览mysql数据库   在Spring Boot应用程序的JUnit测试中,java没有符合自动连线JPA存储库要求的bean   java如何使用扩展类的JPanel对象?