牵引车

albatradis的Python项目详细描述


#信天翁[构建状态](https://travis-ci.org/quadram-institute-bioscience/albatradis.svg?(https://travis ci.org/quadram institute bioscience/albatradis)
[![许可证:gpl v3](https://img.shields.io/badge/license gpl%20v3 brightgreen.svg)](https://github.com/quadram institute bioscience/albatradis/blob/master/license)
[![docker build status](https://img.shields.io/docker/build/andrewjpage/albatradis.svg)(https://hub.docker.com/r/andrewjpage/albatradis)
[![Docker Pulls](https://img.shields.io/docker/pulls/andrewjpage/albatradis.svg)(https://hub.docker.com/r/andrewjpage/albatradis)


/>*[用法](用法)
*[许可证](许可证)
*[反馈/问题](反馈问题)
*[引用](引用)


简介
albatradis是一个软件应用程序,用于对tradis实验进行快速的大规模比较分析,同时还可以预测影响附近基因的插入。它允许使用bio-tradis工具包中开发的统计方法轻松分析具有多种条件的实验。

如果你只是想快速试用软件,请尝试Docker。

要在ubuntu或debian上安装albatradis,请运行:
```
sudo apt get update-qq&;apt get install-y sudo bio tradis git python3 python3 setuptools python3 biopython3 pip cpanminus libncursew5 dev libssl dev
sudo cpanm-f ipc::system::simple datetime::locale datetime bio::tradis
sudo rscript-e"source('http://bioconductor.org/bioclite.r')"-e"bioclite(c('edger','getopt','mass')"

pip3 install cython
pip3 install git+git://github.com/quadram institute bioscience/albatradis.git
````

conda
[![水蟒服务器徽章](https://anaconda.org/bioconda/albatradis/badges/latest_release_date.svg)(https://anaconda.org/bioconda/albatradis)
[![水蟒服务器徽章](https://anaconda.org/bioconda/albatradis/badges/platforms.svg)(https://anaconda.org/bioconda/albatradis)
[![水蟒服务器徽章](https://anaconda.org/bioconda/albatradis/badges/downloads.svg)(https://anaconda.org/bioconda/albatradis)
`````
conda install-c conda forge-c bioconda albatradis
````

docker
安装[docker](https://www.docker.com/)。有一个Docker容器是从Albatradis的最新版本自动生成的。要安装它:

```
docker pull andrewjpage/albatradis
````

age/albatradis albatradis xxxxx
````




```
用法:albatradis[options]embl file condition\u plot files control\u plotfiles

tradis analysis


位置参数:
embl格式的emblfile注释文件
plotfiles输入打印文件(可选gzip)。必须有
相等数量的条件和控制文件


(默认值:1)
--迭代次数,-i迭代次数
重新扫描的次数(默认值:1)
--最小块minimum_block,-b minimum_block
比较中必须在1个块中的最小读取数(默认值:100)
--最小日志f c minimum_logfc,-f minimum_logfc
最小日志折叠更改+/—(默认值:1)
--最小日志cpm minimum_logcpm,-c minimum_logcpm
每百万的最小日志计数+/—(默认值:8.0)
--最小阈值最小阈值,-m最小阈值
仅包括具有此数字或更大值的插入站点
插入(默认值:5)
--最小比例插入最小比例插入,-d最小值mum_propertion_insertions
如果插入的比例比
控件低,则不要调用低于此
级别的减少的插入(默认值:0.1)
--不要使图正常化,-n
不要使输入图正常化(默认值:false)
--前缀前缀,-o前缀
输出目录前缀(默认值:output)
--p value pvalue,-p pvalue
不报告高于此p值的任何内容(默认值:
0.05)
--qvalue qvalue,-q qvalue
不报告高于此q值的任何内容(default:
0.05)
--严格的_信号,-g要返回的组合图中必须存在一个结果(默认值:false)
--使用_注释,-a使用引用注释而不是滑动的
窗口(默认值:false)
--素数特征_-size素数特征_-size,-z prime_feature_size
添加5/3 prime块时的功能大小(当
--使用_注释(默认值:198)
--窗口间隔窗口间隔,-l窗口间隔
窗口间隔(默认值:25)
--窗口大小窗口大小,-w窗口大小
窗口大小(默认值:100)
--verbose,-v在分析运行时打印有关分析的详细信息(默认值:false)
--调试打开调试(默认值:false)
--版本显示程序的版本号并退出这是一个EMBL格式的带注释的参考基因组。它可以从ebi网站下载。

必须在所有情况下使用相同的参考基因组,并且必须与EMBL文件匹配。
先提供条件,然后提供控制。条件数必须与控件数匹配,每个条件中至少有一个。理想情况下,每一个都需要两个或多个。


此选项允许您跨越这些间隙以形成更多的连续块,从而获得更整洁的结果。如果设置得太高,则不同的不同机制将合并在一起,从而产生错误的结果。

这允许你逐渐地识别出通常会被淹没的微弱信号。没有自动停止,因此如果迭代次数太多,将增加误报次数。

如果你做一个散点图实验变化,低丰度等于更大的变化。这个硬最小阈值消除了大量噪声。

g折叠在插入位点间的变化情况视为显著。它必须是整数。
BR/>最小极小对数CpMy:考虑每百万次的最小日志数。它必须是一个整数,近似等于相对丰度。

这将控制最小阈值。任何少于这个数字的插入位点都将在实验开始时设置为零。

如果条件和控件之间的差异太大,那么统计数据就会开始崩溃,特别是在调用减少的插入次数时,因为缺少数据可能是由于插入/读取的总次数而不是实际的次数。这是允许的最小比例。

如果愿意,可以将其关闭。

\uu prefix:输出目录的前缀。您可能希望每次运行脚本时都更改此值。

你可能想进一步降低价值,这取决于你有多冒险。如果设置得太高,则会得到更多错误的结果,如果设置得太低,则可能根本不会得到任何结果。


您可以使这一点更加严格,因为还要求组合的数据还必须有一个重要的信号。这将减少识别的基因数量,但也可能减少错误信号。

使用注释:默认情况下,软件使用滑动窗口来识别重要信号。您可以选择使用通过输入embl文件传入的带注释的基因。每个基因还增加了一个5'和3'的特征,这样你就不会错过基因间区域的信号,也可以识别上下调节。

素特征大小:当你——使用注释5'和3'特征是围绕每个基因创建的。这将控制这些特征在基中的大小。

请确保它小于或等于windows的大小,否则您将丢失部分基因组。理想情况下,最大值应为窗口大小的一半。

如果你把这个设置得太高,你只会得到很强的信号,所以会错过很多。如果设置得太低,由于自然的实验变化,你会得到大量的假阳性。窗口大小应该是平均插入密度的10倍左右,因此如果每10个基插入一次,则窗口大小应该是100个基。



例如,它为每个基因增加了5'和3'特征。它可以在artemis中可视化。

它包含一个制表符分隔的电子表格,以下面的格式详细说明了被识别为有趣的基因。第一列是从输入注释文件派生的基因名。如果在一个基因间区域识别出一个信号,则给出开始和结束坐标。下一列是机制的分类,如上下调节、击倒、未分类等…第3列和第4列是相对于输入注释文件的基因开始和结束的坐标。maxlogfc是maximu在基因(或5’/3’)中观察到的信号的m对数倍变化。四舍五入到最接近的整数。如果信号在单一方向上最强,则报告该方向上的最大对数折叠变化,而不是组合分析的值。"表达式"列指示基因插入量是增加还是减少。"方向"列指示主要检测到的有效插入的方向(如果两个方向都适用,则为"无方向")。最后,最后一列给出了上游基因,这个基因通常与这个机制有牵连。


124;增加插入向前abc
yxy上调| 135 234 1减少的插入反转的efg

uu调节的u基因报告.csv:这是gene报告.csv文件的过滤版本,但仅包括识别为上调或下调的基因。如果没有用这种模式识别基因,就不会创建文件。只有当实验包括一个发起人时,这才是真正有用的。

这是gene_report.csv的原始数据。它列出了每个基因或滑动窗口,并可选地列出了一个基因对应的5'和3'特征。前两列列出基因的名称或给出滑动窗口的坐标。第三列列出了基因的注释函数(如果注释文件中有)。数值列是由edger导出的。第4列给出了条件和控件之间的对数折叠变化。第5列给出了百万分之几的对数,可以认为是相对丰度。最后一列显示了在条件和对照之间的重要性是如何变化的,因此基因在对照和条件中总是不必要的,或者在所有情况下都是必要的。不过,更有趣的是,控制和条件之间的重要性发生了变化,这表明了一个巨大的机械变化。

| locus_tag | gene_name | function | logFC | logCPM | PValue | q.value | Essentiality |
| --- | --- | --- | --- | --- | --- | --- | --- |
| thrL | thrL | product | -0.4327 | 4.1269 | 0.5477 | 0.8177 | always_nonessential |
| thrL__5prime | thrL__5prime | product | -0.1208 | 4.5885 | 0.8555 | 0.9521 | always_nonessential |
| thrl thrl thrl thrl thrl thrl thrl thrl thrl产品1.0268 4.9723 0.1227 0.4258总是非重要



仅插入在分析过程中考虑了相反的方向。

它由每行上的2个空格分隔整数组成,其中一行对应于参考基因组中的一个碱基。正整数表示插入增加,负整数表示插入减少。





albatradis-presence_-existance

运行albatradis脚本后,它会生成gene_报告文件。此脚本执行比较分析并输出热图、组合电子表格、图形和树(树状图)。

```
用法:albatradis-presence-existence-embl file-gene-reports

基因报告电子表格

s当它运行时(默认值:false)
--调试打开调试(默认值:false)
--版本显示程序的版本号并退出MBL格式。它可以从ebi网站下载。

每个条件都有一个,因此这里提供的所有条件都允许比较条件。最好将条件的名称添加到文件名中,以便在输出中更容易识别。


__:一个制表符分隔的电子表格,包含每个条件下每个基因的log fold change整数值。通常它是一个巨大的稀疏矩阵,所以最好用脚本来处理它。


0
条件3 0 8 0 0|
cond4 1 0 9 0


uu-filter_-logfc.csv:与all_u-logfc.csv文件相同,除了在至少一个条件下只保留具有显著信号的基因。这很容易手动查看。

le树状图(tree)以png格式表示条件之间的关系,基于具有显著信号的共享基因数。

nj_newick_tree.tre_u:一种newick格式的邻域连接树,基于具有显著信号的共享基因的数目,从距离矩阵创建。此树可以在FigTree或任何数量的不同应用程序中显示。

这是一种标准的图形格式,具有强大的api支持。它可以与gephi交互可视化。每个条件和显著基因有一个节点。边缘表示在某个条件下发现基因的位置,连接两个节点。然后,这很好地显示了共享操作机制的网络。

一个基因由一行表示。

所以只有在每种情况下都能找到的基因(共同的行为模式)才在文件中。基因由1行表示。

您可以获取多个gene_report.csv文件并对其执行set操作。如果你知道一些条件应该合并在一起,因为机制是相同的。

```
用法:albatradis-gene_reports[选项]gene_report1.csv gene_report2.csv…


操作gene_report.csv文件,例如执行set操作

ORT电子表格

可选参数:
-h,--help显示此帮助消息并退出
--前缀前缀,-o前缀
输出目录前缀(默认:输出)
--详细,-v打印有关分析的更多信息,同时
运行(默认值:false)
--调试打开调试(默认值:false)
--版本显示程序的版本号并退出
````

ort.csv文件。每个条件都有一个。


_csv文件,由所有输入文件的并集组成。一个基因由一行表示。

所以只有在每种情况下都能找到的基因(共同的行为模式)才在文件中。一个基因由一行表示。



作为质量控制指标,查看数据是否有偏差是很有用的。基本上,您采用滑动窗口,计算每个窗口中的读取次数,然后根据其他条件和其他条件绘制这些值。这是一个对数刻度,异常值是有趣的点。

```
用法:albatradis scatter plot[选项]--控件1.plot--控件2.plot--条件1.plot--条件2.plot


所有参数:
-h,--help显示此帮助消息并退出
--控件,-c控件
控件文件(使用2个或更多)(默认值:无)
--条件条件条件,-d条件
条件文件(使用2个或更多)(默认值:无e)
--窗口大小窗口大小,-w窗口大小
窗口大小(默认值:50)
--输出文件输出文件,-o输出文件
输出文件名前缀(默认值:散点)
--正常化,-n使文件正常化(默认值:false)
--verbose,-v在运行时打印出更多信息(默认值:
false)
--调试打开调试(默认值:false)
--版本显示程序的版本号并退出插入控件的站点图,其中必须有2个或更多。

间隔设置为窗口大小。


uu output file:输出文件前缀。




n png格式。



它被用作albatradis的一部分——使用注释特性,因此您可能不需要它,因为注释文件保存在输出目录中。< BR>``
用法:albatradis annotation[options]embl file

age和exit
--功能大小功能大小,-s功能大小
功能大小(默认值:198)
--输出文件输出文件,-o输出文件
输出文件(默认值:output.embl)
--详细,-v打印出有关分析的详细信息当它运行时(默认值:false)
--调试打开调试(默认值:false)
--版本显示程序的版本号并退出EMBL格式。它可以从ebi网站下载。


这将控制这些特征的大小(以碱基为单位)。


###albatradis-artemis_project
有时您希望查看artemis中的插入站点图。打开不同的复制和组合可能是一项相当手工的任务。此脚本将从电子表格生成project.properties文件,该电子表格由artemis(从当前工作目录)自动加载。这样可以更快地查看多个不同的插入站点图。

```
用法:albatradis-artemis_project[options]reference experiments_metadata.csv


创建artemis项目文件

positional arguments:
reference reference embl file
experiments_元数据实验元数据电子表格


可选参数:
-h,--帮助显示此帮助消息并退出
--控件,-c控件
控件文件(可以多次使用)(默认值:无)
--输出文件输出文件,-o输出文件ile
输出文件名(默认值:project.properties)
--verbose,-v在运行时打印出更多信息(默认值:
false)
--调试打开调试(默认值:false)
--版本显示程序的v版本号和出口
```
可从EBI网站下载。

artemis项目文件的名称。如果你改变了这一点,那么artemis就不能工作了。


NSE)。

反馈/问题
请报告任何问题或提供反馈请访问[问题页面](https://github.com/quadram institute bioscience/albatradis/issues)。如果您对软件进行了改进,请通过[拉取请求](https://github.com/quadram-institute-bioscience/albatradis/lauls)将更改发送给我们,以便整个社区都能从您的工作中受益。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java应用程序不是在Eclipse中运行,而是在命令行中运行   swing Java图形组件问题。似乎找不到错误   我需要键盘。close();让代码正常工作?   Springboot中的java HttpSession   抽象语法树我想添加一个语句。我试图解析它,java解析器异常被抛出。如何克服它?   java Hibernate:清理会话   具有不连续子集的java划分问题   java正则表达式查找最后一个冒号后的字符串   java从SpringShell执行OS命令   Java扫描器字符串输入   java字符串索引越界异常(charAt)   java执行器服务终止被卡住   Springockito没有继承java@ContextConfiguration   java如何为一个servlet映射多个url   java安卓获取命令的stderr   java生成类型。表:数据库中的大数字   安卓 Getter Setter返回NothingJava