脊椎动物中保守tfbss的鉴定工具。

TFBS-footprinting的Python项目详细描述


tfbs_示意图

logo"transcription factors"通过kelvin13派生而来,用于cc by 3.0


完整文档可在以下位置获得:阅读文档

1背景

基于jaspar数据库中的结合数据,tfbs足迹法使用575个位置权重矩阵(pwms)计算预测目标物种(如智人)中的转录因子结合位点(tfbs)。来自各种来源的额外实验数据用于支持或贬低这些预测:

  • 同源哺乳动物物种序列的dna序列保守性
  • 接近CAGE支持的转录起始位点(TSS)
  • 1800多个样本中靶基因与预测转录因子(tf)表达的相关性
  • 接近芯片顺序确定的tfbss(gtrd项目)
  • 接近影响目标基因表达的质量性状位点(eqtls)(gtex项目)
  • 接近CPG
  • 接近ATAC序列峰值(编码项目)

2输出

  • 图中显示了映射到目标物种启动子上的Top_x_tfs最高得分(结合亲和力得分)tfbss(ensxxxxxxxxxxx_u[物种组].promoterhisto.svg)。 示例https://rest.ensembl.org/info/compare/species_sets/epo_low_coverage?content type=application/json

    4.1输入

    • 选项1:CSV参数

    sample_csv

    • 选项2:ENSEMBL转录ID的简单文本文件

    sample-id

    • jaspar tf id文件(不需要)

    示例IDhttps://github.com/thirty6f/tfbs_footprinting"的示例文件tf悱ids.txt) [默认:所有JASPAR TFS]

  • --目标物种-s [默认值:"智人"]-目标物种(字符串),选项位于https://github.com/thirty6f/tfbs-footprinting/blob/master/readme.md。其他物种的tfs保护将基于首先在该物种中识别它们。
  • --物种_群,-g ("哺乳动物"、"灵长类"、"蜥脚类"或"鱼") [默认值:"哺乳动物"]-一组物种(字符串),以确定内部TFS的保护。你的目标物种应该是这个物种组的成员(例如 "智人"和"哺乳动物"或"灵长类动物")。这个 "灵长类"没有低覆盖率版本。组和成员在https://github.com/thirty6x/tfbs-footprinting/blob/master/readme.md 6-species中列出。
  • --覆盖范围,-e
    ("低"或"高")[默认值:"低"]-使用哪种ENSEMBL EPO物种对齐。低覆盖率包含的物种明显更多,建议采用。灵长类动物没有低覆盖率版本。
  • --促进剂-pb (0-100000)[默认值:900]-分析中要包括的TSS上游核苷酸数(整数)。如果该数字为负,则起点将在TSS的下游,终点则需要在更下游。
  • --促销员-PA (0-100000)[默认值:100]-分析中要包括的TSS下游核苷酸数(整数)。如果该数字为负,则终点将位于TSS的上游。然后起点需要进一步向上游。
  • --顶部x-tfs,-tx (1-20)[默认值:10]-要包含在output.svg图中的唯一tfs的数目(整数)。
  • --pval,-p 用于确定分数截止的p值(浮动)(范围:0.1到0.0000001)[默认值:0.01]
  • --exp_data_update,-更新 下载最新的实验数据文件用于分析。如果"数据"目录不存在(例如首次使用),将自动运行。

5过程

遍历每个用户提供的Ensembl转录ID:

  1. 从用户定义物种组(哺乳动物、灵长类动物、鱼类、蜥脚类)的ENSEMBL数据库中检索EPO对齐的同源序列,以获取用户提供的转录物ID启动子,在用户定义的TSS相对起始/终止位点之间。
  2. 编辑检索到的对齐方式:
  3. < > >
    • 用空格字符"-"替换与核苷酸(ACGT)不对应的字符
    • 从对齐中删除仅间隙的列。
    1. 从jaspar-po生成位置权重矩阵(pwms)位置频率矩阵(pfms)。
    2. 使用全部或用户定义的pwms列表对目标物种序列进行评分。
    3. 保持对数似然得分大于对应于p值0.001或用户定义p值的得分阈值的预测。
    4. 当目标物种的实验数据可用时,对目标序列区域的以下各项进行评分:
    • 同源哺乳动物物种序列的dna序列保守性
    • 接近CAGE支持的转录起始位点(TSS)
    • 1800多个样本中靶基因与预测转录因子(tf)表达的相关性
    • 接近芯片顺序确定的tfbss(gtrd项目)
    • 接近影响目标基因表达的质量性状位点(eqtls)(gtex项目)
    • 接近CPG
    • 接近ATAC序列峰值(编码项目)
    1. 计算"结合亲和力得分"作为所有实验数据的得分之和。
    2. 根据结合亲和力得分对目标物种预测进行排序,生成一个矢量图形,显示映射到目标转录物启动子上的前10个(或用户定义的)唯一tfs,以及如下所述的附加输出。

    6种

    可以将任何列中任何物种的任何ensembl转录物的启动子区域与同一列的其他成员进行比较,以确定jaspar数据库中描述的575个转录因子的保守结合位点。Enredo Pecan-Ortheus管道用于在每一列物种之间建立全基因组比对。epo_low'表示该列还包含当前版本的测序仍被认为覆盖率较低的基因组。由于物种数量明显更多,我们建议使用低覆盖版本,除了灵长类比较没有低覆盖版本。此列表可能无法完全响应 <表><广告> 低等哺乳动物 epo_low fishepo_low sauropsids 哺乳动物 灵长类动物 epo鱼环氧丙烷 < /广告><正文>大熊猫墨西哥阿斯蒂亚纳克斯阿纳斯·普拉蒂希恩科斯牛刺槐 丹尼奥·雷里奥卡罗莱宁病 牛丹尼奥·雷里奥卡罗莱宁病 刺槐 氯仿 急性胃溃疡加卢斯加卢斯刺槐 加杜斯莫华白花仙人掌犬科动物大猩猩 眼鳞片虫加洛帕沃河豚犬科动物急性胃溃疡加卢斯加卢斯氯仿 智人 大羚羊内脏带绦虫豪猪 眼鳞片虫加洛帕沃河豚卡巴勒斯马猕猴 四齿龙 氯仿 尼罗罗非鱼中华鳖费利斯卡图斯平底鞋霍夫曼尼河大羚羊内脏带绦虫大猩猩 帕皮奥阿努比斯新墨西哥州达斯皮斯台湾青霉智人 Pongo_Abelii二倍体 塔基夫古鲁布里佩斯猕猴 棘球蚴 四齿龙 小肌卡巴勒斯马黄斑剑鱼鼠兔欧罗巴 绵羊座猫科动物平底鞋大猩猩-u大猩猩无肛乳头 智人 Pongo Abelia三线黄疸 褐家鼠非洲罗克索塔苏斯克罗法猕猴小白蛾musu肌野马透明性肌炎白原游牧动物奥乔托纳原则鼠兔 加内蒂耳狐猴绵羊座平底鞋无肛乳头 Pongo Abelia卡彭斯普罗卡维亚吸血鬼翼龙褐家鼠索雷克斯-阿拉内乌斯苏斯克罗法锡里克塔芋感兴趣的图帕亚Tursiops-u truncatus维丘格纳帕科斯

    欢迎加入QQ群-->: 979659372 Python中文网_新手群

    推荐PyPI第三方库


热门话题
java IntelliJ找不到依赖项选项卡   java向字符串数组string[]添加元素并在Junit中测试结果   如何在eclipse中获取活动java项目的名称   如何使用java在mysql中插入时间   java ArrayList更新了插入一行,但Jtable仍然没有刷新   如何在JavaSwing中命名坐标(点)   java Matcher/模式不打印   java错误地设置了arraylist   使用UsernamePasswordCredential提供程序的java列表Azure AD   java在HTTP请求中设置UTC时间   未加载事件:jquery完整日历Java集成   java Maven插件依赖项无法从内部repo解析依赖项   Maven更新重置Java版本   java如何向中添加图片。带有Apache POI XWPF的docx,但不指定其大小   Java最大函数递归