大分子疏水区或带电区的聚类分析。程序基于dbscan算法。

hydrocluster的Python项目详细描述


水力聚类-生物模拟工具

简短说明

程序HydroCluster用于确定疏水性物质的位置、大小和含量, 蛋白质分子中的亲水团簇和带电团簇。程序基于dbscan算法。

关键词:分子模拟,生物信息学,蛋白质结构, 疏水核,疏水团簇,dbscan

安装

pip install --upgrade hydrocluster

(或默认Python2版本的Distributive中的pip3)

用户界面

命令行

使用命令"hydrocluster"调用程序,然后 参数:

hydrocluster [-h][-i INPUT][-emin EMIN][-emax EMAX][-es ESTEP][-smin SMIN][-smax SMAX][-g {tkgui,cli,testlist}][-o OUTPUT][-c CHAINS][-rl RESLIST][-pt{hydropathy,menv,fuzzyoildrop,nanodroplet,aliphatic_core,hydrophilic,positive,negative}][-pH PH][-sc {si_score,calinski,dbcv}][-nf][-na][-eps EPS][-min_samples MIN_SAMPLES]

参数:

-h,--帮助 显示帮助信息并退出

-i输入,--input输入 输入文件名(pdb,cif,ent,.hjson)-pdb文件名,cif文件名, testlist的个人id pdb或hjson配置文件名

-emin emin,--emin emin
最小每股收益值(_)。默认值=3.0

-emax emax,--emax emax
最大每股收益值(_)。默认值=15.0

-es estep,--estep estep
每股收益(_)。默认值=0.1

-smin smin,--smin smin
最小最小样本数。默认值=3

-smax smax,--smax smax
最大最小样本数。默认值=50

-g{tkgui,cli,testlist},--gui
用户界面模式。默认值为'tkgui'(tkgui-图形界面,cli-命令 行,testlist-使用testlist模块进行数据处理(参见-i filename.txt和数据库的-o文件名)。

-o输出,--输出 输出目录名/文件名或数据库名

-c链,--链链
选定的链。默认值=无

-rl reslist,--reslist reslist
选定氨基酸残基。默认值=无

-pt{水疗,menv,fuzzyoildrop,纳米液滴,脂肪核,亲水,正,负},-可接受
用于加权的属性表。默认为"水疗"

-ph值
计算部分电荷(正电荷或负电荷)的pH值。默认值=7.0

-sc{si_score,calinski,dbcv},-score{si_score,calinski,dbcv}
得分系数。默认值='calinski'

-nf,--噪声滤波器 启动计分功能的噪音过滤器(不推荐!!!!)。

-na,--noauto
无自动模式。

-eps每股收益 每股收益值(_)。默认值=3.0

-最小样本最小样本 最小采样值。默认值=3

在没有任何参数的情况下启动氢群集时,程序将打开 带图形界面。

示例:

hydrocluster -i 1atg.pdb -g cli -o 1atg

通过命令行界面和文件名处理file_name.pdb 返回时的文件夹

file_name文件夹由file_name.py文件组成,用于处理 Pymol,二进制文件(.dat),保存会话状态,文件名.log文件 保存日志数据和两个带图片的PNG文件。

hydrocluster -g testlist -i defaultt.hjson

读取配置文件default.json并由testlis处理。配置文件的示例(带有参数注释)可以在https://github.com/alashkov83/hydrocluster/blob/master/pdb-lists/default.hjson" rel="nofollow">https://github.com/alashkov83/hydrocluster/blob/master/pdb-lists/default.hjson上找到。将返回project_name.db文件和project_name_数据文件夹,该文件夹由具有数据文件的树结构组成。

图形用户界面

gui是用tkinter实现的。它由一个面板组成,用于选择 操作模式,聚类的图形表示窗口 结果聚类分析,以及显示日志文件的窗口。

在开始使用图形界面时, 必须选择所需的疏水性/亲水性表 在模式选择窗口的子窗口中,选择m方法用于 在"度量"窗口中对群集进行评分,并手动运行(手动模式->; 启动)或自动操作模式(自动模式->;启动) 底层窗口。在自动模式下,最佳参数 通过枚举在给定的 边界和给定的步骤。工程完工后 自动模式,单击"选项"->;"解决方案分析"->;"自动调整颜色映射"时,可以 对选择最优值的过程进行图形解释 值即依赖于min_samples(eps)和min_samples(eps 3)。 与最佳参数对应的点标记在 颜色:

聚类分析窗口显示 程序在蛋白质分子中选择的簇。适当的MTNU 节允许您在图像中创建坐标网格并获得简短的注释 在图片上。

log窗口显示聚类的数值结果,即 链和簇的数量、噪声百分比和最优 超参数(eps,min_samples)的值和使用的度量。 进一步的大分子研究可以用pymol进行。 程序(选项->;openpymol)。

菜单选项:

文件->;

打开文件-打开磁盘上的pdb或mmcif文件
打开id pdb-从rscb pdb数据库中打开id pdb
加载状态-加载程序状态,保存在文件中
保存pymol脚本-保存脚本(.py)以进一步处理pymol
保存状态-将程序的当前状态保存在文件中
保存图片-将聚类结果保存为png格式文件
保存日志-保存当前会话的日志文件
退出-退出程序

选项->;
select clustering solution->;by local max(min)-显示按局部评分极值进行聚类分析的其他解决方案,以便选择其
select clustering solution->;by max(min)values-按评分值显示聚类分析的其他解决方案,以便选择其
解决方案分析->;自动调整颜色映射-显示聚类结果得到的图形 参数选择。标记点对应eps和min_样本的最优值
解决方案分析->;自动调谐三维地图-显示聚类后获得的三维图形 参数选择
解决方案分析-按参数扫描-当第二个参数固定时,按其中一个参数(eps或min_samples)扫描聚类解决方案的某些值
打开Pymol-打开Pymol以进一步显示数据
关于蛋白质-显示有关蛋白质的信息
打印设置->;打印网格-在群集分析窗口中生成坐标网格
绘图设置->;绘图图例-显示图片的简要说明
DMOD(实验,复选框)-修改插值距离,而不是簇化点权重。moddist(u,w)=dist(u,w)/(wu)/2),其中w和u-点的加权系数
清除日志-清除相应窗口中的日志信息

帮助->;
about-显示有关安装在计算机上的程序、其许可证和版本以及scikit learn版本的信息
自述-打开系统Web浏览器并显示本文

理论

疏水核和疏水团簇在 蛋白质的折叠,是重要功能的骨架 酶蛋白的氨基酸残基。在配体的情况下 两亲性,疏水团簇本身包含在 分子的重要功能区。互动 例如,在评估 分子对接解决方案。HydroCluster程序基于 基于密度的噪声应用空间聚类(dbscan)[1]。 氨基酸残基的原子坐标、类型和描述 (A.R.)和化学组[2]从pdb、mmcif格式的文件加载,或直接从 蛋白质数据库。对于相对表中的每个A.R.(或化学组) 计算了非氢原子的疏水质心。作为权重 在聚类分析中,A.R.[3-7](基团[2])疏水性的各种表在 使用文献(见表1或表2)。单独,用于群集 带电氨基酸残基的计算功能 边群部分电荷模的加权系数 根据公式,从 Henderson-Hasselbach方程,已实现[8]。替代方案:修改插值距离, 取而代之的是聚集点权重。moddist(u,w)=距离(u,w)/(w u)/2); 其中w和u-点的加权系数。作为超参数dbscan使用 ε邻域半径(eps)和最小邻域数(最小样本数)。EPS定义为 质量中心之间的最大距离(以埃(_)为单位) 疏水的A.R.(或化学基团),在一个簇中相邻。这个 最小样本/每股收益率与最大分布成正比 疏水性A.R.(或化学基团)的质心密度。 内部聚类验证措施(见表3) 作为聚类分析的质量标准。为了 形状复杂的集群,最好使用轮廓 系数。同时,卡林斯基和哈拉巴斯得分, 元素和星团中心之间的距离, 正确估计密度最高的星团区域。这个 从结构的角度来看,有兴趣的领域 蛋白质的组织。dbscan算法的一个特点是 聚类结果对参数-eps和 最小样本。Hydocluster实现了这些参数的选择 只需在用户定义的边界上迭代它们的值, 然后根据最大化(最小化)准则对结果进行排序 相应估计系数的值。

表1.氨基酸残基的标准化(丙氨酸)疏水重量

<表><广告>A.R.水疗[3]模糊水滴[4]菜单[5]纳米液滴[6]脂肪族[7]< /广告><正文>< Valu/Td>2.3331.4182.520.867列于2.1111.3692.640.904 ILE 1.5442.941.016 PHE1.5561.5832.580.963 - Trp -1.4972.030.900 -相遇< /TD>1.0561.4481.640.799 - Cys1.3891.7483.480.588 -< -0.5381.820.424 - SE/< TD> - - -0.372 - GLY - - -0.477 -

表2.化学(rekker)基团的疏水重量[2]

<表><广告>化学自由基 疏水性重量 < /广告><正文>c_h_(苯基)1.903 CH 0.315甲烷0.519ch_0.724吲哚 1.903

表3.内部聚类验证措施

<表><广告>评分函数 值范围 最佳值实现 纸张 < /广告><再见>卡林斯基·哈拉巴斯得分0->;最大值scikit学习(9)< /TD>轮廓得分 - 1…1 最大值scikit学习[10]s_dbw0->;最小值内部[11,12]

要求

  • python 3.4或更高版本(仅支持cpython)
  • psutil
  • 进度条2
  • matplotlib>;=1.5.1
  • numpy=1.14.2
  • scikit_learn>;=0.19.1
  • Biopython=1.71
  • mmtf python>;=1.1.0
  • msgpack>;=0.5.6

要方便地浏览数据库文件,您需要一个用于sqlite的数据库浏览器 (https://sqlitebrowser.org)。建议安装Pymol 分子查看器(版本:1.7+)。

对于MS Windows:对于Windows使用anaconda(https://anaconda.org)- 它包括所需的大多数依赖项。但是巨蟒和 msgpack在anaconda上不可用-需要使用pip。定义环境 可变pythonionecoding到utf-8。正确显示埃 符号使用包含此符号的控制台字体(例如,SimSun字体 家庭)

参考文献

  1. Ester,M.,H.P.Kriegel,J.Sander和X.Xu,in:第二届知识发现和数据挖掘国际会议论文集,波特兰,或AAAI出版社,226-231。1996
  2. R.Mannhold,R.F.Rekker在药物发现和设计中的观点,18:1–18,2000。
  3. 基特,杜立特。J.mol Bio.1982。157,105-132.
  4. Brylinski M,Konieczny L,Roterman I.Int J生物信息研究应用。2007年;3(2):234-60。
  5. D.Bandyopadhyay.E.L.Mehler.蛋白质2008.72.646-659
  6. 朱春清,高玉荣,李海涛等;//proc.NAS。2016.113.12946.
  7. Ikai,A.J.1980年。生物化学杂志881895-1898年。
  8. Dexter S.Moore生化教育13(1)1985。
  9. Calinski T.,Harabasz J./《统计学中的通信》。1974。三。1、
  10. 罗素P.计算机。APPL数学。1987。20。53、
  11. M.Halkidi和M.Vazirgiannis,ICDM,华盛顿特区,美国,2001年,第187-194页。
  12. 汤俊丹,H.J.电子(中国)(2009)26:258.https://doi.org/10.1007/s11767-007-0151-8

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
另一个布局上的java Access文本视图   安卓在Java中,我什么时候应该用*导入整个包,而不是从包中导入单个对象?   JavaSpringMVC:请解释@RequestParam和@ModelAttribute之间的区别   java Flyway Ant构建未迁移   java“没有可供下载的文件”   如何解决java静态名称冲突?   我是否需要框架来补充JavaEE6、JSF2 WebApp?哪一个?   java如何传递HttpServletRequest参数?   只有java的视频不会播放声音。为什么?   java在Maven3中做这样的属性重写工作吗?   java计算Android中两个标记之间的距离   Javascript页面加载中的java复选框持久性问题   java序列化lambda函数的映射   java使用jersey、maven和eclipse配置swagger   java我可以在oncreate方法之外使用setContentView吗?   java在使用JAXRS响应类返回实体时遇到异常   java规范了加密和解密文本的文本编写方法   java如何更改ChoiceBox的默认大小?   java在Android上暂时禁用PIN/密码锁