大分子疏水区或带电区的聚类分析。程序基于dbscan算法。
hydrocluster的Python项目详细描述
水力聚类-生物模拟工具
简短说明
程序HydroCluster用于确定疏水性物质的位置、大小和含量, 蛋白质分子中的亲水团簇和带电团簇。程序基于dbscan算法。
关键词:分子模拟,生物信息学,蛋白质结构, 疏水核,疏水团簇,dbscan
安装
pip install --upgrade hydrocluster
(或默认Python2版本的Distributive中的pip3)
用户界面
命令行
使用命令"hydrocluster"调用程序,然后 参数:
hydrocluster [-h][-i INPUT][-emin EMIN][-emax EMAX][-es ESTEP][-smin SMIN][-smax SMAX][-g {tkgui,cli,testlist}][-o OUTPUT][-c CHAINS][-rl RESLIST][-pt{hydropathy,menv,fuzzyoildrop,nanodroplet,aliphatic_core,hydrophilic,positive,negative}][-pH PH][-sc {si_score,calinski,dbcv}][-nf][-na][-eps EPS][-min_samples MIN_SAMPLES]
参数:
-h,--帮助 显示帮助信息并退出
-i输入,--input输入 输入文件名(pdb,cif,ent,.hjson)-pdb文件名,cif文件名, testlist的个人id pdb或hjson配置文件名
-emin emin,--emin emin
最小每股收益值(_)。默认值=3.0
-emax emax,--emax emax
最大每股收益值(_)。默认值=15.0
-es estep,--estep estep
每股收益(_)。默认值=0.1
-smin smin,--smin smin
最小最小样本数。默认值=3
-smax smax,--smax smax
最大最小样本数。默认值=50
-g{tkgui,cli,testlist},--gui
用户界面模式。默认值为'tkgui'(tkgui-图形界面,cli-命令
行,testlist-使用testlist模块进行数据处理(参见-i
filename.txt和数据库的-o文件名)。
-o输出,--输出 输出目录名/文件名或数据库名
-c链,--链链
选定的链。默认值=无
-rl reslist,--reslist reslist
选定氨基酸残基。默认值=无
-pt{水疗,menv,fuzzyoildrop,纳米液滴,脂肪核,亲水,正,负},-可接受
用于加权的属性表。默认为"水疗"
-ph值
计算部分电荷(正电荷或负电荷)的pH值。默认值=7.0
-sc{si_score,calinski,dbcv},-score{si_score,calinski,dbcv}
得分系数。默认值='calinski'
-nf,--噪声滤波器 启动计分功能的噪音过滤器(不推荐!!!!)。
-na,--noauto
无自动模式。
-eps每股收益 每股收益值(_)。默认值=3.0
-最小样本最小样本 最小采样值。默认值=3
在没有任何参数的情况下启动氢群集时,程序将打开 带图形界面。
示例:
hydrocluster -i 1atg.pdb -g cli -o 1atg
通过命令行界面和文件名处理file_name.pdb 返回时的文件夹
file_name文件夹由file_name.py文件组成,用于处理 Pymol,二进制文件(.dat),保存会话状态,文件名.log文件 保存日志数据和两个带图片的PNG文件。
hydrocluster -g testlist -i defaultt.hjson
读取配置文件default.json并由testlis处理。配置文件的示例(带有参数注释)可以在https://github.com/alashkov83/hydrocluster/blob/master/pdb-lists/default.hjson" rel="nofollow">https://github.com/alashkov83/hydrocluster/blob/master/pdb-lists/default.hjson上找到。将返回project_name.db文件和project_name_数据文件夹,该文件夹由具有数据文件的树结构组成。
图形用户界面
gui是用tkinter实现的。它由一个面板组成,用于选择 操作模式,聚类的图形表示窗口 结果聚类分析,以及显示日志文件的窗口。
在开始使用图形界面时, 必须选择所需的疏水性/亲水性表 在模式选择窗口的子窗口中,选择m方法用于 在"度量"窗口中对群集进行评分,并手动运行(手动模式->; 启动)或自动操作模式(自动模式->;启动) 底层窗口。在自动模式下,最佳参数 通过枚举在给定的 边界和给定的步骤。工程完工后 自动模式,单击"选项"->;"解决方案分析"->;"自动调整颜色映射"时,可以 对选择最优值的过程进行图形解释 值即依赖于min_samples(eps)和min_samples(eps 3)。 与最佳参数对应的点标记在 颜色:
聚类分析窗口显示 程序在蛋白质分子中选择的簇。适当的MTNU 节允许您在图像中创建坐标网格并获得简短的注释 在图片上。
log窗口显示聚类的数值结果,即 链和簇的数量、噪声百分比和最优 超参数(eps,min_samples)的值和使用的度量。 进一步的大分子研究可以用pymol进行。 程序(选项->;openpymol)。
菜单选项:
文件->;
打开文件-打开磁盘上的pdb或mmcif文件
打开id pdb-从rscb pdb数据库中打开id pdb
加载状态-加载程序状态,保存在文件中
保存pymol脚本-保存脚本(.py)以进一步处理pymol
保存状态-将程序的当前状态保存在文件中
保存图片-将聚类结果保存为png格式文件
保存日志-保存当前会话的日志文件
退出-退出程序
选项->;
select clustering solution->;by local max(min)-显示按局部评分极值进行聚类分析的其他解决方案,以便选择其
select clustering solution->;by max(min)values-按评分值显示聚类分析的其他解决方案,以便选择其
解决方案分析->;自动调整颜色映射-显示聚类结果得到的图形
参数选择。标记点对应eps和min_样本的最优值
解决方案分析->;自动调谐三维地图-显示聚类后获得的三维图形
参数选择
解决方案分析-按参数扫描-当第二个参数固定时,按其中一个参数(eps或min_samples)扫描聚类解决方案的某些值
打开Pymol-打开Pymol以进一步显示数据
关于蛋白质-显示有关蛋白质的信息
打印设置->;打印网格-在群集分析窗口中生成坐标网格
绘图设置->;绘图图例-显示图片的简要说明
DMOD(实验,复选框)-修改插值距离,而不是簇化点权重。moddist(u,w)=dist(u,w)/(wu)/2),其中w和u-点的加权系数
清除日志-清除相应窗口中的日志信息
帮助->;
about-显示有关安装在计算机上的程序、其许可证和版本以及scikit learn版本的信息
自述-打开系统Web浏览器并显示本文
理论
疏水核和疏水团簇在 蛋白质的折叠,是重要功能的骨架 酶蛋白的氨基酸残基。在配体的情况下 两亲性,疏水团簇本身包含在 分子的重要功能区。互动 例如,在评估 分子对接解决方案。HydroCluster程序基于 基于密度的噪声应用空间聚类(dbscan)[1]。 氨基酸残基的原子坐标、类型和描述 (A.R.)和化学组[2]从pdb、mmcif格式的文件加载,或直接从 蛋白质数据库。对于相对表中的每个A.R.(或化学组) 计算了非氢原子的疏水质心。作为权重 在聚类分析中,A.R.[3-7](基团[2])疏水性的各种表在 使用文献(见表1或表2)。单独,用于群集 带电氨基酸残基的计算功能 边群部分电荷模的加权系数 根据公式,从 Henderson-Hasselbach方程,已实现[8]。替代方案:修改插值距离, 取而代之的是聚集点权重。moddist(u,w)=距离(u,w)/(w u)/2); 其中w和u-点的加权系数。作为超参数dbscan使用 ε邻域半径(eps)和最小邻域数(最小样本数)。EPS定义为 质量中心之间的最大距离(以埃(_)为单位) 疏水的A.R.(或化学基团),在一个簇中相邻。这个 最小样本/每股收益率与最大分布成正比 疏水性A.R.(或化学基团)的质心密度。 内部聚类验证措施(见表3) 作为聚类分析的质量标准。为了 形状复杂的集群,最好使用轮廓 系数。同时,卡林斯基和哈拉巴斯得分, 元素和星团中心之间的距离, 正确估计密度最高的星团区域。这个 从结构的角度来看,有兴趣的领域 蛋白质的组织。dbscan算法的一个特点是 聚类结果对参数-eps和 最小样本。Hydocluster实现了这些参数的选择 只需在用户定义的边界上迭代它们的值, 然后根据最大化(最小化)准则对结果进行排序 相应估计系数的值。
表1.氨基酸残基的标准化(丙氨酸)疏水重量
<表><广告>表2.化学(rekker)基团的疏水重量[2]
<表><广告>表3.内部聚类验证措施
<表><广告>要求
- python 3.4或更高版本(仅支持cpython)
- psutil
- 进度条2
- matplotlib>;=1.5.1
- numpy=1.14.2
- scikit_learn>;=0.19.1
- Biopython=1.71
- mmtf python>;=1.1.0
- msgpack>;=0.5.6
要方便地浏览数据库文件,您需要一个用于sqlite的数据库浏览器 (https://sqlitebrowser.org)。建议安装Pymol 分子查看器(版本:1.7+)。
对于MS Windows:对于Windows使用anaconda(https://anaconda.org)- 它包括所需的大多数依赖项。但是巨蟒和 msgpack在anaconda上不可用-需要使用pip。定义环境 可变pythonionecoding到utf-8。正确显示埃 符号使用包含此符号的控制台字体(例如,SimSun字体 家庭)
参考文献
- Ester,M.,H.P.Kriegel,J.Sander和X.Xu,in:第二届知识发现和数据挖掘国际会议论文集,波特兰,或AAAI出版社,226-231。1996
- R.Mannhold,R.F.Rekker在药物发现和设计中的观点,18:1–18,2000。
- 基特,杜立特。J.mol Bio.1982。157,105-132.
- Brylinski M,Konieczny L,Roterman I.Int J生物信息研究应用。2007年;3(2):234-60。
- D.Bandyopadhyay.E.L.Mehler.蛋白质2008.72.646-659
- 朱春清,高玉荣,李海涛等;//proc.NAS。2016.113.12946.
- Ikai,A.J.1980年。生物化学杂志881895-1898年。
- Dexter S.Moore生化教育13(1)1985。
- Calinski T.,Harabasz J./《统计学中的通信》。1974。三。1、
- 罗素P.计算机。APPL数学。1987。20。53、
- M.Halkidi和M.Vazirgiannis,ICDM,华盛顿特区,美国,2001年,第187-194页。
- 汤俊丹,H.J.电子(中国)(2009)26:258.https://doi.org/10.1007/s11767-007-0151-8