Python hydrocluster包_程序模块 - PyPI

大分子疏水区或带电区的聚类分析。程序基于dbscan算法。

hydrocluster的Python项目详细描述

水力聚类-生物模拟工具

简短说明

程序HydroCluster用于确定疏水性物质的位置、大小和含量，蛋白质分子中的亲水团簇和带电团簇。程序基于dbscan算法。

关键词：分子模拟，生物信息学，蛋白质结构，疏水核，疏水团簇，dbscan

安装

pip install --upgrade hydrocluster

（或默认Python2版本的Distributive中的pip3）

用户界面

命令行

使用命令"hydrocluster"调用程序，然后参数：

hydrocluster [-h][-i INPUT][-emin EMIN][-emax EMAX][-es ESTEP][-smin SMIN][-smax SMAX][-g {tkgui,cli,testlist}][-o OUTPUT][-c CHAINS][-rl RESLIST][-pt{hydropathy,menv,fuzzyoildrop,nanodroplet,aliphatic_core,hydrophilic,positive,negative}][-pH PH][-sc {si_score,calinski,dbcv}][-nf][-na][-eps EPS][-min_samples MIN_SAMPLES]

参数：

-h，--帮助显示帮助信息并退出

-i输入，--input输入输入文件名（pdb，cif，ent，.hjson）-pdb文件名，cif文件名， testlist的个人id pdb或hjson配置文件名

-emin emin，--emin emin
最小每股收益值（_）。默认值=3.0

-emax emax，--emax emax
最大每股收益值（_）。默认值=15.0

-es estep，--estep estep
每股收益（_）。默认值=0.1

-smin smin，--smin smin
最小最小样本数。默认值=3

-smax smax，--smax smax
最大最小样本数。默认值=50

-g{tkgui，cli，testlist}，--gui
用户界面模式。默认值为'tkgui'（tkgui-图形界面，cli-命令行，testlist-使用testlist模块进行数据处理（参见-i filename.txt和数据库的-o文件名）。

-o输出，--输出输出目录名/文件名或数据库名

-c链，--链链
选定的链。默认值=无

-rl reslist，--reslist reslist
选定氨基酸残基。默认值=无

-pt{水疗，menv，fuzzyoildrop，纳米液滴，脂肪核，亲水，正，负}，-可接受
用于加权的属性表。默认为"水疗"

-ph值
计算部分电荷（正电荷或负电荷）的pH值。默认值=7.0

-sc{si_score，calinski，dbcv}，-score{si_score，calinski，dbcv}
得分系数。默认值='calinski'

-nf，--噪声滤波器启动计分功能的噪音过滤器（不推荐！！！！）。

-na，--noauto
无自动模式。

-eps每股收益每股收益值（_）。默认值=3.0

-最小样本最小样本最小采样值。默认值=3

在没有任何参数的情况下启动氢群集时，程序将打开带图形界面。

示例：

hydrocluster -i 1atg.pdb -g cli -o 1atg

通过命令行界面和文件名处理file_name.pdb 返回时的文件夹

file_name文件夹由file_name.py文件组成，用于处理 Pymol，二进制文件（.dat），保存会话状态，文件名.log文件保存日志数据和两个带图片的PNG文件。

hydrocluster -g testlist -i defaultt.hjson

读取配置文件default.json并由testlis处理。配置文件的示例（带有参数注释）可以在https://github.com/alashkov83/hydrocluster/blob/master/pdb-lists/default.hjson" rel="nofollow">https://github.com/alashkov83/hydrocluster/blob/master/pdb-lists/default.hjson上找到。将返回project_name.db文件和project_name_数据文件夹，该文件夹由具有数据文件的树结构组成。

图形用户界面

gui是用tkinter实现的。它由一个面板组成，用于选择操作模式，聚类的图形表示窗口结果聚类分析，以及显示日志文件的窗口。

在开始使用图形界面时，必须选择所需的疏水性/亲水性表在模式选择窗口的子窗口中，选择m方法用于在"度量"窗口中对群集进行评分，并手动运行（手动模式->；启动）或自动操作模式（自动模式->；启动）底层窗口。在自动模式下，最佳参数通过枚举在给定的边界和给定的步骤。工程完工后自动模式，单击"选项"->；"解决方案分析"->；"自动调整颜色映射"时，可以对选择最优值的过程进行图形解释值即依赖于min_samples（eps）和min_samples（eps 3）。与最佳参数对应的点标记在颜色：

聚类分析窗口显示程序在蛋白质分子中选择的簇。适当的MTNU 节允许您在图像中创建坐标网格并获得简短的注释在图片上。

log窗口显示聚类的数值结果，即链和簇的数量、噪声百分比和最优超参数（eps，min_samples）的值和使用的度量。进一步的大分子研究可以用pymol进行。程序（选项->；openpymol）。

菜单选项：

文件->；

打开文件-打开磁盘上的pdb或mmcif文件
打开id pdb-从rscb pdb数据库中打开id pdb
加载状态-加载程序状态，保存在文件中
保存pymol脚本-保存脚本（.py）以进一步处理pymol
保存状态-将程序的当前状态保存在文件中
保存图片-将聚类结果保存为png格式文件
保存日志-保存当前会话的日志文件
退出-退出程序

选项->；
select clustering solution->；by local max（min）-显示按局部评分极值进行聚类分析的其他解决方案，以便选择其
select clustering solution->；by max（min）values-按评分值显示聚类分析的其他解决方案，以便选择其
解决方案分析->；自动调整颜色映射-显示聚类结果得到的图形参数选择。标记点对应eps和min_样本的最优值
解决方案分析->；自动调谐三维地图-显示聚类后获得的三维图形参数选择
解决方案分析-按参数扫描-当第二个参数固定时，按其中一个参数（eps或min_samples）扫描聚类解决方案的某些值
打开Pymol-打开Pymol以进一步显示数据
关于蛋白质-显示有关蛋白质的信息
打印设置->；打印网格-在群集分析窗口中生成坐标网格
绘图设置->；绘图图例-显示图片的简要说明
DMOD（实验，复选框）-修改插值距离，而不是簇化点权重。moddist（u，w）=dist（u，w）/（wu）/2），其中w和u-点的加权系数
清除日志-清除相应窗口中的日志信息

帮助->；
about-显示有关安装在计算机上的程序、其许可证和版本以及scikit learn版本的信息
自述-打开系统Web浏览器并显示本文

理论

疏水核和疏水团簇在蛋白质的折叠，是重要功能的骨架酶蛋白的氨基酸残基。在配体的情况下两亲性，疏水团簇本身包含在分子的重要功能区。互动例如，在评估分子对接解决方案。HydroCluster程序基于基于密度的噪声应用空间聚类（dbscan）[1]。氨基酸残基的原子坐标、类型和描述（A.R.）和化学组[2]从pdb、mmcif格式的文件加载，或直接从蛋白质数据库。对于相对表中的每个A.R.（或化学组）计算了非氢原子的疏水质心。作为权重在聚类分析中，A.R.[3-7]（基团[2]）疏水性的各种表在使用文献（见表1或表2）。单独，用于群集带电氨基酸残基的计算功能边群部分电荷模的加权系数根据公式，从 Henderson-Hasselbach方程，已实现[8]。替代方案：修改插值距离，取而代之的是聚集点权重。moddist（u，w）=距离（u，w）/（w u）/2）；其中w和u-点的加权系数。作为超参数dbscan使用 ε邻域半径（eps）和最小邻域数（最小样本数）。EPS定义为质量中心之间的最大距离（以埃（_）为单位）疏水的A.R.（或化学基团），在一个簇中相邻。这个最小样本/每股收益率与最大分布成正比疏水性A.R.（或化学基团）的质心密度。内部聚类验证措施（见表3）作为聚类分析的质量标准。为了形状复杂的集群，最好使用轮廓系数。同时，卡林斯基和哈拉巴斯得分，元素和星团中心之间的距离，正确估计密度最高的星团区域。这个从结构的角度来看，有兴趣的领域蛋白质的组织。dbscan算法的一个特点是聚类结果对参数-eps和最小样本。Hydocluster实现了这些参数的选择只需在用户定义的边界上迭代它们的值，然后根据最大化（最小化）准则对结果进行排序相应估计系数的值。

表1.氨基酸残基的标准化（丙氨酸）疏水重量

<表><广告>A.R.水疗[3]模糊水滴[4]菜单[5]纳米液滴[6]脂肪族[7]< /广告><正文>< Valu/Td>2.3331.4182.520.867列于2.1111.3692.640.904 ILE 1.5442.941.016 PHE1.5561.5832.580.963 - Trp -1.4972.030.900 -相遇< /TD>1.0561.4481.640.799 - Cys1.3891.7483.480.588 -< -0.5381.820.424 - SE/< TD> - - -0.372 - GLY - - -0.477 -
表2.化学（rekker）基团的疏水重量[2]
<表><广告>化学自由基疏水性重量 < /广告><正文>c_h_（苯基）1.903 CH 0.315甲烷0.519ch_0.724吲哚 1.903
表3.内部聚类验证措施
<表><广告>评分函数值范围最佳值实现纸张 < /广告><再见>卡林斯基·哈拉巴斯得分0->；最大值scikit学习（9）< /TD>轮廓得分- 1…1 最大值scikit学习[10]s_dbw0->；最小值内部[11，12]要求 python 3.4或更高版本（仅支持cpython） psutil 进度条2 matplotlib>；=1.5.1 numpy=1.14.2 scikit_learn>；=0.19.1 Biopython=1.71 mmtf python>；=1.1.0 msgpack>；=0.5.6 要方便地浏览数据库文件，您需要一个用于sqlite的数据库浏览器（https://sqlitebrowser.org）。建议安装Pymol 分子查看器（版本：1.7+）。对于MS Windows:对于Windows使用anaconda（https://anaconda.org）- 它包括所需的大多数依赖项。但是巨蟒和 msgpack在anaconda上不可用-需要使用pip。定义环境可变pythonionecoding到utf-8。正确显示埃符号使用包含此符号的控制台字体（例如，SimSun字体家庭）参考文献 Ester，M.，H.P.Kriegel，J.Sander和X.Xu，in:第二届知识发现和数据挖掘国际会议论文集，波特兰，或AAAI出版社，226-231。1996 R.Mannhold，R.F.Rekker在药物发现和设计中的观点，18:1–18，2000。基特，杜立特。J.mol Bio.1982。157，105-132. Brylinski M，Konieczny L，Roterman I.Int J生物信息研究应用。2007年；3（2）：234-60。 D.Bandyopadhyay.E.L.Mehler.蛋白质2008.72.646-659 朱春清，高玉荣，李海涛等；//proc.NAS。2016.113.12946. Ikai，A.J.1980年。生物化学杂志881895-1898年。 Dexter S.Moore生化教育13（1）1985。 Calinski T.，Harabasz J./《统计学中的通信》。1974。三。1、罗素P.计算机。APPL数学。1987。20。53、 M.Halkidi和M.Vazirgiannis，ICDM，华盛顿特区，美国，2001年，第187-194页。汤俊丹，H.J.电子（中国）（2009）26:258.https://doi.org/10.1007/s11767-007-0151-8 标签：文件 gt 程序算法参数聚类 dbscan pdb 大分子欢迎加入QQ群-->： 979659372 推荐PyPI第三方库 nnfabrik 管道拟合的广义模型 mipt-wann 万恩创造 leo-dens-distributions 高斯分布 coronavirusp 显示冠状病毒信息的CLI命令 roseng ROS发动机 os-android-google-play-translations-maker 这个脚本将创建一个适合上传到googleplay的json文件，作为apk的新的/更新的翻译 intoto 防止攻击的包 torchac PyTorch的快速算术编码 dialogflow-webhook-json 直接使用此库创建webhook JSON响应 printmsg4pypi 用于打印消息的测试包 distributions-gauss-lt 高斯分布 networksearch 搜索网络重叠库 horizonplot 生成地平线图。 vara-feature varafeature库的Python绑定 dlutil 未提供项目说明

导航栏项目描述版本历史下载文件项目链接首页标签许可证: BSD许可证（BSD 3条款）作者信息:: 暂无维护者 alashkov83 最新PyPI项目 italian_vip_says UFx vofs fake_item_generator NerEva django-monologue fio_product_attribute_strict climailsystem pyshape tbb-devel npy-append-arra anthill.tal.macrorenderer odoo11-addon-stock-a uuuu contextil fyl_nester appomatic_renderable teacher chuletas slackbot_ce 最新Python常见问题 Python中两个字典的交集 python中两个字符串上的异或操作数？ Python中两个字符串中的类似句子 Python中两个字符串之间的Hamming距离 python中两个字符串之间的匹配模式 python中两个字符串之间的按位或 python中两个字符串之间的数据（字节）切片 python中两个字符串之间的模式 python中两个字符串作为子字符串的区别 Python中两个字符串元组的比较 Python中两个字符串列表中的公共字符串 python中两个字符串的Anagram测试 Python中两个字符串的正则匹配 python中两个字符串的笛卡尔乘积 Python中两个字符串相似性的比较

hydrocluster 0.2.0

hydrocluster的Python项目详细描述

水力聚类-生物模拟工具

简短说明

安装

用户界面

命令行

参数：

示例：

图形用户界面

菜单选项：

理论

表1.氨基酸残基的标准化（丙氨酸）疏水重量

表2.化学（rekker）基团的疏水重量[2]

表3.内部聚类验证措施

要求

参考文献

推荐PyPI第三方库

nnfabrik

mipt-wann

leo-dens-distributions

coronavirusp

roseng

os-android-google-play-translations-maker

intoto

torchac

dialogflow-webhook-json

printmsg4pypi

distributions-gauss-lt

networksearch

horizonplot

vara-feature

dlutil

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签