流聚簇

aclust的Python项目详细描述


aclust
==
具有自定义距离和相关性的流聚合群集



*聚合群集*是一个非常简单的算法。
这里提供的函数“aclust”是对允许输入流的修改版本的一个简单实现的尝试,这样就不需要读取数据。一下子记住了。大多数聚类算法在一个相关矩阵上操作
,这对于高维
数据可能是不可行的。
BR/>‘ACLASTH’**依赖于一个支持接口(我知道,我知道)的
对象的流,以使调用方有一定的复杂性:
BR/> OBJ。距离(其他)&数字< BR/> OBJ。->;bool

虽然这确实添加了一些基础结构,但我们可以想象一个具有
位置和值属性的类,其中前者是一个整数,
后者是一个数值列表。然后,这些方法将被实现为:


def distance(self,other):
return self.position-other.position

def is_correlated(self,other):
return np.corrcef(self.values,other.values)[0,1]>;0.5

我们可以想象,距离可以返回两个字符串之间的levenshtein距离
,而is-correlated可以表示它们在同一个句子中或在具有相同情感的句子中的存在。

这对于像基因组数据这样的事情很重要,但是在文本中可能会少一些,在文本中可以将max\\u skip参数设置为一个大值来确定内存中保存了多少数据。

有关示例和选项,请参阅函数docstring。函数签名是:

aclust(object\\\\'u stream,max\'u dist,
max\'u skip=1,linkage='single',多个成员=false)

默认值是仅允许将功能添加到与其相关的*最近*群集。


我们可以使用这个方法将每个cpg的一个测试(关联)的数量减少,
每个相关单元测试一次。
完整示例请参见:https://github.com/brentp/aclust/blob/master/examples/methylation-clustering-哮喘.py。

``````
chrom start-end n庘probes哮喘.pvalue哮喘.tstat哮喘。coef
chr1 566570 567501 8 chr1:566570,chr1:566731,chr1:567113,CHR1:567206,CHR1:567312,CHR1:56737348,CHR1:56737358,CHR1:567501 0.4566-0.74-0.74-0.06
CHR1 713985 714021 3 CHR1:713985,CHR1:7140112,CHR1:714021 0.7121 0.1185-1.56-0.13
CHR1 845810 846195,CHR1:845810,CHR1:846155,CHR1:846155,CHR1:846195 0.5913 0.5913 0.54 0.54 0.04
CHR1 848379 84847312,CHR1:56567312,CHR1:56767 8484847340,CHR1:848484848484848379,chr1:848409,chr1:848440 0.3399-0.95-0.06
chr1 854766 855046 7 chr1:854766,chr1:854824,chr1:854838,chr1:854918,chr1:854951,chr1:854966,chr1:855046 0.7482-0.32-0.02
chr1 870791 871546 8 chr1:870791,chr1:870810,chr1:870958,chr1:871033,chr1:871057,chr1:871308,chr1:871441,1:871546 0.2198-1.23-0.11
chr1 892857 892948892948 3 chr 1:892857,chr 1:892914,chr 1:892948 0.2502-1.15-0.05
chr 1 901062 901799 5 chr 1:901062,chr 1:901449,chr 1:901685,chr 1:901725,chr 1:901799 0.6009 0.6004 0.52 0.04
chr 1 946875 9475947091 4 chr 1:946875,chr 1:94686875,chr 1:946875,chr 1:892857.2192857,chr 1:892857,ch947018号,chr1:947091 0.9949 0.01 0.00
```
,这样我们就可以筛选哮喘。p值可以找到与哮喘相关的区域。




我,因此,它可以安装:

pip install aclust




致谢
===


这一想法摘自本文:

sofer,t.,schifano,e.d.,hoppin,j.a.,hou,l.,和baccarelli,a.(2013)。a-聚类:一种新的检测共调节甲基化区域和与暴露相关区域的方法。生物信息学,btt498。


示例使用pull请求实现python的statsmodels的gee:
https://github.com/statsmodels/statsmodels/pull/928

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java泛型和基类   ProcessBuilder或DefaultExecutor启动的“RunAs”子进程的java读取标准输出   java应用程序在尝试登录时突然停止   Java:神秘的Java未捕获异常处理程序[带代码]   java JavaFX NumberAxis自动范围无限循环   最新版本和旧版本冲突的java双Maven依赖关系   java如何导入带有部署变量类名的静态函数?   编译器构造不同的JDK更新会产生不同的Java字节码吗?   java无法在struts 1.1中上载任何超过250 MB大小的文件   java调整jcombobox下拉菜单的宽度   java如何在某些情况下忽略@SQLDelete注释   在Eclipse for Java EE developers edition中禁用HTML警告   java HttpUrlConnection重置请求属性   java@Provider资源未在rest应用程序中注册   java TOP N使用JPA连接   java在使用反射调用方法时区分int和Integer参数