在condor集群上运行k-means的包

condor-kmeans的Python项目详细描述


以秃鹰为动力的K-Means实现
----------
<;p align=“center”>;
<;img src=“https://github.com/tansey/condor-k means/blob/master/test/results.png?raw=true“a lt=”example k-means solution“/>;
<;/p>;




此软件包允许您在一个非常大的矢量数据集上运行k-means。你甚至可以将向量流化而不是加载到内存中,只要您可以存储两个向量计数的双倍列表(一个列表用于群集分配ID,一个列表用于每个向量到其群集的距离)。

要群集的向量的csv文件,每行一个向量。一旦安装,您可以简单地运行“k means”命令:

```
kmeans path/to/mydata.csv path/to/save/centroids.csv path/to/save/assignments.csv--num嫒clusters 30--plusplus--stream--condor--condor嫒workers 100--condor嫒username myusername
```

一次超过100份工作。它会将生成的群集质心保存到“centroids.csv”,将生成的矢量保存到群集分配到“assignments.csv”。“--plusplus”命令指定它应该使用k++初始化。`--stream表示将mydata.csv从磁盘流式传输,而不是将其全部加载到内存中。

当前目录用作工作目录。将创建名为“condor”的工作子目录。在每批作业成功完成后,所有临时工作程序文件都会被删除,尽管目录结构会得到维护(如果您愿意,可以稍后使用“rm-rf condor”)。如果其中一个工作进程失败,主进程将抛出一个异常并警告您失败的作业以及在何处查找其输出文件;如果工作进程失败,则不会删除临时文件。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何反射地迭代数组字段?   java NamedQuery错误“具有给定标识符的多行:1”   java无法使用单独类中的计时器更新TextView   兼容性什么时候可以很快使用新的Java功能?   java二叉树路径和   java矩形的性能   java我想从同一个子表在主表中添加两个外键   java如何获取基于特定日期的所有数据?   java javafx、OO编程规则和写入变量类型的选择   java使用带枚举的switch语句   java异步任务生成运行时异常   java为什么JLabel不显示下划线字符?   java如何解析具有可变参数号的函数?   带有按钮的java JavaFX自定义列表单元格:未调用处理程序   java Modelmapper无法映射整个模型?   传递给持久化的java分离实体,包含LatLng列表