用于创建文档功能的工具

Vectors-of-Locally-Aggregate-Concepts的Python项目详细描述


局部聚合概念向量(vlac)

PyPI - StatusPyPI - PythonPyPI - Python

目的

如下图所示,vlac对单词嵌入进行集群,以创建k概念。由于单词嵌入(即300)的高维性,使用球面k-均值进行聚类,因为应用欧几里德距离将导致样本之间的距离差别很小。方法如下。让wi是一个大小为d的单词嵌入,分配给集群中心ck。然后,对于文档中的每个单词,vlac计算每个单词嵌入到其指定的聚类中心的残差的元素和。这会产生k特征向量,每个概念一个,所有大小都是d。然后将所有特征向量连接起来,进行功率归一化,最后应用l2归一化。例如,如果要用大小为300的字嵌入创建10个概念,则生成的文档向量将包含10 x 300的值。

用法

在Python3.5.4中测试。

# Train model and transform collection of documentsvlac_model=VLAC(documents=train_docs,model=model,oov=False)vlac_features,kmeans=vlac_model.fit_transform(num_concepts=30)# Create features new documentsvlac_model=VLAC(documents=train_docs,model=model,oov=False)test_features=vlac_model.transform(kmeans=kmeans)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在Eclipse中使用多个调用在一行上打印java   javajackson序列化问题。只有同一实体的第一个对象可以很好地序列化   Java中Deflate函数的等价充气   使用customlitview的java Android actionbar搜索   java“<T>T get()”是什么意思?(它有用吗?)   目标c使用CommonCrypto使用AES256加密,使用OpenSSL或Java解密   java在运行时更新资源文件   fileinputstream在java中访问并将数据写入现有文件   带集群的java Android Mapbox我希望每个功能都有不同的标记图像   java JDK8>JDK10:PKIX路径生成失败:SunCertPathBuilderException:找不到请求目标的有效证书路径   java使用Hk2生成具有指定构造函数参数的实例   为什么这个系统。出来Java中的println()打印到控制台?   java目录和文件名连接不起作用   使用mockito和通配符绘图的java