使用sklearn_查找kmeans聚类的最重要单词

import pandas as pd from sklearn.preprocessing import OneHotEncoder from sklearn.feature_extraction.text import CountVectorizer from sklearn_pandas import DataFrameMapper from sklearn.cluster import MiniBatchKMeans def import_vectorizer(): vectorizer = CountVectorizer(lowercase = True, ngram_range = (1,1), min_df = .00005, max_df = .01) return vectorizer

def get_X(df): mapper = DataFrameMapper( [ ('text_col', import_vectorizer()), (['cat_col1', 'cat_col2', 'cat_col3', 'cat_col4'], OneHotEncoder()) ] ) return mapper.fit_transform(df)

print("Top terms per cluster:") order_centroids = kmeans.cluster_centers_.argsort()[:, ::-1] terms = vectorizer.get_feature_names() for i in range(50): print("Cluster %d:" % i), for ind in order_centroids[i, :10]: print(' %s' % terms[ind])

1条回答

网友

1楼 · 发布于 2024-04-20 10:22:54

为了记录在案，我在读了这篇post之后解决了这个问题

修改的get_X函数：

def get_X(df):
    mapper = DataFrameMapper(
        [
        ('text_col', import_vectorizer()),
        (['cat_col1', 'cat_col2', 'cat_col3', 'cat_col4'], OneHotEncoder())
       ]
    )

    X = mapper.fit_transform(df)
    X_cols = (
            mapper.features[0][1].get_feature_names()
            + mapper.features[1][1].get_feature_names().tolist()
            )
    return X, X_cols

最后运行以下代码

print("Top terms per cluster:")
order_centroids = kmeans.cluster_centers_.argsort()[:, ::-1]
for i in range(50):
    print("Cluster %d:" % i),
    for ind in order_centroids[i, :10]:
        print(' %s' % X_cols[ind])

相关问题更多 >

编程相关推荐

热门问题

热门文章