从文本fi构建二维数据集

2024-04-26 22:04:19 发布

您现在位置:Python中文网/ 问答频道 /正文

在scikitlearn中,我必须在文本文档集合上实现一个线性SVM分类器。关于特征提取的文档说明了如何只转换可用的数据集、iris等。我需要上传我自己的文本文件集合并进行转换,以便估计器可以使用它。为此,我试着用这个。在

    fil = datasets.load_files('/home/ayushi/Dropbox/Bundeli/corpus/wob/sklearn',    description=None, categories=None, load_content=True, shuffle=True, encoding='utf-8', charset=None, charset_error=None, decode_error='strict', random_state=0)

    vec = DictVectorizer()
    vec.fit_transform(fil).toarray()

现在我得到了这个错误

^{pr2}$

Gaari是一种体裁的名称,是文本需要分类的东西。在

另外,当我试这个的时候:http://scikit-learn.org/stable/auto_examples/svm/plot_iris.html#example-svm-plot-iris-py

使用load_files()来获取我自己的数据并准确地跟踪所有内容,我得到了这个错误。在

    TypeError : list indices should be integer not tuples

但我还是需要把它转换成二维数据集。有人有什么建议吗?在


Tags: 数据nonetrueirisplot错误loaderror
1条回答
网友
1楼 · 发布于 2024-04-26 22:04:19

sklearn.datasets.load_files只将文件加载到内存中,生成字符串,DictVectorizer则需要dict作为输入。您需要一个执行实际特征提取的函数:

data = datasets.load_files('/home/ayushi/Dropbox/Bundeli/corpus/wob/sklearn',
                           encoding='utf-8')
vec = DictVectorizer()
X = vec.fit_transform(extract_features(f) for f in data.data)

其中extract_features是一个特定于数据集的函数,它接受一个字符串并生成一个dict映射特性名称到特征值。在

相关问题 更多 >