我正在用scikit learn为两个标签做文本分类。。我正在用load_files方法加载我的文本文件
categories={'label0','label1'}
text_data = load_files(path,categories=categories)
从以下结构:
^{pr2}$我的问题是当我试着看文本的形状时_数据。数据它返回:
print (type(text_data.data))
<type 'list'>
print text_data.data.shape
AttributeError: 'list' object has no attribute 'shape'
X = np.array(text_data.data)
print x.shape
(35,)
它返回1D数组。。我认为它应该是2D numpy数组或字典,其中第一个用于文本,另一个用于类(label0或1)。。 我错过什么了吗?在
问题是在调用load_files之后,它还不是numpy数组。它只是一个文本列表。您应该使用
CountVectorizer
或TfidfVectorizer
将文本矢量化。在示例:
相关问题 更多 >
编程相关推荐