从文本fi构建二维数据集

fil = datasets.load_files('/home/ayushi/Dropbox/Bundeli/corpus/wob/sklearn', description=None, categories=None, load_content=True, shuffle=True, encoding='utf-8', charset=None, charset_error=None, decode_error='strict', random_state=0) vec = DictVectorizer() vec.fit_transform(fil).toarray()

1条回答

网友

1楼 · 发布于 2024-04-26 22:04:19

sklearn.datasets.load_files只将文件加载到内存中，生成字符串，DictVectorizer则需要dict作为输入。您需要一个执行实际特征提取的函数：

data = datasets.load_files('/home/ayushi/Dropbox/Bundeli/corpus/wob/sklearn',
                           encoding='utf-8')
vec = DictVectorizer()
X = vec.fit_transform(extract_features(f) for f in data.data)

其中extract_features是一个特定于数据集的函数，它接受一个字符串并生成一个dict映射特性名称到特征值。在

编程相关推荐

java不支持org。阿帕奇。平民数学3。分配二元分布（1，p）`会带来很多性能开销吗？
java Android开发人员新手无法在模拟器中启动代码
显示不同版本的java版本和javac版本
java在这种情况下如何使用Spring和Hibernate正确更新对象？
java改变了我整个安卓 studio应用程序的主题
java在LIBGDX中生成可执行Jar文件
mysql对sql结果进行排序，并在java中通过循环在表中显示所有结果
swing如何在java中的textArea中新添加的文本末尾自动显示插入符号？
java需要验证时间，但会不断遇到问题
java像字符串一样拆分“数组”

相关问题更多 >

编程相关推荐

热门问题

热门文章

从文本fi构建二维数据集

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >