使用sklearn的HashingVectoriz中HashEmbeddings的思想

1条回答

网友

1楼 · 发布于 2024-05-16 11:35:30

scikit learn中的HashingVectorizer已经包含了一种机制，可以通过^{}选项减轻哈希冲突。这在令牌求和期间添加了一个随机符号，从而改进了散列空间中距离的保存（有关详细信息，请参见scikit-learn#7513）。你知道吗

通过使用N散列函数并连接输出，可以将结果稀疏矩阵中的n_features和非空项（nnz）的数量增加N。换句话说，每个标记现在将被表示为N个元素。这真是浪费记忆。此外，由于稀疏数组计算的运行时间直接依赖于nnz（而不是n_features），这将比只增加n_features对性能产生更大的负面影响。我不确定这种方法在实践中是否有用。你知道吗

如果您仍然想实现这样的矢量器，下面是一些注释。你知道吗

因为FeatureHasher是在Cython中实现的，所以不编辑/重新编译代码就很难从Python修改它的功能。你知道吗
编写HashingVectorizer的快速纯python实现可能是一种方法。你知道吗
否则，在text-vectorize包中有一个HashingVectorizer的实验性重新实现。因为它是用Rust编写的（使用Python绑定），所以其他哈希函数很容易访问和can potentially be added。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用sklearn的HashingVectoriz中HashEmbeddings的思想

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >