HashingVectorizer与TfidfVectorizer导出文件大小

from sklearn.linear_model import SGDClassifier text_clf = OnlinePipeline([('vect', HashingVectorizer()), ('clf-svm', SGDClassifier(loss='log', penalty='l2', alpha=1e-3, max_iter=5, random_state=None)), ])

1条回答

网友

1楼 · 发布于 2024-04-28 23:14:19

HashingVectorizer是无状态的，因此不会在内存中保留任何内容。它是从HashingVectorizer传递到SGDClassifier的功能的数量。你知道吗

默认情况下，number of features calculated from the data is

n_features=1048576

因此，SGDClassifier必须为所有这些特性保存coef_，intercept_etc变量。如果你的问题是多类的，这会增加。对于大于2的类，存储将按类的数量增加2倍。你知道吗

需要更多关于TfidfVectorizer特性的详细信息。在大小只有9kb的情况下，TfidfVectorizer.vocabulary_的大小是多少？您可以通过以下方式访问：

len(text_clf.named_steps['vect'].vocabulary_)

编程相关推荐

安卓在java中加入字符串组以创建复合字符串
java系统甚至不点击“下一步”或“上一步”按钮就将我返回到上一页，而不是进入下一页
java如何在arrayList中获取特定列的不同值
CXF GZIP REST JAVA
Java：使用大量半恒定标志检查优化循环中的循环？
java如何在两个应用程序之间进行会话管理？
java SVG文件使用蜡染（但没有轴线）转换为PNG
使用协议缓冲区和内部数据模型的java
java如何在logtag 安卓中打印和查看字符串的值
javascript如何在NodeJs中应用Java/Spring的分层架构？

相关问题更多 >

编程相关推荐

热门问题

热门文章