我想开始用机器学习开发一个应用程序。我想分类文本-垃圾邮件或不是垃圾邮件。我有两个文件-spam.txt
,ham.txt
-每个文件包含一千个句子。如果我想使用分类器,让我们说LogisticRegression
。
例如,正如我在互联网上看到的,为了符合我的模型,我需要这样做:
`lr = LogisticRegression()
model = lr.fit(X_train, y_train)`
所以我的问题来了,什么是真正的X_train
和y_train
?我怎样才能从我的句子中得到它们?我在网上搜索,我不明白,这是我最后一次打电话,我对这个话题很陌生。谢谢您!
根据文件(见here):
X
对应于形状的浮点特征矩阵(n_samples, n_features)
(又名。训练集的设计矩阵)y
是形状(n_samples,)
的浮动目标向量(标签向量)。在您的例子中,标签0
可以对应于垃圾邮件示例,而1
则对应于ham示例一个常见的方案是使用tf idf矢量化(关于这个here的更多信息),它在^{} 中可用。
向量化可以通过} API与logistic回归链接。
sklearn
的^{代码大致如下
相关问题 更多 >
编程相关推荐