我有一个pandas
数据帧,它由几行和几列组成。我对两个专栏特别感兴趣。请参见下面的示例。在
UID Item Composition
1 Water Hydrogen,Oxygen
2 Sulfuric acid Hydrogen,Sulfur,Oxygen
3 Alcohol Spirit
4 Hydrochloric acid Hydrogen,Chloride
5 Citric Acid Hydrogen,Carbon, Oxygen
假设我们有一个很长的列表。{{cd2>想通过
感谢你@B.Malysz花时间发表评论并给我一个方向。我确实浏览了决策树,继续阅读了大量的资料,最后发现使用TF-IDF矢量器,我能够构建一个可以解决这个问题的逻辑。我能从它的成分中准确地预测出这个项目。我还尝试使用LinearSVC、Randomforestclassifier或logisticregression进行测试,看看哪种方法能给出更好的预测结果。在
不幸的是,我被一些人投了反对票,因为我问了这个问题:(
一种方法可能是使用sklearn库(决策树分类器),因为您只有很少的特性。组合需要分开并编码为数值。我不是这个领域的专家,你可以在这里和其他地方找到很多关于它的资源。它帮助我解决了和你类似的问题。只是个建议。在
相关问题 更多 >
编程相关推荐