Possible Duplicate:
Text Classification into Categories
我目前正在研究一个解决方案,根据他们的描述,在一个拥有10万家餐厅的数据库中获取食物类型。我正在使用关键字列表来决定提供哪种食物。
我读了一些关于机器学习的书,但我对它一点实际经验都没有。有谁能向我解释一下,对于这样一个简单的问题,这是不是一个更好的解决方案?我发现准确性比表现更重要!
简化示例:
["China", "Chinese", "Rice", "Noodles", "Soybeans"]
["Belgium", "Belgian", "Fries", "Waffles", "Waterzooi"]
可能的描述是:
“Hong's Garden餐厅为我们的顾客提供美味、价格合理的中国菜。如果你发现你突然渴望 周六晚上8点,米饭、面条或大豆,别担心!我们每周营业七天,提供送货服务。你也可以在这里吃薯条
您确实描述了一个分类问题,这个问题可以用机器学习来解决。
在这个问题中,你的特征就是描述中的单词。您应该使用Bag Of Words模型,该模型基本上说,单词和每个单词出现的次数对分类过程很重要。
要解决您的问题,请执行以下步骤:
评估:
可以使用cross-validation对算法进行评估,或者从标记的示例中分离一个测试集,该测试集将仅用于评估算法的准确性。
优化:
根据个人经验-以下是一些我发现有助于特征提取的优化:
库:
不幸的是,我对python的理解不够流利,但以下是一些可能有用的库:
相关问题 更多 >
编程相关推荐