擅长:python、mysql、java
<p>嗯,这是一个很大的课题。在</p>
<p>您提到了Python,所以您应该看看<a href="http://www.nltk.org/" rel="nofollow">NLTK library</a>,它允许您处理自然语言,例如您的注释。在</p>
<p>在这一步之后,您应该有一个分类器,它将您检索到的单词映射到某个类。NTLK还提供了与知识数据库链接的分类工具。如果幸运的话,您要查找的类别已经可用;否则您可能需要自己构建它们。您可以看看使用NTLK和WordNet数据库的<a href="http://www.nltk.org/howto/wordnet.html" rel="nofollow">this example</a>。您可以访问Synset,它似乎非常广泛;还可以查看hyperset(参见示例列表(狗。关闭(超)))。在</p>
<p>基本上你应该考虑在整个标记化的文本上使用<a href="http://www.nltk.org/api/nltk.classify.html" rel="nofollow">multiclassifier</a>(Facebook和tweets上的评论通常很短)。你也可以决定只考虑200个字符以下的FB评论,这是你的选择)。选择多分类器的动机在于分类集的非正交性(衣服、鞋子和珠宝可以是同一对象;您可以拥有电子珠宝[例如智能手表]等)。这是一个相当简单的设置,但这是一个有趣的第一步,它的优点和缺点将允许您轻松迭代(如果需要)。在</p>
<p>祝你好运!在</p>