Python文档自动分类:将游戏文章分类为体育类

2024-05-16 19:51:04 发布

您现在位置:Python中文网/ 问答频道 /正文

我有大约500篇预先分类的文章。我把每个类别最常用的名词和形容词按关联性排序。在

每一类(世界、商业、科技、娱乐、科学、健康、体育)都有几百个词与之相关。在

我对这篇文章感到困惑: http://www.techhive.com/article/2052311/hands-on-with-the-2ds-an-entry-level-investment.html

它是关于游戏的。根据我看过的文章,像“game,player,etc”这样的词与体育密切相关。在

本文评分如下:

{u'business': 51, u'entertainment': 58, u'science': 48, u'sports': 62, u'health': 35, u'world': 48, u'technology': 59}

正如你所看到的,科技在59位,但在62位被体育超越。在

我希望,如果我增加我的语料库到几千篇文章,这个问题会得到解决,但我不知道这是否可能。在

你对解决这个问题有什么看法?在

我想建立一个免费的词汇列表,比如“Twitter,Facebook,Technology,Nintendo等等”,如果出现的话,会自动将文章聚合到技术中。唯一的问题是找到与之相关的词语,同时也避免与商业/世界等发生冲突

谢谢。在


Tags: http排序www文章世界分类科学类别
1条回答
网友
1楼 · 发布于 2024-05-16 19:51:04

游戏类应该模糊狩猎,战争通信,笔和纸RPG。。。-任何有游戏版本的东西。在

我想你是想把事实和虚构区分开来。我从你提出的一个想法中得到一个想法,就是抓住图书馆的虚构部分和事实部分,把它们简化为一个简短的列表和一个长长的关键字列表。在

编辑: 这是我刚刚发现的,但是典型的“hello world”示例,即来自Disco等map reduce框架的词频分析,应该可以让您简单地指向一组您知道是事实或虚构的url。你应该有两个元组列表,然后你可以把它们过滤到关键字中,这些关键字肯定是关于事实或虚构的。在

相关问题 更多 >