我在做文本主题分类时遇到了问题。
我在NLTK“路透社”的语料库里找到了数据。。
但是当我尝试“reuters.categories()”时
结果是
['acq'、'alum'、'大麦'、'bop'、'carcas'、'castor oil'、'cococoa'、'co椰'、'cocoal'、'co椰油'、'coffee'、'copper'、'copra cake'、'corn'、'cotton'、'cotton oil'、'cpi'、'cpu'、'roud'、'dfl'、'dlr'、'dmk'、'earn'、'fuel'、'gas'、'gnp,‘ipi’、‘钢铁’、‘喷气式飞机’、‘工作’、‘l-牛’、‘铅’、‘lei’、‘林油’、‘牲畜’、‘木材’、‘饲料’、‘货币外汇’、‘货币供应’、‘石脑油’、‘天然气’、‘镍’、‘nkr’、‘nzdlr’、‘燕麦’、‘油籽’、‘橙色’、‘钯’、‘棕榈油’、‘棕榈仁’、‘宠物化学’、‘铂’、‘土豆’、‘丙烷’、‘兰德’、‘菜籽油,‘零售’、‘大米’、‘橡胶’、‘黑麦’、‘轮船’、‘白银’、‘高粱’、‘豆粕’、‘豆油’、‘大豆’、‘战略金属’、‘糖’、‘太阳粉’、‘太阳油’、‘太阳籽’、‘茶’、‘锡’、‘贸易’、‘植物油’、‘小麦’、‘wpi’、‘日元’、‘锌’]
我几乎不知道每个词的意思,我能找到一些解释吗?
关于
NLTK
语料库API中路透社语料库的信息:Reuters-21578“ApteMod”语料库是为文本分类而构建的。
ApteMod收集了来自路透社的10788份文件 财经新闻通讯社
在ApteMod语料库中,每个文档都属于一个或多个类别。语料库中有90个类别。
文件ID到类别的映射可以在
~/nltk_data/corpora/reuters/cats.txt
中找到[出局]:
您可以在此文件中找到有关类别的信息:
~/nltk_data/corpora/reuters/README
:相关问题 更多 >
编程相关推荐