NLTK中Reuters语料库分类的含义是什么
我在做文本主题分类的时候遇到了一些问题。
我使用的是NLTK的“reuters”语料库中的数据。
但是当我尝试运行“reuters.categories()”时,
得到的结果是:
['acq', 'alum', 'barley', 'bop', 'carcass', 'castor-oil', 'cocoa', 'coconut', 'coconut-oil', 'coffee', 'copper', 'copra-cake', 'corn', 'cotton', 'cotton-oil', 'cpi', 'cpu', 'crude', 'dfl', 'dlr', 'dmk', 'earn', 'fuel', 'gas', 'gnp', 'gold', 'grain', 'groundnut', 'groundnut-oil', 'heat', 'hog', 'housing', 'income', 'instal-debt', 'interest', 'ipi', 'iron-steel', 'jet', 'jobs', 'l-cattle', 'lead', 'lei', 'lin-oil', 'livestock', 'lumber', 'meal-feed', 'money-fx', 'money-supply', 'naphtha', 'nat-gas', 'nickel', 'nkr', 'nzdlr', 'oat', 'oilseed', 'orange', 'palladium', 'palm-oil', 'palmkernel', 'pet-chem', 'platinum', 'potato', 'propane', 'rand', 'rape-oil', 'rapeseed', 'reserves', 'retail', 'rice', 'rubber', 'rye', 'ship', 'silver', 'sorghum', 'soy-meal', 'soy-oil', 'soybean', 'strategic-metal', 'sugar', 'sun-meal', 'sun-oil', 'sunseed', 'tea', 'tin', 'trade', 'veg-oil', 'wheat', 'wpi', 'yen', 'zinc']
我几乎不知道每个词的意思,我能找到一些解释吗?
1 个回答
关于在 NLTK
语料库 API 中的路透社语料库的信息:
路透社-21578 "ApteMod" 语料库是为了文本分类而建立的。
ApteMod 是来自路透社财经新闻服务的 10,788 篇文档的集合。
在 ApteMod 语料库中,每篇文档可以属于一个或多个类别。这个语料库有 90 个类别。
文件 ID 和类别的对应关系可以在 ~/nltk_data/corpora/reuters/cats.txt
找到。
from os.path import expanduser
from collections import defaultdict
from nltk.corpus import reuters
home = expanduser("~")
id2cat = defaultdict(list)
for line in open(home+'/nltk_data/corpora/reuters/cats.txt','r'):
fid, _, cats = line.partition(' ')
id2cat[fid] = cats.split()
for fileid in reuters.fileids():
for sent in reuters.sents(fileid):
print id2cat[fileid], sent
[输出]:
['trade'] ['ASIAN', 'EXPORTERS', 'FEAR', 'DAMAGE', 'FROM', 'U', '.', 'S', '.-', 'JAPAN', 'RIFT', 'Mounting', 'trade', 'friction', 'between', 'the', 'U', '.', 'S', '.', 'And', 'Japan', 'has', 'raised', 'fears', 'among', 'many', 'of', 'Asia', "'", 's', 'exporting', 'nations', 'that', 'the', 'row', 'could', 'inflict', 'far', '-', 'reaching', 'economic', 'damage', ',', 'businessmen', 'and', 'officials', 'said', '.']
...
你可以从这个文件中找到关于类别的信息:~/nltk_data/corpora/reuters/README
:
The Reuters-21578 benchmark corpus, ApteMod version
这是一个公开可用的著名路透社-21578 "ApteMod" 语料库,用于文本分类。它在以下出版物中被使用:
Yiming Yang 和 X. Liu. "文本分类方法的重新审视"
1999年,第二十二届国际SIGIR年会论文集。
http://citeseer.nj.nec.com/yang99reexamination.htmlThorsten Joachims. "使用支持向量机进行文本分类:具有许多相关特征的学习"。1998年,ECML-98,第十届欧洲机器学习会议论文集。
http://citeseer.nj.nec.com/joachims98text.htmlApteMod 是来自路透社财经新闻服务的 10,788 篇文档的集合,这些文档分为训练集(7769 篇文档)和测试集(3019 篇文档)。整个语料库的大小大约是 43 MB。你也可以从 http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html 下载这个语料库,那里还有更详细的数据修订历史。
ApteMod 语料库中的类别分布非常不均衡,最常见的类别占了 36.7% 的文档,而五个最不常见的类别每个只有 0.0185%(2 篇文档)。实际上,原始数据源的分布更不均衡——在创建语料库时,任何在训练集中和测试集中都没有至少一篇文档的类别都被原始创建者从语料库中移除了。
在 ApteMod 语料库中,每篇文档可以属于一个或多个类别。这个语料库有 90 个类别。每篇文档平均有 1.235 个类别,而每个类别平均有大约 148 篇文档,约占语料库的 1.37%。
- Ken Williams ken@mathforum.org
Copyright & Notification
(摘自上面 UCI 地址的 README)
路透社-21578 集合中新闻稿和路透社注释的版权归路透社有限公司所有。路透社有限公司和卡内基集团同意允许该数据的免费分发仅用于研究目的。
如果你基于这个数据集发布结果,请在文中提及其使用,称呼该数据集为 "路透社-21578,版本 1.0",并告知读者该数据集的当前位置(见 "可用性与问题")。