如何将荷兰语文本与NLTK中的西班牙语部分分开?

2024-03-28 20:20:44 发布

您现在位置:Python中文网/ 问答频道 /正文

NLTK包含荷兰语标记的语料库,如何从中打印最常见的标记?在

为此,我需要知道荷兰语标签包含在conll2002语料库中。在

conll2002语料库还包含西班牙语文本,所以我只需要阅读荷兰语部分。在


代码:

conll_标记=nltk.corpus.conll2002年。标记的单词()

标签fd=nltk.频率分配标签(标签)

标签_fd.最常见()

而‘u‘NC’则89469,(u‘N’N‘77188),(u‘SP’61145,(u‘V’,40744),(u‘Punc’,39354,(u‘DA’,35574),(u‘Prep’,32114),(u‘AQ’,31249,(u‘艺术’,28875,(u‘Pron’,22037),(u‘Adv’,21987,(u‘Fc’,207719),(u‘Adj’,205553),(u‘VMI’,19650,(u‘VMI’,19650),(u‘conjug’,14281),(u‘Num’,11226),(u‘Fp’,10266),(u‘Z’,9291),(u‘CC’,8543),(u‘CC’,8543),(u‘u’CC’,8543),(u‘‘‘“迪”,7630),(英国,7544),(u'u'urg'7396),(u'PR',7128),(u'VMN',6435),(u'CS',6408),(u'VMP',3547),(u'p',3509),(u'Fpt',3314),(u'Fpa',3307),(u'DP',2817),(u'VAI',2437),(u'Fg',2345),(u'VSI',2238),(u'DD',22224),(u'DN',1875),(u'NP',1846),(u'VMS',1624',1624',1546',1546),(u'PP',1302),(u'AO',1302),(u'ao1281),(u'PI',864),(u'u'u',864',864),(u'“VMM”,854),(u'PN',820),(u'Misc',616),(u'VMG',528),(u'Fd',365),(u'VSN',291),(u'VSP',258),(u'PD',231),(u'Int',231),(u'Fx',211),(u'VSS',176),(u'Fz',157),(u'VAN',146),(u'I',136,(u'VAS',129),(u'PT',95),(u'Fh',72),(u‘Y',34),(u‘VSG’,26),(u‘基金’,26’,25,(u‘适合’,25’,18),(u‘Fia’,18),(u‘VAP’,18),(u‘排’,18),(u‘DT’,17),(u‘脂肪’,5’,5),(u‘脂肪’,5’,5’,5),(5 u'Ft',4),(u'PX',4),(u'Faa',4),(u'VSM',3),(u'DE',2),(u'VAM',1)]


Tags: 代码标记文本corpus标签单词cc语料库
1条回答
网友
1楼 · 发布于 2024-03-28 20:20:44

它正确的conll2002同时包含西班牙语和荷兰语。在

print nltk.corpus.conll2002.fileids()
Output:
['esp.testa', 'esp.testb', 'esp.train', 'ned.testa', 'ned.testb', 'ned.train']

我们只对荷兰语感兴趣,以下是如何做到的。在

^{pr2}$

输出为:

[(u'N', 38789),
 (u'V', 21032),
 (u'Prep', 16540),
 (u'Punc', 16472),
 (u'Art', 14816),
 (u'Adv', 10824),
 (u'Adj', 10296),
 (u'Pron', 10232),
 (u'Conj', 7184),
 (u'Num', 4268),
 (u'Misc', 244),
 (u'Int', 52)]

相关问题 更多 >