我有多种语言的文本文件。如何有选择地删除NLTK中的一种语言?

2024-05-14 00:28:18 发布

您现在位置:Python中文网/ 问答频道 /正文

也许我应该放弃这一切。或者也许有一个我没有想到的非常聪明的方法。在

这里有两个例子来说明我所得到的:

يَبِسَ - يَيْبَسُ (yabisa, yaybasu)[y-b-s][ي-ب-س] (To become dry, stiff, rigid) 20:77 yabasan = dry. يَسَّرَ - يُيَسِّرُ (yassara, yuyassiru)[y-s-r][ي-س-ر] (To facilitate, make it easy) 92:7 nuyassiruhuu = We will ease him.

以及

Zu Hülfe! zu Hülfe! Help! Help!
Sonst bin ich verloren! Otherwise I am lost! Zu Hülfe! Zu Hülfe! Help! Help! Sonst bin ich verloren! Otherwise I am lost! Der listigen Schlange zum Opfer erkoren, Selected as offering to the cunning snake, Barmherzigige Götter! Merciful Gods! Schon nahet sie sich, Already it gets closer, Schon nahet sie sich, Already it gets closer,

。。。为了进一步处理这些文本行,浏览并删除一种语言是非常烦人的。在

我认为在NLTK中可以做到这一点的一个方法是将文本分成标记,根据一个小的语料库知道每个标记的出处,然后让NLTK“重建”我选择的标记。这只是一个疯狂的幻想吗?在


Tags: to方法标记binhelpitamdry
2条回答

你可以用nltk.NaiveBayesClassifier完全按照你说的去做。在

以下链接将有所帮助: http://nltk.googlecode.com/svn/trunk/doc/book/ch06.html

它有一个使用nltk.NaiveBayesClassifier性别鉴定。你用同样的方法来识别语言。在

你引用的第一个例子很好用nltk.NaiveBayesClassifier因为unicode集是完全不同的。在

在第二个例子中,在两种语言中有一种像专有名词一样拼写相同的词,这可能会导致在识别语言时出现一些错误。在

相关问题 更多 >