创建阿拉伯语语料库
我正在进行阿拉伯语的情感分析,想要创建自己的语料库。为此,我从Facebook上收集了300条状态,并将它们分为正面和负面。现在我想对这些状态进行分词,也就是把它们拆分成一个个单词,然后生成单个词(unigrams)、双词组(bigrams)、三词组(trigrams),并使用交叉验证(cross fold validation)。目前我在使用Python的nltk库,不知道这个软件能否处理阿拉伯语,还是说用RapidMiner会更好一些。你觉得怎么样?另外,我也想知道如何生成双词组、三词组以及如何使用交叉验证,有什么建议吗?
1 个回答
0
我觉得RapidMiner非常有意思,可以处理这个任务。它有很多工具可以用来处理文本挖掘。而且,它还允许用户轻松创建新的工具。