我需要帮助才能用意大利语使用这个图书馆。在
我试图使用Pattern创建意大利语提要RSS/ATOM的数据集(执行NMF),但我不知道如何做,因为Lemmatizer不能处理意大利语句子。在
我用维基百科的意大利语文本作为指导。但结果与输入字符串相同。在
有什么建议吗?在
编辑:我的代码是这个
from pattern.vector import Document, PORTER, LEMMA
s="Il ciclo, scritto all'inizio degli anni novanta, si svolge in un universo dove, al termine di una guerra tra le due potenti razze dei Sartan e dei Patryn, la Terra è stata suddivisa in quattro mondi ognuno dominato da un elemento (aria, acqua, terra e fuoco), mentre in un quinto, detto il Labirinto (una prigione senziente estremamente letale), i Sartan, vincitori del conflitto, hanno relegato i Patryn e sono misteriosamente scomparsi subito dopo. Secoli dopo i primi Patryn riescono a fuggire dal labirinto ed a penetrare negli altri mondi. I sette libri narrano le vicende di Haplo, un agente dei Patryn inviato ad esplorare i quattro mondi per preparare l'arrivo del suo padrone."
document = Document(s, threshold=1, stopwords=False)
documentP = Document(s, threshold=1, stopwords=False, stemmer=PORTER)
documentL = Document(s, threshold=1, stopwords=False, stemmer=LEMMA)
print document.words
{u'le': 2, u'dei': 3, u'patryn': 4, u'labirinto': 2, u'dopo': 2, u'sartan': 2, u'di': 2, u'quattro': 2, u'terra': 2, u'mondi': 3, u'e': 3, u'una': 2, u'un': 4, u'del': 2, u'il': 2}
print documentL.words
{u'le': 2, u'dei': 3, u'patryn': 4, u'mondi': 3, u'labirinto': 2, u'dopo': 2, u'sartan': 2, u'di': 2, u'quattro': 2, u'terra': 2, u'e': 3, u'una': 2, u'un': 4, u'del': 2, u'il': 2}
print documentP.words
{u'il': 2, u'le': 2, u'dei': 3, u'patryn': 4, u'labirinto': 2, u'dopo': 2, u'sartan': 2, u'di': 2, u'quattro': 2, u'terra': 2, u'mondi': 3, u'e': 3, u'una': 2, u'un': 4, u'del': 2}
目前没有回答
相关问题 更多 >
编程相关推荐