意大利语的Python CLIPS |模式

2024-05-16 04:25:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要帮助才能用意大利语使用这个图书馆。在

我试图使用Pattern创建意大利语提要RSS/ATOM的数据集(执行NMF),但我不知道如何做,因为Lemmatizer不能处理意大利语句子。在

我用维基百科的意大利语文本作为指导。但结果与输入字符串相同。在

有什么建议吗?在

编辑:我的代码是这个

from pattern.vector import Document, PORTER, LEMMA

s="Il ciclo, scritto all'inizio degli anni novanta, si svolge in un universo dove, al termine di una guerra tra le due potenti razze dei Sartan e dei Patryn, la Terra è stata suddivisa in quattro mondi ognuno dominato da un elemento (aria, acqua, terra e fuoco), mentre in un quinto, detto il Labirinto (una prigione senziente estremamente letale), i Sartan, vincitori del conflitto, hanno relegato i Patryn e sono misteriosamente scomparsi subito dopo. Secoli dopo i primi Patryn riescono a fuggire dal labirinto ed a penetrare negli altri mondi. I sette libri narrano le vicende di Haplo, un agente dei Patryn inviato ad esplorare i quattro mondi per preparare l'arrivo del suo padrone."

document = Document(s, threshold=1, stopwords=False)
documentP = Document(s, threshold=1, stopwords=False, stemmer=PORTER)
documentL = Document(s, threshold=1, stopwords=False, stemmer=LEMMA)

print document.words
{u'le': 2, u'dei': 3, u'patryn': 4, u'labirinto': 2, u'dopo': 2, u'sartan': 2, u'di': 2, u'quattro': 2, u'terra': 2, u'mondi': 3, u'e': 3, u'una': 2, u'un': 4, u'del': 2, u'il': 2}
print documentL.words
{u'le': 2, u'dei': 3, u'patryn': 4, u'mondi': 3, u'labirinto': 2, u'dopo': 2, u'sartan': 2, u'di': 2, u'quattro': 2, u'terra': 2, u'e': 3, u'una': 2, u'un': 4, u'del': 2, u'il': 2}
print documentP.words
{u'il': 2, u'le': 2, u'dei': 3, u'patryn': 4, u'labirinto': 2, u'dopo': 2, u'sartan': 2, u'di': 2, u'quattro': 2, u'terra': 2, u'mondi': 3, u'e': 3, u'una': 2, u'un': 4, u'del': 2}

Tags: inledocumentilunterradeluna