我需要按日期标记以下列
Testo Giorno
LE DESIGNAZIONI ARBITRALI DELLE SEMIFINALI DI RITORNO. 06/02/2020
La Rai ha inserito nei suoi palinsesti la diretta tv delle semifinali di ritorno di Coppa Italia, rinviate a febbraio per l'emergenza coronavirus. 06/02/2020
Sabato Napoli-Inter completerà il quadro delle semifinali di Coppa Italia: la finale è in programma mercoledì 17 giugno all'Olimpico. 07/02/2020
Le semifinali di ritorno e la finale di Coppa Italia si disputeranno senza i tempi supplementari 08/02/2020
比如:
['le','designazioni','arbitrali','delle',..., 'emergenza','coronavirus'] on 6/02/2020
['Sabato','Napoli','-','Inter',...,'Olimpico'] on 7/02/2020
['Le','semifinali','di',...,'supplementari'] on 08/02/2020
我需要使用LDA进行主题分类。 我尝试了以下方法:
stop = stopwords.words('italian')
df_train['Testo_tok'] = df_train.apply(lambda row: nltk.word_tokenize(row['Testo']), axis=1)
df_train['Testo_tok']= df_train['Testo_tok'].apply(lambda x: [item for item in x if item not in stop])
df_train['Testo_tok'] = df_train.groupby(['Giorno'])['Testo'].transform(lambda x: ','.join(x)).str.split(",")
tok_text_list=df_train['Testo_tok'].tolist()
但是,输出没有给我预期的标记化
下一步是应用tok_text_list to
dictionary_LDA = corpora.Dictionary(tok_text_list)
dictionary_LDA.filter_extremes(no_below=10)
corpus = [dictionary_LDA.doc2bow(list_of_tokens) for list_of_tokens in tok_text_list]
corpus
以便按日期确定主题。我怎么能得到这个
print(*tok_text_list, sep='\n')
的结果:相关问题 更多 >
编程相关推荐