按主题进行文本分类的日期标记化

Testo Giorno LE DESIGNAZIONI ARBITRALI DELLE SEMIFINALI DI RITORNO. 06/02/2020 La Rai ha inserito nei suoi palinsesti la diretta tv delle semifinali di ritorno di Coppa Italia, rinviate a febbraio per l'emergenza coronavirus. 06/02/2020 Sabato Napoli-Inter completerà il quadro delle semifinali di Coppa Italia: la finale è in programma mercoledì 17 giugno all'Olimpico. 07/02/2020 Le semifinali di ritorno e la finale di Coppa Italia si disputeranno senza i tempi supplementari 08/02/2020

['le','designazioni','arbitrali','delle',..., 'emergenza','coronavirus'] on 6/02/2020 ['Sabato','Napoli','-','Inter',...,'Olimpico'] on 7/02/2020 ['Le','semifinali','di',...,'supplementari'] on 08/02/2020

stop = stopwords.words('italian') df_train['Testo_tok'] = df_train.apply(lambda row: nltk.word_tokenize(row['Testo']), axis=1) df_train['Testo_tok']= df_train['Testo_tok'].apply(lambda x: [item for item in x if item not in stop]) df_train['Testo_tok'] = df_train.groupby(['Giorno'])['Testo'].transform(lambda x: ','.join(x)).str.split(",") tok_text_list=df_train['Testo_tok'].tolist()

1条回答

网友

1楼 · 发布于 2024-06-07 06:44:48

stop = stopwords.words('italian') + list(string.punctuation)
df_train['Testo_tok'] = df_train.Testo.apply(nltk.word_tokenize).apply(lambda l: [i for i in l if i not in stop])
tok_text_list = df_train.groupby(['Giorno'])['Testo_tok'].apply(sum).tolist()

print(*tok_text_list, sep='\n')的结果：

['LE', 'DESIGNAZIONI', 'ARBITRALI', 'DELLE', 'SEMIFINALI', 'DI', 'RITORNO', 'La', 'Rai', 'inserito', 'palinsesti', 'diretta', 'tv', 'semifinali', 'ritorno', 'Coppa', 'Italia', 'rinviate', 'febbraio', "l'emergenza", 'coronavirus']
['Sabato', 'Napoli-Inter', 'completerà', 'quadro', 'semifinali', 'Coppa', 'Italia', 'finale', 'programma', 'mercoledì', '17', 'giugno', "all'Olimpico"]
['Le', 'semifinali', 'ritorno', 'finale', 'Coppa', 'Italia', 'disputeranno', 'senza', 'tempi', 'supplementari']

相关问题更多 >

编程相关推荐

热门问题

热门文章