tokenizer = Tokenizer(split='[.!?]') #create a token based on sentences
tokenizer.fit_on_texts(df['Cleaned'].values)
X_data = tokenizer.texts_to_sequences(df['Cleaned'].values)
X_sequ = pad_sequences(X_data)
我得到了带空格的标记列表,比如blow #让我们看看前10个文本序列
list(tokenizer.word_index)[:10]
输出如下所示
[' rnfbdhl yis',
' oromoon bilisoomsiteeti jirti',
' namni oromummaa isaatiin mataa gadi qabtee deemu hin jiru yeroo ammaa tanatti']
如何自动删除开头和结尾的空白? 请帮忙
您可以在python中尝试使用re正则表达式。这里,插入符号告诉我们字符串的开头,美元是字符串的结尾,\s+表示一个或多个空格。所以正则表达式的意思是,将字符串开头或结尾的每个空格(一个或多个)替换为“”(无)。让我知道它是否对你有效
对于给定字符串:
输出:
相关问题 更多 >
编程相关推荐