我正在使用mecab解析日语文本并提取名词。它在服务器上运行良好。但是当我尝试运行docker容器时,它列出了所有单词,并且没有过滤掉这些单词。这是某种编码问题吗
m = MeCab.Tagger('-Ochasen')
excluded_part = ['名詞-接続-一般', '名詞-接尾-人名', '名詞-数']
parsed = m.parse(text)
df_parsed = pd.read_csv(
StringIO(parsed), delimiter='\t',
names=['単語', '読み', '原形', '品詞', '活用', '活用形'
df_parsed = df_parsed[
(df_parsed.品詞.str.contains('名詞')) &
(~df_parsed.品詞.isin(excluded_part))]
它会删除服务器中的“)| ~”等字符,但不会删除docker容器中的字符
目前没有回答
相关问题 更多 >
编程相关推荐