使用正则表达式分词日语句子 - python

2 投票

1 回答

2374 浏览

提问于 2025-04-16 12:48

我正在尝试使用RegexpTokenizer来拆分日语句子，但它返回的是空集合。有人能告诉我为什么吗？还有怎么才能把日语句子拆分开呢？

#!/usr/bin/python  # -*- encoding: utf-8 -*-

import nltk
import os, sys, re, glob
from nltk.tokenize import RegexpTokenizer

jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^ 「」!?。．）]*[!?。]')

print jp_sent_tokenizer.tokenize ('の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')

上面代码的输出是

[]

正则表达式文本分析日语处理分词技术

1 个回答

我觉得你只是少了一个unicode的u：

print jp_sent_tokenizer.tokenize (u'の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')

回答于 2025-04-16 由 Python大师

分享举报

使用正则表达式分词日语句子 - python

1 个回答

撰写回答