使用正则表达式分词日语句子 - python
我正在尝试使用RegexpTokenizer来拆分日语句子,但它返回的是空集合。有人能告诉我为什么吗?还有怎么才能把日语句子拆分开呢?
#!/usr/bin/python # -*- encoding: utf-8 -*-
import nltk
import os, sys, re, glob
from nltk.tokenize import RegexpTokenizer
jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^ 「」!?。.)]*[!?。]')
print jp_sent_tokenizer.tokenize ('の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')
上面代码的输出是
[]
1 个回答
4
我觉得你只是少了一个unicode的u:
print jp_sent_tokenizer.tokenize (u'の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')