日本形态分析引擎。
Janome的Python项目详细描述
janome是一个用纯python编写的日语形态分析引擎。
一般文档:
https://mocobeta.github.io/janome/en/(英语)
https://mocobeta.github.io/janome/(日语)
要求
python 2.7.x或3.3+是必需的。
安装
[注意]这将消耗大约500 MB的内存用于构建。
(venv) $ python setup.py install
运行
(env) $ python >>> from janome.tokenizer import Tokenizer >>> t= Tokenizer() >>> for token in t.tokenize(u'すもももももももものうち'): ... print(token) ... すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
(env) $ python >>> from janome.tokenizer import Tokenizer >>> from janome.analyzer import Analyzer >>> from janome.charfilter import * >>> from janome.tokenfilter import * >>> text= u'蛇の目はPure Pythonな形態素解析器です。' >>> char_filters=[UnicodeNormalizeCharFilter(), RegexReplaceCharFilter(u'蛇の目', u'janome')] >>> tokenizer= Tokenizer() >>> token_filters=[CompoundNounFilter(), POSStopFilter(['記号','助詞']), LowerCaseFilter()] >>> a= Analyzer(char_filters, tokenizer, token_filters) >>> for token in a.analyze(text): ... print(token) ... janome 名詞,固有名詞,組織,*,*,*,*,*,* pure 名詞,固有名詞,組織,*,*,*,*,*,* python 名詞,一般,*,*,*,*,*,*,* な 助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ 形態素解析器 名詞,複合,*,*,*,*,形態素解析器,ケイタイソカイセキキ,ケイタイソカイセキキ です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
许可证
根据ApacheLicense2.0授权,并使用Mecab iPadic字典/统计模型。
有关许可证的详细信息,请参见license.txt和notice.txt。
确认
特别感谢@ikawaha,@takuyaa,@nakagami和@janome嫒oekaki。
版权所有
版权所有(c)2015,内田智子。保留所有权利。