用于消化波斯语文本的python库。
hazm的Python项目详细描述
热影响区
用于消化波斯语文本的python库。
- 文本清理
- 句子和单词标记器
- 单词lemmatizer
- POS标牌
- 浅层分析器
- 依赖关系分析器
- 波斯语语料库的接口
- NLTK兼容
- Python2.7、3.4、3.5和3.6支持
用法
>>>from__future__importunicode_literals>>>fromhazmimport*>>>normalizer=Normalizer()>>>normalizer.normalize('اصلاح نويسه ها و استفاده از نیمفاصله پردازش را آسان مي كند')'اصلاح نویسهها و استفاده از نیمفاصله پردازش را آسان میکند'>>>sent_tokenize('ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟')['ما هم برای وصل کردن آمدیم!','ولی برای پردازش، جدا بهتر نیست؟']>>>word_tokenize('ولی برای پردازش، جدا بهتر نیست؟')['ولی','برای','پردازش','،','جدا','بهتر','نیست','؟']>>>stemmer=Stemmer()>>>stemmer.stem('کتابها')'کتاب'>>>lemmatizer=Lemmatizer()>>>lemmatizer.lemmatize('میروم')'رفت#رو'>>>tagger=POSTagger(model='resources/postagger.model')>>>tagger.tag(word_tokenize('ما بسیار کتاب میخوانیم'))[('ما','PRO'),('بسیار','ADV'),('کتاب','N'),('میخوانیم','V')]>>>chunker=Chunker(model='resources/chunker.model')>>>tagged=tagger.tag(word_tokenize('کتاب خواندن را دوست داریم'))>>>tree2brackets(chunker.parse(tagged))'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'>>>parser=DependencyParser(tagger=tagger,lemmatizer=lemmatizer)>>>parser.parse(word_tokenize('زنگها برای که به صدا درمیآید؟'))<DependencyGraphwith8nodes>
安装
可通过pip
:
pip install hazm
但对于测试或使用最新更新的HAZM,您可以使用:
pip install https://github.com/sobhe/hazm/archive/master.zip --upgrade
我们还训练过tagger and parser models。您可以将这些模型放在项目的resources
文件夹中。
扩展名
注:这些不是HAZM的官方版本,功能上不是最新的,SOBHE不支持。
谢谢
- 致建设方:Mojtaba Khallash和Mohsen Imany。
- 到Virastyar波斯语单词列表项目。