用于消化波斯语文本的python库。

hazm的Python项目详细描述


热影响区

用于消化波斯语文本的python库。

  • 文本清理
  • 句子和单词标记器
  • 单词lemmatizer
  • POS标牌
  • 浅层分析器
  • 依赖关系分析器
  • 波斯语语料库的接口
  • NLTK兼容
  • Python2.7、3.4、3.5和3.6支持
  • Build Status

用法

>>>from__future__importunicode_literals>>>fromhazmimport*>>>normalizer=Normalizer()>>>normalizer.normalize('اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند')'اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند'>>>sent_tokenize('ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟')['ما هم برای وصل کردن آمدیم!','ولی برای پردازش، جدا بهتر نیست؟']>>>word_tokenize('ولی برای پردازش، جدا بهتر نیست؟')['ولی','برای','پردازش','،','جدا','بهتر','نیست','؟']>>>stemmer=Stemmer()>>>stemmer.stem('کتاب‌ها')'کتاب'>>>lemmatizer=Lemmatizer()>>>lemmatizer.lemmatize('می‌روم')'رفت#رو'>>>tagger=POSTagger(model='resources/postagger.model')>>>tagger.tag(word_tokenize('ما بسیار کتاب می‌خوانیم'))[('ما','PRO'),('بسیار','ADV'),('کتاب','N'),('می‌خوانیم','V')]>>>chunker=Chunker(model='resources/chunker.model')>>>tagged=tagger.tag(word_tokenize('کتاب خواندن را دوست داریم'))>>>tree2brackets(chunker.parse(tagged))'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'>>>parser=DependencyParser(tagger=tagger,lemmatizer=lemmatizer)>>>parser.parse(word_tokenize('زنگ‌ها برای که به صدا درمی‌آید؟'))<DependencyGraphwith8nodes>

安装

可通过pip

pip install hazm

但对于测试或使用最新更新的HAZM,您可以使用:

pip install https://github.com/sobhe/hazm/archive/master.zip --upgrade

我们还训练过tagger and parser models。您可以将这些模型放在项目的resources文件夹中。

扩展名

注:这些不是HAZM的官方版本,功能上不是最新的,SOBHE不支持。

  • JHazm:哈兹姆的爪哇港口
  • NHazm:A C哈兹姆港

谢谢

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JAXB封送字符串,具有xml值,且不转义该值   java ModelMapper转换器不工作   java像HH000412或HCANN000001这样的前缀是什么意思?   验证日期输入修复java。lang.numberformatexception错误   当表具有外键时,java Telosys代码生成失败   如何使所有派生类一起只能实例化一个实例的单例抽象基类?(爪哇)   java如何在非静态服务类中使用广播接收器   java nutch爬虫相对URL问题   使用Jboss DMR下载/保存java附件   Rest模板:无法提取响应:当我们得到xml响应时,没有找到适合响应类型的HttpMessageConverter,没有绑定到JAVA对象   java如何编写可扩展窗格/面板/卡的代码   java是在ITreeViewerListener的treeExpanded()之前调用ContentProvider的getChildren()吗?   java将JComponent添加到小程序窗格   java混淆:使用简单逻辑的Flames程序