一种用于中文的微标记器

MicroTokenizer的Python项目详细描述


微型中文分词器

一个微型的中文分词器,目前提供了七种分词算法:

  1. 按照词语的频率(概率)来利用构建 DAG(有向无环图)来分词,使用 Trie Tree 构建前缀字典树
  2. 使用隐马尔可夫模型(Hidden Markov Model,HMM)来分词
  3. 融合 DAG 和 HMM 两种分词模型的结果,按照分词粒度最大化的原则进行融合得到的模型
  4. 正向最大匹配法
  5. 反向最大匹配法
  6. 双向最大匹配法
  7. 基于 CRF (Conditional Random Field, 条件随机场) 的分词方法

特点 / 特色

  • 面向教育:可以导出 graphml 格式的图结构文件,辅助学习者理解算法过程
  • 良好的分词性能:由于使用类似 结巴分词 的算法,具有良好的分词性能
  • 具有良好的扩展性:使用和 结巴分词 一样的字典文件,可以轻松添加自定义字典
  • 自定义能力强
  • 提供工具和脚本帮助用户训练自己的分词模型而不是使用内建的模型

更多内容见仓库 https://github.com/howl-anderson/MicroTokenizer

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java为扫描器的输入生成字符序列   hibernate中的java实体合并   如何使变量在Java文件中成为全局变量   java JVM崩溃“异常访问冲突”   向MediaMetadataRetriever中的setDataSource()发送Uri时发生java IllegalArgumentException   java没有节约协议?   用户界面java gui帮助actionlistener   java索引越界异常,即使大小小于索引?   在C++中使用java的困惑   在普通java编码中插入图像   JDBC上的java缓存数据   在Java中,在字符串的特定位置替换子字符串   java在运行elasticsearch集群时遇到Perm Gen空间问题   java Soap故障跟踪   java拆分器。固定长度(int)。拆分(字符串)   java获取jar内部包的路径