语素正则表达式打印机
mrep的Python项目详细描述
mrep是语素序列的正则表达式匹配器。 可以找到与给定模式匹配的语素子序列,例如名词序列。
要求
- python=2.7
- 麦加布Python3(https://github.com/SamuraiT/mecab-python3)
安装
$ pip install mrep
如果要从源代码安装,请使用setup.py。
$ python setup.py install
用法
usage: mrep [-h] [-o] [--color {never,auto,always}] [-n] [--mecab-arg MECAB_ARG] PATTERN [FILE [FILE ...]]
- 位置参数:
PATTERN: pattern FILE: data file - 可选参数:
-h, --help show this help message and exit -o, --only-matching print only matching --color COLOR color mode. select from “never”, “auto” and “always”. (default: auto) -n, --line-number Show line number --mecab-arg MECAB_ARG argument to pass to mecab (ex: “-r /path/to/resource/file”)
模式
- 匹配所有语素
- <;surface=xxx>;
- 匹配表面为xxx的语素
- <;pos=xxx>;
- 匹配词性为xxx的语素
- x*
- 匹配模式x的重复性
- x y
- 匹配x或y
- (x)
- 匹配x
示例
- <;位置=名詞>;
- 匹配名词
- <;位置=名詞>;*
- 匹配名词的重复
- <;位置=名詞>;*<;位置=助詞>;
- 匹配名词和粒子的重复
- (<;pos=名詞>;<;pos=名詞>;)*
- 匹配名词或动词的重复
许可证
这个程序是在麻省理工学院的许可下发布的。
版权
(c)2014年,Yuya Unno.