从命令输出中获取标识符、名称、路径、url和单词。
tokenize-output的Python项目详细描述
从命令输出中获取标识符、名称、路径、URL和单词。
xonsh shell的xontrib-output-search正在使用此库。
在
如果你喜欢这个主意,点击⭐ 在回购和保持密切关注发布。 在
安装
pip install -U tokenize-output
使用
单词标记化
^{pr2}$JSON、Python dict和JavaScript对象标记化
$ echo'{"Try": "xonsh shell"}'| tokenize-output -p Try shell xonsh xonsh shell
env标记化
$ echo'PATH=/one/two:/three/four'| tokenize-output -p /one/two /one/two:/three/four /three/four PATH
发展
标记器
标记器是从文本中提取标记的函数。在
Priority | Tokenizer | Text | Tokens |
---|---|---|---|
1 | dict | ^{ | ^{ |
2 | env | ^{ | ^{ |
3 | split | ^{ | ^{ |
4 | strip | ^{ | ^{ |
您可以创建标记器并将其添加到tokenize_output.py
中的tokenizers_all
。在
标记化是一个递归过程,每个标记器都返回final
和{final
标记直接转到标记的结果列表。new
标记将转到所有
再次标记器来寻找新的令牌。如果json和env数据混合使用
在输出中,它将被找到并以适当的方式标记。在
测试和调试
运行测试:
cd ~ git clone https://github.com/tokenizer/tokenize-output cd tokenize-output python -m pytest tests/
要调试标记器,请执行以下操作:
echo"Hello world"| ./tokenize_outupt -p
相关项目
- 项目
标签: