从命令输出中获取标识符、名称、路径、url和单词。

tokenize-output的Python项目详细描述


从命令输出中获取标识符、名称、路径、URL和单词。
xonsh shellxontrib-output-search正在使用此库。 在

如果你喜欢这个主意,点击⭐ 在回购和保持密切关注发布。 在

安装

pip install -U tokenize-output

使用

单词标记化

^{pr2}$

JSON、Python dict和JavaScript对象标记化

$ echo'{"Try": "xonsh shell"}'| tokenize-output -p
Try
shell
xonsh
xonsh shell

env标记化

$  echo'PATH=/one/two:/three/four'| tokenize-output -p
/one/two
/one/two:/three/four
/three/four
PATH

发展

标记器

标记器是从文本中提取标记的函数。在

PriorityTokenizerTextTokens
1dict^{}^{}
2env^{}^{}
3split^{}^{}
4strip^{}^{}

您可以创建标记器并将其添加到tokenize_output.py中的tokenizers_all。在

标记化是一个递归过程,每个标记器都返回final和{}标记。 final标记直接转到标记的结果列表。new标记将转到所有 再次标记器来寻找新的令牌。如果json和env数据混合使用 在输出中,它将被找到并以适当的方式标记。在

测试和调试

运行测试:

cd ~
git clone https://github.com/tokenizer/tokenize-output
cd tokenize-output
python -m pytest tests/

要调试标记器,请执行以下操作:

echo"Hello world"| ./tokenize_outupt -p

相关项目

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java SimpleFramework和工厂方法   Java适当地处理异常   java单例类不起作用   java小程序和Swing在eclipse中不显示组件   多个键上的java Redisson FastRemove不起作用   java验证请求正文不等于模式   在Java中从URL读取数据   eche RecyclerView项的java Set自定义字体   string Java如何从Date获取HH:mm:ss   当Java应用程序落后于负载均衡器时,在某些URL上强制使用SSL   使用esapi时发生java错误   java使用流根据第二个列表中的值更新一个列表中的对象   组织。openqa。硒。Java中的NoTouchElementException WebDriver?   从JSON字符串Java创建CSV文件