用于取证和大数据的正则表达式模块
jsre的Python项目详细描述
这是一个通用正则表达式匹配引擎,具有 例如,在搜索大字节缓冲区时具有特别好的性能 使用多个编码的大文件或原始磁盘映像。它是写给 解决大数据提取任务中的性能问题,包括人工制品发现 用于数字取证
jsre是:
- Fast:匹配复杂模式或大量关键字时 输入缓冲区它比当前正则表达式快得多 引擎。JSRE被设计成在复杂的情况下很好地扩展规模: 相对性能随着模式复杂度的提高而提高。
- unicode中性编码:正则表达式作为字符串写入, 用户单独指定在 表达式已编译。支持所有python编解码器,并且 提供了符合Unicode正则表达式级别1要求的编译器。
- deployable:编译的匹配引擎内存较小 占用空间限制在10兆字节以下,便于处理 分布在多个CPU上。
- portable:软件使用单个python类型扩展,并且仅 标准c和python库。在Windows或Linux上与pip一起安装
jsre包含特定于其预期的 应用程序,包括可选的表达式索引,重叠的处理 搜索锚的缓冲器、跨距和偏移量规范 (例如,用于在磁盘扇区的固定位置进行搜索)。
版本1.1基于用于管理字符类和相关 设置操作这大大提高了编译速度,允许 在更通用的应用程序中使用此模块。
jsre尽可能提供与标准python相似的接口 重新模块。请参阅文档示例以了解该模块的介绍 以及它的应用特点。本文档假设读者 熟悉正则表达式及其用法;新手可能会发现 更容易首先阅读python的re文档和教程。