在XML和JSON文件中混淆和屏蔽元素的实用程序
PARANOID的Python项目详细描述
#XML和JSON屏蔽
有关详细信息,请访问https://sonra.io/2019/04/01/paranoid-masking-anonymizing-and-obfuscating-pii-in-xml-and-json-data/
##关于
paranoid是用于xml和json文件格式的数据屏蔽和混淆命令行工具。偏执狂最常用于 与屈肌结合。flexter是sonra基于行业数据的复杂xml和json的xml转换器。 acord、hl7、fhir、ndc、xbrl、fpml等标准,将xml转换成任何关系数据库, hadoop格式(orc、parquet、avro、hive、impala)或文本(tsv、csv)。
##功能
- 可用于一个或多个XML/JSON文档。如果输入路径指向目录,则递归处理其内容。自动检测每个文件的格式。
- 默认情况下,屏蔽xml/json文档中的所有元素/属性,同时保留文件的确切结构。
- 还可以只屏蔽xml/json文档中的特定元素(通过提供的路径/xpath)。
- 通用:在python 2.6+或3.6+上运行
- 脱机工具-在系统上本地运行。任何地方都不会传输数据。
- 开放源码-任何人都可以检查它所做的工作,以确保数据在离开香肠机后不能成功地反编码回来。欢迎任何贡献!
- 易于安装-可以下载脚本本身或使用
pip
##高级功能
- 自定义构建的解析器-只做需要做的事情的简单解析器。消除了使用外部libs的开销。很快。它不验证文档,因此可以在某种程度上处理一些边缘粗糙的文档。
- 智能缓冲-内存简单(可重新定义的缓冲区使用,默认为2 MB),但同时适用于大文件(如10 GB)。即使所有内容都集中在一行中,也可以使用它们! *屏蔽统计信息-提供在操作期间屏蔽的XML标记数和标记数的统计信息,也可以将这些标记存储在日志文件中。
##建筑
##安装
###pip install PARANOID
#说明
用法:paranoid [-h] -i INPUT [-b BYTESIZE] -o OUTPUTDIR
数据屏蔽
可选参数:
^ {CD4>}显示此帮助消息并退出
-i INPUT
输入目录名/文件名
-b BYTESIZE
(re)定义缓冲区大小(默认为2mb)
-o OUTPUTDIR
输出目录名
paranoid -h
##用法示例
屏蔽单个文件
paranoid -i <input filename> -o <output directory name>
屏蔽目录中的所有xml和json文件
paranoid -i <directory name> -o <output directory name>
更改缓冲区大小
paranoid -i <File or directory name> -o <output directory name> -b buffersize
在分析文件时,这是通过逐字节、逐缓冲区地对文件进行流式处理来吸收大容量单行代码的方法。
屏蔽某些标签
paranoid -i <input filename> -o <output directory name> -l xpath separated by ,
生成日志文件
paranoid -i <input filename> -o <output directory name> -L Log File Location