pdf分析。将pdf的内容转换为json风格的python字典。
pydf2json的Python项目详细描述
这段代码是为了让我可以对pdf文档进行更详细的动态分析,并将其合并到一个安全堆栈中。“飞行中”是关键。pydf2json只是从pdf文档中创建一个json结构。它将pdf文档分解为所有单独的部分,并保留这些部分以供分析。一旦这样做了,一个更详细的分析应该是可能的。
安装
克隆repo并使用它。或者,运行python setup.py build/install以使pydf2json模块可被所有东西导入。您还可以使用pip install[–upgrade]pydf2json
用法
> pydf.py usage: pydf.py [-h] [-d LOCATION] [-s MAX_SIZE] [-p PASSWORD] [--no_summary] [--show_json] pdf > pydf.py secure_dropbox.pdf -p 29576AE2 Summary of PDF attributes: -------------------------- Encrypted: True User Pass: None Key: 030359FF89FC8A8EB764E97AD2ED7091 Key Length: 128 bits Algo: RC4 Additional Actions: 0 AcroForms: 0 Embedded Files: 0 JS: 0 Launch: 0 Object Streams: 8 OpenActions: 0 Pages: 1 URIs in document: http://<redacted>.xyz/sign-up/ http://<redacted>.xyz/signup/ Document Hashes: SHA1 8733CC6196C7F26F027078E6A51B822462DA2CA3 SHA256 9D64D1EBA74F7078F5F524CCB4F79F3D41F1B7A631DE81D9FF2870FF5E4D2DFD MD5 0F49F102421C286E50CD40EBDDB105AF
pydf.py调用pydf2json模块将pdf转换为json样式的dict,然后访问该结构以创建上面看到的摘要。 pydf2json.py可以使用import pydf2json从您自己的程序调用。请参阅wiki。
错误报告
我精通操作安全的概念。如果您有一个pdf文件,这个失败/导致崩溃,请给我有问题的pdf文件,如果可能的话。任何发送给我的文件都不会在任何时候与任何人共享,并且在我完成测试后会被销毁。用类似7zip的实用程序存档,并用以下密码加密:fr74ed83e.dj#ifkk
发送到kingaling@meatchicken.net 密码只是为了不让av扫描pdf文件。:)
我的理由
这段代码的灵感来自于我对laikaboss框架的pdf分析模块的渴望。 见:洛克希德马丁公司开发的LaikaBOSS。
待办事项
- 恶意软件索引
- 需要处理pydf2json.py第186行中描述的恶意软件索引