pdf分析。将pdf的内容转换为json风格的python字典。

pydf2json的Python项目详细描述


这段代码是为了让我可以对pdf文档进行更详细的动态分析,并将其合并到一个安全堆栈中。“飞行中”是关键。pydf2json只是从pdf文档中创建一个json结构。它将pdf文档分解为所有单独的部分,并保留这些部分以供分析。一旦这样做了,一个更详细的分析应该是可能的。

安装

克隆repo并使用它。或者,运行python setup.py build/install以使pydf2json模块可被所有东西导入。您还可以使用pip install[–upgrade]pydf2json

用法

> pydf.py
  usage: pydf.py [-h] [-d LOCATION] [-s MAX_SIZE] [-p PASSWORD] [--no_summary]
                 [--show_json]
                 pdf

> pydf.py secure_dropbox.pdf -p 29576AE2
  Summary of PDF attributes:
  --------------------------

  Encrypted:                    True
  User Pass:                    None
  Key:                          030359FF89FC8A8EB764E97AD2ED7091
  Key Length:                   128 bits
  Algo:                         RC4

  Additional Actions:           0
  AcroForms:                    0
  Embedded Files:               0
  JS:                           0
  Launch:                       0
  Object Streams:               8
  OpenActions:                  0
  Pages:                        1

  URIs in document:
          http://<redacted>.xyz/sign-up/
          http://<redacted>.xyz/signup/

  Document Hashes:
          SHA1       8733CC6196C7F26F027078E6A51B822462DA2CA3
          SHA256     9D64D1EBA74F7078F5F524CCB4F79F3D41F1B7A631DE81D9FF2870FF5E4D2DFD
          MD5        0F49F102421C286E50CD40EBDDB105AF

pydf.py调用pydf2json模块将pdf转换为json样式的dict,然后访问该结构以创建上面看到的摘要。 pydf2json.py可以使用import pydf2json从您自己的程序调用。请参阅wiki

错误报告

我精通操作安全的概念。如果您有一个pdf文件,这个失败/导致崩溃,请给我有问题的pdf文件,如果可能的话。任何发送给我的文件都不会在任何时候与任何人共享,并且在我完成测试后会被销毁。用类似7zip的实用程序存档,并用以下密码加密:fr74ed83e.dj#ifkk

发送到kingaling@meatchicken.net 密码只是为了不让av扫描pdf文件。:)

我的理由

这段代码的灵感来自于我对laikaboss框架的pdf分析模块的渴望。 见:洛克希德马丁公司开发的LaikaBOSS

待办事项

  1. 恶意软件索引
    • 需要处理pydf2json.py第186行中描述的恶意软件索引

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Springboot数据JPA findByDate()   java是否可以有多个顶级树节点?   javahibernatehql。子查询中的多个   使用Twilio验证java Keyclope电话号码   java重写对象的toString()表示返回意外的符号   java Android最多每15分钟调用一个方法,否则使用保存的数据   在java swing中突出显示jeditorpane中的一些单词   java将时间戳转换为UTC时区   由于main中存在ArrayIndexOutOfBoundsException,导致java编译错误   java如何通过requestscope获取对象内部对象的值?   java访问安卓代码内的网站并检索生成的图像   java这种日期格式的模式是什么?   java解析包含超链接的xml字符串