pdf分析。将pdf的内容转换为json风格的python字典。

pydf2json的Python项目详细描述


这段代码是为了让我可以对pdf文档进行更详细的动态分析,并将其合并到一个安全堆栈中。“飞行中”是关键。pydf2json只是从pdf文档中创建一个json结构。它将pdf文档分解为所有单独的部分,并保留这些部分以供分析。一旦这样做了,一个更详细的分析应该是可能的。

安装

克隆repo并使用它。或者,运行python setup.py build/install以使pydf2json模块可被所有东西导入。您还可以使用pip install[–upgrade]pydf2json

用法

> pydf.py
  usage: pydf.py [-h] [-d LOCATION] [-s MAX_SIZE] [-p PASSWORD] [--no_summary]
                 [--show_json]
                 pdf

> pydf.py secure_dropbox.pdf -p 29576AE2
  Summary of PDF attributes:
  --------------------------

  Encrypted:                    True
  User Pass:                    None
  Key:                          030359FF89FC8A8EB764E97AD2ED7091
  Key Length:                   128 bits
  Algo:                         RC4

  Additional Actions:           0
  AcroForms:                    0
  Embedded Files:               0
  JS:                           0
  Launch:                       0
  Object Streams:               8
  OpenActions:                  0
  Pages:                        1

  URIs in document:
          http://<redacted>.xyz/sign-up/
          http://<redacted>.xyz/signup/

  Document Hashes:
          SHA1       8733CC6196C7F26F027078E6A51B822462DA2CA3
          SHA256     9D64D1EBA74F7078F5F524CCB4F79F3D41F1B7A631DE81D9FF2870FF5E4D2DFD
          MD5        0F49F102421C286E50CD40EBDDB105AF

pydf.py调用pydf2json模块将pdf转换为json样式的dict,然后访问该结构以创建上面看到的摘要。 pydf2json.py可以使用import pydf2json从您自己的程序调用。请参阅wiki

错误报告

我精通操作安全的概念。如果您有一个pdf文件,这个失败/导致崩溃,请给我有问题的pdf文件,如果可能的话。任何发送给我的文件都不会在任何时候与任何人共享,并且在我完成测试后会被销毁。用类似7zip的实用程序存档,并用以下密码加密:fr74ed83e.dj#ifkk

发送到kingaling@meatchicken.net 密码只是为了不让av扫描pdf文件。:)

我的理由

这段代码的灵感来自于我对laikaboss框架的pdf分析模块的渴望。 见:洛克希德马丁公司开发的LaikaBOSS

待办事项

  1. 恶意软件索引
    • 需要处理pydf2json.py第186行中描述的恶意软件索引

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在java中将字符串转换为音频输入   java如何使用Spring Boot RestTemplate解组json列表   计算机上C++ OpenCV项目转换为OpenCV Android的java步骤   Java Spring Telegraf数据表不工作   openurlconnection与connect之间的java差异?   java Solr字段搜索、通配符和转义字符   java如何使用DLFolderLocalServiceUtil类的getFolders()方法?   尝试用Java编写文件   java连续双缓冲解决方案不起作用   两个数组的Java乘积   java Jackson,如何正确编写自定义反序列化程序   java将布尔标志按一定顺序排列以获得更好的性能是否有意义   java Vaadin无缓冲网格无法关闭   java在MySQL中以同一用户身份同时从不同客户端登录安全吗?   java如何使用安卓asynchttp库   java无法在Android中使用AlarmManager停止服务   java在Hibernate的XML配置文件中指定默认值   Spring启动应用程序中的java内存SQLITE不工作   Java代码无法写入文本文件,