一个简单的cli工具,允许提取包含在文档中的所有文本。

documentparser的Python项目详细描述


#文档分析器

A simple CLI tool that allow to extract all text contained into a document.

安装

在安装documentparser之前执行以下命令

debian/ubuntu

  • sudo apt get update
  • sudo apt get install build essential libpoppler cpp dev pkg config python dev
  • apt get install python dev libxml2 dev libxslt1 dev antiword unrtf poppler utils pstotext tesseract ocr
    flac ffmpeg lame libmad0 libso-fmt-mp3 sox libjpeg dev swigx
  • pip安装docparser

macosx

  • brew安装包配置poppler
  • 啤酒桶安装Xquartz
  • brew安装poppler antiword unrtf tesseract swig

Fedora/中心

在开始之前,您必须知道在基于Fedora的系统中没有快速安装DocParser的方法。 这是由一些缺失的家属造成的。这可能是最难的方法,但最终你会为自己感到骄傲。

  • Yum-Y更新
  • Yum安装python pip

Required by the .docx parser which uses lxml via python-docx.

  • Yum安装libxml2 libxslt devel libxml2 devel

Required by the .docx parser which users lxml via python-docx.

  • Yum安装libxslt

Required by the .doc and .ps parser.

Require by .pdf parser

*Yum安装poppler实用程序

Requred by .jpg, .png, gif parser

  • CD/OPT

  • yum-y安装libstdc++autoconf automake libtool autoconf archive pkg config gcc-c++make libjpeg-devel libpng-devel libtiff-devel zlib-devel

Install AutoConf-Archive

Install Leptonica from Source

Install Tesseract from Source

  • wgethttps://github.com/tesseract-ocr/tesseract/archive/3.05.01.tar.gz
  • 焦油-zxvf 3.05.01.tar.gz
  • CD-Tesseract-3.05.01
  • /autogen.sh
  • pkg_config_path=/usr/local/lib/pkgconfig liblept_headersdir=/usr/local/include./configure—带额外的include=/usr/local/include—带额外的库=/usr/local/lib
  • ldflags=“-l/usr/local/lib”cflags=“-i/usr/local/include”品牌
  • 进行安装
  • ldconfig
  • CD..

Download and install tesseract language files

Download Hindi Cube data

Required by .mp3 and .ogg parser

  • Yum安装SOX
  • rm cert-forensics-tools-release-el7.rpm

Install textract without unsupported features

  • git克隆https://github.com/deanmalmgren/textract.git

  • rm textract/requirements/python&;cp requirements/textract/python textract/requirements/python

  • cd textract&;chmod+x setup.py

  • python setup.py安装

  • yum安装gcc-c++pkgconfig poppler c p p devel python devel redhat rpm config

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java检查服务器端广告查看(php)   Java将注释的使用限制在某些类型的方法上?   java使用gson重用顶级模型   当Java Spring作为Docker容器运行时,它不会与Concur对话   通过Java在不使用新URL()的情况下加载文件   Dicom4che调用的java结果不显示umlaut字符   java Updatea使用php/codeigniter使用ajax/javascript映射标记   Java8中的javaspringboot@ExceptionHandler未被访问   java如何读取长度未知的用户输入?   EclipseJava在MacBook和OSX上的性能非常差,而在Windows下在同一个单元上的性能就不那么差了,为什么?   java在Lucene查询语法中与+有什么区别   使用Spark和Cassandra Java驱动程序时检测到番石榴问题#1635   java工具栏标题未显示在选项卡式活动中