Python excalibur-p包_程序模块 - PyPI

从PDF中提取表格数据的Web界面。

excalibur-p的Python项目详细描述

excalibur：从pdf中提取表格数据的web界面

excalibur是一个从pdf中提取表格数据的web界面，用python 3编写！它由Camelot提供动力。

注意：excalibur仅适用于基于文本的pdf，而不适用于扫描的文档。（如表格explains，“如果您可以单击并拖动以在pdf查看器中选择表中的文本，则pdf是基于文本的”。

使用excalibur

注意：在前进之前需要install ghostscript。

在installing Excalibur with pip之后，您需要使用：

$ excalibur initdb

然后使用：

$ excalibur webserver

就这样！现在您可以转到http://localhost:5000并开始从PDF中提取表格数据。

upload一个pdf文件，并输入要从中提取表的页码。
转到每页并通过在其周围画一个框来选择表。（您可以选择跳过此步骤，因为excalibur可以自己自动检测表。单击“autodetect tables”查看excalibur看到的内容。）
从“advanced”中选择口味（晶格或流）。
a.lattice：用于由行组成的表。
b.stream：用于由空白组成的表。
单击“view并下载数据”以查看提取的表。
选择您喜欢的格式（csv/excel/json/html）并单击“下载”“！

注意：您还可以从releases page下载Windows和Linux的可执行文件并直接运行它们！

为什么是埃克斯卡利伯？

从pdf中提取表是困难的。简单地从pdf复制粘贴到excel并不能保留表结构。excalibur通过自动检测pdf中的表并将它们保存到csv和excel文件中，使pdf表提取变得非常容易。
excalibur在引擎盖下使用Camelot，这为您提供了额外的设置来调整表提取并获得最佳结果。您可以看到它的性能如何优于其他开源工具和库in this comparison。
您可以为pdf保存一次表提取settings（类似于表区域），并将它们应用于新的pdf以提取具有类似结构的表。
你可以完全控制你的数据。所有文件存储和处理都在您自己的本地或远程计算机上进行。
excalibur可以配置mysql和celeriy以实现并行和分布式工作负载。默认情况下，sqlite和多处理用于顺序工作负载。

安装

使用pip

在安装了camelot的要求之一ghostscript（参见install instructions）之后，您只需使用pip安装excalibur即可：

$ pip install excalibur-py

从源代码

安装ghostscript后，使用以下命令克隆repo：

$ git clone https://www.github.com/camelot-dev/excalibur

并使用pip安装excalibur:

$ cd excalibur
$ pip install .

文档

精彩的文档可以在http://excalibur-py.readthedocs.io/找到。

开发

Contributor's Guide包含有关贡献代码、文档、测试等的详细信息。我们在自述文件中包含了一些基本信息。

源代码

您可以使用以下网址查看最新的来源：

$ git clone https://www.github.com/camelot-dev/excalibur

建立一个开发环境

使用pip:

$ pip install excalibur-py[dev]

测试（即将）

安装后，您可以使用以下命令运行测试：

$ python setup.py test

版本控制

excalibur使用Semantic Versioning。有关可用版本，请参阅此存储库上的标记。对于变更日志，您可以签出HISTORY.md。

许可证

此项目是在mit许可下授权的，有关详细信息，请参见LICENSE文件。

支持开发
你可以用一次或每月的捐款来支持我们关于excalibur的工作。使用excalibur的组织还可以赞助项目，以获得对our official site和本自述文件的确认。
特别感谢所有支持excalibur的用户和组织！
标签：
install
pip
数据
文档
py
web
界面
pdf
表格
excalibur
欢迎加入QQ群-->： 979659372
推荐PyPI第三方库
textparser
文本解析器。
cmsplugin-phlog
Django CMS图片库插件
hobo
一种简易的滚刀数据读取模块
Collectors
监视（simpy）仿真模型或其他对象并从中收集数据。
Mahadiscom
mahadiscom的python api
csv2es
批量导入csv或tsv到弹性搜索
python-cim
用于windows wmi cim respository数据库的纯python解析器。
django-pj-core
Django的其他实用程序
python-vpic
vpic api的简单包装。
ambition-reference
野心
centreseq
细菌核心基因组的快速生成
ejabberd_htpasswd
另一个ejabberd身份验证桥使用apache风格的htpasswd文件
squirrel-bookmarks
开发分支之间的书签系统。
django-addle
用于管理广告和内部促销的django应用程序。
fargatespawner
在aws fargate中运行的docker容器中生成jupyterhub单用户服务器

导航栏
项目描述
版本历史
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
vinayakmehta
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
将Pandas数据帧转换为PyTorch张量？
将Pandas数据帧转换为scipy稀疏矩阵
将Pandas数据帧转换为Spark Datafram时出现问题
将pandas数据帧转换为spark DataFram时出错
将Pandas数据帧转换为spark datafram时收到错误
将Pandas数据帧转换为Spark数据帧
将Pandas数据帧转换为Tensorflow数据
将Pandas数据帧转换为tkinter obj
将pandas数据帧转换为XML
将Pandas数据帧转换为值sql语句
将pandas数据帧转换为元组
将pandas数据帧转换为元组列表
将pandas数据帧转换为元组列表并删除所有pandas数据类型
将pandas数据帧转换为具有头和数据类型的numpy数组
将pandas数据帧转换为内存中的拼花地板，并将其加载到Python中的Hadoop中

excalibur-py 0.4.2

excalibur-p的Python项目详细描述

excalibur：从pdf中提取表格数据的web界面

使用excalibur

为什么是埃克斯卡利伯？

安装

使用pip

从源代码

文档

开发

源代码

建立一个开发环境

测试（即将）

版本控制

许可证

推荐PyPI第三方库

textparser

cmsplugin-phlog

hobo

Collectors

Mahadiscom

csv2es

python-cim

django-pj-core

python-vpic

ambition-reference

centreseq

ejabberd_htpasswd

squirrel-bookmarks

django-addle

fargatespawner

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签