Python TextSpitter包_程序模块 - PyPI

从文档文件中吐出文本的python包！

TextSpitter的Python项目详细描述

感谢您使用textspitter！！

我创建了这个小应用程序来帮助我处理来自文件夹集和批处理的文档。与其试图确定每个文件类型并相应地进行处理，我认为读取文件名然后相应地路由文本提取函数会更为谨慎。另外，由于该死的poppler，我很难让textract/pdftotext工作。所以我没有在6个多小时后对整个过程进行故障排除，而是认为这样更省时。

这是我的第一个python模块，所以我希望我做得很好！

安装

键入pip install TextSpitter
可选键入pip install PyMuPDF以安装python mupdf引擎，提高文本提取的逼真度（即：保持正确的白间距）
您需要按照说明来确保pymupdf的依赖项安装到您的系统中。Windows、Linux和MacOSX都提供了轮子和二进制文件，不过如果您使用的是像netbsd/freebsd/specialty Linux发行版这样奇怪的版本，那么您可能需要sol。幸运的是，诸如yum、pkgin、apt-get等cli选项将直接从终端提供包。
详细的说明，请访问这里：https://github.com/rk700/PyMuPDF也许给那些家伙一些荣誉，因为他们的尾巴工作了。

方向

这个模块被设计成尽可能简单地运行。只需在参数中提供文件位置字符串数据，并将文本返回给您。

from TextSpitter import TexSpitter as TS
import sqlite3


folder_loc = 'foo/bar/'

# doc_file = folder_loc + 'file_thing.doc'
docx_file = folder_loc + 'file_thing.docx'
pdf_file = folder_loc + 'file_thing.pdf'
text_file = folder_loc + 'file_thing.txt'

doc_tup = (docx_file, pdf_file, text_file)
# doc_tup = (doc_file, docx_file, pdf_file, text_file)

# SQL code to write to database
conn = sqlite3.connect('example_db')
c= conn.cursor()

STMNT = 'INSERT INTO doc_contents VALUE %s'

# For Loop code to insert doc content into db
for ele in doc_tup:
	text = TS(ele)
	c.executemany(STMNT, text)
	print('Done!  Wrote the following to db: %s', (text[:25]))

待办事项

[X]按到Github
[X]由于遗留格式的大量专有需求，删除.doc支持
[]整理文档
[]征求反馈
[]将功能扩展到其他文件类型
[]TDB

想要贡献！？

哦，天哪，请这样做。

只需发出一个请求并添加您想要的内容（或者修复您想要的内容）。如果一切顺利的话，我会审查和批准的。

谢谢大家！

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
fsecada01
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
从Django temp访问容器的方法
从Django temp请求ModelForm实例
从Django temp返回JSON
从Django timesince模板等效项中删除尾部数据
从Django timesin删除尾随数据
从Django UpdateView模板下载文件
从Django url传递“start”会出现错误“start（）只接受2个参数（给定1个）”
从Django url运行的websockets错误：RuntimeError:线程“Dummy1”中没有当前事件循环
从Django user mod获取用户全名
从Django UserCreateForm中删除帮助文本
从Django values（）获取外键值
从Django vi中的按钮获取click事件
从Django vi从HttpResponse检索JSON
从Django vi以json形式返回的数据中检索元素
从Django vi取消或取消eventlet中的芹菜任务

TextSpitter 0.3.1

TextSpitter的Python项目详细描述

感谢您使用textspitter！！

安装

方向

待办事项

想要贡献！？

推荐PyPI第三方库

pcpartscraper

infoselect

hahapython

melugd-probabilit

tendencia-utils

f5

guzzlesphinxtheme

NSFopen

rdfizer

jccli

liquidata

qrcodecreator

rc-distributions

printListModuleAshwin

hos

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

TextSpitter 0.3.1

TextSpitter的Python项目详细描述

感谢您使用textspitter！！

安装

方向

待办事项

想要贡献！？

推荐PyPI第三方库

pcpartscraper

infoselect

hahapython

melugd-probabilit

tendencia-utils

f5

guzzlesphinxtheme

NSFopen

rdfizer

jccli

liquidata

qrcodecreator

rc-distributions

printListModuleAshwin

hos

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签