Microsoft Office文档上的任意音译

convertextract的Python项目详细描述


转换提取

===

Build StatusVersionCoverage Status

基于任意对应关系提取和查找/替换文本。这个库是dean malmgren的textract库的分叉。https://github.com/deanmalmgren/textract

文档

安装

要安装,必须安装Python3.4+和PIP。

pip install convertextract

为了支持不同的文件格式,需要为不同的操作系统安装一些源库。有关文档,请访问http://textract.readthedocs.org/en/latest/installation.html

===

基本的cli使用

保留了一些基本的textract函数。有关文档,请访问http://textract.readthedocs.org

基于xlsx转换文件

ConvertExtract需要两个参数:

  1. 包含要转换的文本的文件(从1.0.4版起,这包括.pptx.docx.xlsx.txt
  2. 包含查找/替换对应关系的.xlsx文件。从2.0.1版起,您还可以使用.csv文件,或直接将一系列对应项(如python dict)馈送到processprocess_text

运行命令:

convertextract path/to/foo.docx -l path/to/bar.xlsx

将生成一个新文件path/to/foo_converted.docx,其中包含与path/to/foo.docx相同的内容,但对path/to/bar.xlsx中列出的所有对应项执行查找/替换。

创建.xlsx对应表

您的通信表必须设置如下:

inout
aaå
oeø
aeæ

在这里,此对应表(不包括诸如“替换为”或“查找”之类的标题)将分别用_、_或_替换给定文件中a a、oe或ae的所有实例。

支持的转换

从2.0版起,支持以下转换:

  • Heiltsuk Doulos字体->;Unicode
convertextract path/to/foo.docx -l hei -t Doulos
  • Heiltsuk Times字体->;Unicode
convertextract path/to/foo.docx -l hei -t Times
  • 双字体tsilhqot'->;Unicode
convertextract path/to/foo.docx -l clc -t Doulos
  • 纳瓦霍时代字体->;Unicode
convertextract path/to/foo.docx -l nav -t Times

使用正则表达式

从版本1.5开始,支持正则表达式。如果不需要使用上下文相关转换,则不需要包含它们。但是,如果您这样做了,您应该按如下方式设置通信表:

inoutcontext_beforecontext_after
aaå[k,d]$
aaæt$
aaa:

有关如何准确处理g2p的更多信息,请访问https://github.com/roedoejet/g2p

用作python包

可以在python脚本中使用该包,该脚本返回转换后的文本,但不带格式。运行脚本仍将创建一个foo_converted.docx文件。

importconvertextracttext=convertextract.process('foo.docx',language='bar.xlsx')

您还可以使用convertextract使用process_text在python中转换文本。

importconvertextracttext=convertextract.process_text('test',language=[{'in':'t','out':'p','context_before':'^','context_after':'e'}])

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Cassandra复制因子大于节点数   java J2EE JTA事务回滚不适用于OSE Glassfish 4.0(Build 89)   java spring安全预认证用户登录   org的java类文件。反应流。从RxJava编译示例时未找到Publisher?   java在使用dataFormat作为POJO通过Camel调用Web服务时无法设置SOAP标头   Javafx类的java静态实例   java如何防止一个部件在关闭时覆盖另一个部件的位置   sql server无法从我的java代码连接到数据库   java在JList(Swing)中显示带有的ArrayList   从Java中的CXF服务获取WSAddressing数据   使用资产文件夹进行java简单json解析(本地)   java LDAPException未绑定的无效凭据   JavaJSFspring部署到weblogic   JAVA中字符数组中的特定元素排列?   如果脚本位于不同的目录中,则ant不会使用exec标记运行Javashell脚本