用于将xml和epubs转换为文本文件的python包

epub-conversion的Python项目详细描述


epub-epub转换
>---------


>使用epubs和wiki转储创建文本体。
这是一个python包,它具有一个将epub和xml(wiki转储)转换为文本、行或python生成器的转换器。


用法:

















对于文本文件,用法很简单。首先创建一个converter对象:

converter=converter(“My_ebooks_folder/”)

epub_conversion.utils导入open_book

book=open_book(“twillight.epub”)



然后,您可以按如下方式访问转储:


wiki=epub-conversion.wiki-decoder.almost\u smart-open(“enwiki.bz2”)



以此转储作为**输入**现在让我们使用生成器输出此转储中的所有“title”和“redirection title”对:

redirections={redirect-from:redirect-to
for redirect-from,重定向到in epub_conversion.wiki_decoder.get_redirection_list(wiki)
}


然后:



对于epub-u conversion.wiki-decoder.convert-wiki-to-u-lines(wiki):
process-u-line(line)




另请参见:
——

*[维基百科浏览器](https://github.com/jonathanraiman/wikipedia-ner)一个python模块,它使用“epub-u conversion”处理维基百科转储,并仅输出包含页面的行到页面链接,与链接锚文本提取,并删除所有标记。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java SimpleCursorAdapter删除值   java结束while循环条件   java检查设备是否连接到特定网络   java组织。冬眠MappingException找不到逻辑名称为annotation getter的列   为什么java邮件中会抛出此异常?   加载SDK时发生java Eclipse错误   返回奇怪输出的Java数组   JavaXStream和对象类序列化   将枚举列表传递给namedQuery后出现java非法转换异常。Hibernate中的setParameter()   java Android studio不允许我在字符串上使用开关?   有没有办法从Java程序访问存储在Chrome中的cookie   java在枚举中构造实例而不修改枚举类   java Blackberry JDE FieldChangeListener   java修复错误:未报告的异常InterruptedException   java Spring数据JPA:findAll(具有规范和可分页)在计数查询中失败