用于将xml和epubs转换为文本文件的python包
epub-conversion的Python项目详细描述
epub-epub转换
>---------
>使用epubs和wiki转储创建文本体。
这是一个python包,它具有一个将epub和xml(wiki转储)转换为文本、行或python生成器的转换器。
用法:
对于文本文件,用法很简单。首先创建一个converter对象:
converter=converter(“My_ebooks_folder/”)
epub_conversion.utils导入open_book
book=open_book(“twillight.epub”)
然后,您可以按如下方式访问转储:
wiki=epub-conversion.wiki-decoder.almost\u smart-open(“enwiki.bz2”)
以此转储作为**输入**现在让我们使用生成器输出此转储中的所有“title”和“redirection title”对:
redirections={redirect-from:redirect-to
for redirect-from,重定向到in epub_conversion.wiki_decoder.get_redirection_list(wiki)
}
然后:
对于epub-u conversion.wiki-decoder.convert-wiki-to-u-lines(wiki):
process-u-line(line)
另请参见:
——
*[维基百科浏览器](https://github.com/jonathanraiman/wikipedia-ner)一个python模块,它使用“epub-u conversion”处理维基百科转储,并仅输出包含页面的行到页面链接,与链接锚文本提取,并删除所有标记。
>---------
>使用epubs和wiki转储创建文本体。
这是一个python包,它具有一个将epub和xml(wiki转储)转换为文本、行或python生成器的转换器。
用法:
对于文本文件,用法很简单。首先创建一个converter对象:
converter=converter(“My_ebooks_folder/”)
epub_conversion.utils导入open_book
book=open_book(“twillight.epub”)
然后,您可以按如下方式访问转储:
wiki=epub-conversion.wiki-decoder.almost\u smart-open(“enwiki.bz2”)
以此转储作为**输入**现在让我们使用生成器输出此转储中的所有“title”和“redirection title”对:
redirections={redirect-from:redirect-to
for redirect-from,重定向到in epub_conversion.wiki_decoder.get_redirection_list(wiki)
}
然后:
对于epub-u conversion.wiki-decoder.convert-wiki-to-u-lines(wiki):
process-u-line(line)
另请参见:
——
*[维基百科浏览器](https://github.com/jonathanraiman/wikipedia-ner)一个python模块,它使用“epub-u conversion”处理维基百科转储,并仅输出包含页面的行到页面链接,与链接锚文本提取,并删除所有标记。