读取并清理xml文件,并另存为txt(特别是Codex SINATICUS xml)

2024-04-20 11:57:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试将一本最古老的基督教圣经(西奈法典)从可以下载的xml(见下面的链接)转换成一个更简单的txt文件,以便进行一些数据/文本分析。我基本上希望圣经中的不同书籍(都是希腊文)在不同的txt文件中,或者以某种明显的方式在同一个txt文件中分开

我尝试了一系列关于使用Python读取和转换xml文件的答案,但它们并不像我预期的那样有效;我从读取文件中得到的输出只是xml的“头”(当我使用记事本读取它时)

我是一名经过培训的数据分析师,通常使用txt、csv等文件,而这本法典的xml对我的头脑有一点帮助。我试着从总体上理解xmls,但这个例子通常很简单,但这个法典似乎很复杂(或者我只是不理解它/我是一个傻瓜/我理解得太慢)

法典如下:https://codexsinaiticus.org/en/project/transcription_download.aspx


Tags: 文件csv数据答案文本txt链接圣经