Python2.7:如何在文档中间开始解析

2024-04-25 06:59:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在写一个程序来解析IETF的互联网草案,并提取出诸如标题、日期、协议和作者所在国家之类的东西。我知道这以前也做过(arkko.com网站),但这是一个自我强加的编程练习。你知道吗

我遇到的问题是:

使用一些逻辑,一些基本的解析,和

position = doc.tell()

我已经在每个文档中准确地确定了我需要开始检查行并寻找、识别和提取作者的原籍国的点。我可以通过以下几点来达到这一点:

doc.seek(position)

我的问题是…然后呢?到了那个位置,我尝试了我知道的所有文件和字符串方法的组合,开始解析任意数量的以下行,但我无法使它工作。你知道吗

抱歉,我没有任何完整的代码片段,但我已经尝试了太多,我想我可能在这一点上是完全错误的。你知道吗

编辑:实际上我想出了一个相当简单的解决方案:

我浏览了一次文件,计算了行数,并记下了需要开始解析的行数。你知道吗

然后我再次检查文件,计算行数,当行号大于第一行号时,我开始解析。你知道吗

可能不是最优雅的解决方案,因为我认为我应该能够使用seek医生()以避免第二次计数,但它是有效的。现在我知道了字符串和文件操作的一个领域,我需要进一步探索。你知道吗


Tags: 文件字符串程序协议标题docpositionseek