我正在写一个程序来解析IETF的互联网草案,并提取出诸如标题、日期、协议和作者所在国家之类的东西。我知道这以前也做过(arkko.com网站),但这是一个自我强加的编程练习。你知道吗
我遇到的问题是:
使用一些逻辑,一些基本的解析,和
position = doc.tell()
我已经在每个文档中准确地确定了我需要开始检查行并寻找、识别和提取作者的原籍国的点。我可以通过以下几点来达到这一点:
doc.seek(position)
我的问题是…然后呢?到了那个位置,我尝试了我知道的所有文件和字符串方法的组合,开始解析任意数量的以下行,但我无法使它工作。你知道吗
抱歉,我没有任何完整的代码片段,但我已经尝试了太多,我想我可能在这一点上是完全错误的。你知道吗
编辑:实际上我想出了一个相当简单的解决方案:
我浏览了一次文件,计算了行数,并记下了需要开始解析的行数。你知道吗
然后我再次检查文件,计算行数,当行号大于第一行号时,我开始解析。你知道吗
可能不是最优雅的解决方案,因为我认为我应该能够使用seek医生()以避免第二次计数,但它是有效的。现在我知道了字符串和文件操作的一个领域,我需要进一步探索。你知道吗
您只需调用
doc.read(some_buffer_length)
,就会得到一个字符串。你知道吗如何处理该字符串是一个完全独立的问题,但它是否来自文件的开头并不重要。你知道吗
相关问题 更多 >
编程相关推荐