我一直在尝试各种方法,不管我做什么,我都得到一个空白输出。下面是我要导入和解析的文件的简短版本:
<PRESOL>
<DATE>0310
<AGENCY>Defense Logistics Agency
<DESC>*(this is full of HTML tags and the such)*
<URL>https://www.fbo.gov/spg/DLA/J3/DSCR-BSM/SPE4A713R0575/listing.html
<SETASIDE>N/A
</PRESOL>
比如说,在每一个条目之间都有一个“我的地址”和“我的地址”列。在每个标记的数据后面也有返回,当我将其拉入python时,返回结果为“\n”。以下是我目前为止尝试的RegEx(s是我读入文件并重新导入的变量):
^{2}$我尝试过不带“\n”和使用(+?)的方法而不是(.*)。在
如果您需要更多的信息来帮助我,请告诉我,我们将非常感谢您的帮助。我的最终目的是能够很容易地从ftp://ftp.fbo.gov/FBOFeed20130311导入数据(似乎有多种表类型,但我现在关注的是PRESOL,只是为了让这个概念的证明从地面上开始。在
我在ftp中看到了以下示例(我删去了第一个字段以关注popaddress):
由于最后一个字段后面没有\n标记,因此它不匹配。这就是问题所在。在
通过查看FTP中的数据,我发现还有其他多行字段,如DESC、CONTACT,在某些情况下相当大,并被HTML标记包围。也许你最好使用一个更算法化的方法,而不是试图用一个regex解析整个“行”数据。我想可能有足够多的案子可以考虑一行一行地走。在
祝你好运!在
以下是创建一个可以转换为表的数据结构的方法:
花了一些时间,并且能够为FBO数据构建一个解析器函数。我怀疑你还需要它,但也许这会帮助其他人。在
相关问题 更多 >
编程相关推荐