从txt文件中提取数据

2024-04-29 00:12:36 发布

您现在位置:Python中文网/ 问答频道 /正文

好吧,我正在使用gitbash中的git。我的证券交易委员会在这个硬盘上运行。我用的是Win7。txt文件中有HTML标记。在

我想知道的是,自从90年代初以来,文本文件都是SEC机构的严格格式,比如说,是否有方法提取某个项目

<us-gaap:IncomeTaxExpenseBenefit contextRef="eol_PE9523----1310-K0013_STD_365_20131231_0" 

decimals="-3" id="id_3914012_7F3BEF88-8CD1-49E7-8A78-91A091178D1B_1_13" 

unitRef="iso4217_USD">40315000</us-gaap:IncomeTaxExpenseBenefit>

无论是使用脚本还是git存储库,因为格式很严格?例如,如何从txt文件中提取孔参数表?库、git、脚本只要稍加修改就可以开始了。在

这些傻瓜能进来做这样的工作吗?我读了说明书(只要有),但我不懂很多东西。在


Tags: 文件gittxt脚本idhtml格式us
1条回答
网友
1楼 · 发布于 2024-04-29 00:12:36

不是HTML。它看起来像XML—尝试使用Python的XML解析器,例如ElementTree,并解析出相关信息。教程包含在他们的页面上。在

相关问题 更多 >