Python正则表达式从具有各种结构的文件中提取数据问题的回答

Python正则表达式从具有各种结构的文件中提取数据

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个包含许多行的文件，我想从中提取数据。结构与此类似 <pre><code>Detected 3 gas in sample. Composition :\r\n Very low Helium (1.5% total)\r\n Medium Oxygen (20% total)\r\n Low Nitrogen (6.5% total)\r\n Detected 0 gas in sample. Composition :\r\n Detected 2 gas in sample. Composition :\r\n Low Carbon monoxide (5% total)\r\n Very high Helium (80% total)\r\n Traces of Oxygen\r\n Detected 1 gas in sample. Composition :\r\n Medium Nitrogen (18.5% total)\r\n Traces of Helium, Argon\r\n </code></pre> 我想使用正则表达式提取数据，以获得类似于此的数据数组（理想情况下是数据帧） <div class="s-table-container"> ^{tb1}$ </div> 第一列是dataframe固有的。第二个可以从每行的第一句话中提取，也可以通过考虑已知成分百分比的气体数量轻松获得（因此可以忽略第一句话）。我给出的示例总结了所有不同的线条结构： <ul> <li>气体成分总和不等于100%（由于未检测到气体），并且可能可以是整数或浮点数</li> <li>气体名称可以是一个或多个单词，但始终以大写字符开头</li> <li>气体比例以小文本、“非常低”等为特征，也可以是一个或多个单词，但始终以大写字母开头</li> <li>检测到但成分太低的气体列在末尾，以“痕量”开头，不算作“检测到”</li> <li>有时没有检测到气体</li> <li>气体检测用换行符分隔<code>\r\n</code></li> </ul> 此外，打开文件时，无法预先知道所有可能检测到的气体的列表，即，必须根据文件中的数据构建列。我真的开始学习正则表达式，这可能是一个有点雄心勃勃的开始。我试图在正则表达式中翻译类似“匹配所有序列，从大写开始，后跟任意数量的小写字符或介于<code>(</code>和<code>% total)</code>之间的序列”，这通常会给我（忽略每行的第一句话）类似<code>['Very low','Helium','1.5','Medium','Oxygen','20',...]</code>的内容。但我真的很难把它翻译成regex，即使在regex101.com的帮助下，我也不确定事情是如何运作的 我真的很高兴能得到一些帮助和解释为什么你的解决方案有效

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

Python正则表达式从具有各种结构的文件中提取数据

1 个回答

相关Python问题