使用Python从文本（CSV文件）中提取数据

更新

您将在其中找到四个名称：珍妮·怀特，罗丝·伯克，克里·詹姆斯，亨利·伍兹

我意识到文本CSV文件并不像我想象的那样干净。注释或状态更改之间没有空格。尽管有模式，但并不总是一致的（只有名字和全名）。我更新了模式。通过导出到CSV，您将看到以下内容

亨利于2020年9月22日写道：将表格交给罗斯·伯克 Rose在2020年9月22日写道：发送了介绍电子邮件

变成

亨利于2020年9月22日撰文：分配给罗斯·伯克罗斯的表格于2020年9月22日撰文：发送介绍电子邮件

现在，我还需要更多地考虑清理数据。谢谢你看

1条回答

网友

1楼 · 发布于 2024-05-23 16:49:22

所以我想出了如何使用正则表达式来处理基于模式的注释

接下来的一个可以获取所有不同的日期和所有状态，因为它们都有“更改的状态来源”部分，我可以将单个组与旧状态或新状态进行匹配

regex = r"(\d{1,2}\/\d{1,2}\/\d{4})\:\sChanged\sStatus\sfrom\s([A-Z][a-z]+(\s[a-z]+)?(\s[A-Z][a-z]+)?)\sto\s([A-Z][a-z]+(\s[a-z]+)?(\s[A-Z][a-z]+)?)"

如果我只关注被收养的孩子，这个孩子正好能抓住我需要的日期

regex = r"(\d{1,2}\/\d{1,2}\/\d{4})\:\sChanged\sStatus\sfrom\s([A-Z][a-z]+(\s[a-z]+)?(\s[A-Z][a-z]+)?)\sto\sAdopted(?!\sElsewhere)

另外，我不需要使用for循环。在关注采用日期的特殊情况下，我可以使用以下内容将采用日期添加到Jupyter笔记本中的数据框中

df['Adopted']=df['Comments (inline)'].str.extract(r'(\d{1,2}\/\d{1,2}\/\d{4})\:\sChanged\sStatus\sfrom\s[A-Z][a-z]+(\s[a-z]+)?(\s[A-Z][a-z]+)?\sto\sAdopted(?!\sElsewhere)')

这也意味着我可以只使用原始的CSV文件

更新

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Python从文本（CSV文件）中提取数据

更新

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >