用R/Python从非结构化数据中提取数据集

2024-04-28 06:18:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我们正试图从旅行申请中提取旅行日程,这些申请由标准化的审计人员填写。在

Couldn't upload the image

示例:

EY  275   13FEB HYDAUH 0425   0715  

这里的数据暗示如下

^{pr2}$

这里我们需要从原始文本字段中提取单独的数据元素,然后将它们映射到各自的旅行字段并计算几个值。在

在R/Python中是否有程序可以用最少的努力实现它们。在

我正在寻找数据分割/映射的现有函数/过程。在


Tags: 数据函数文本程序元素示例人员过程
1条回答
网友
1楼 · 发布于 2024-04-28 06:18:54

如果您可以提取单个记录(如第二个示例所示),并且字段之间始终至少有一个空格,那么在Python中提取单个数据片段很简单:

>>> itin = 'EY  275   13FEB HYDAUH 0425   0715'
>>> ifields = itin.split()
>>> ifields[0] # travel type
'EY'
>>> ifields[1] # flight number
'275'
>>> ifields[2] # date of travel
'13FEB'
>>> ifields[3][0:3] # departure airport
'HYD'
>>> ifields[3][3:6] # destination airport
'AUH'
>>> ifields[4] # boarding time
'0425'
>>> ifields[5] # landing time
'0715'

您的第一个示例显示了直接从第一个记录开始的第二个记录,没有空格-对吗?如果是这样,每个记录的长度是否总是相同的字符数?在

^{pr2}$

如果数据在一行上有多条可变长度的记录,或者每个字段之间可能有空格也可能没有空格,那么解析会变得更复杂,但在Python中仍然相当容易。在这种情况下,请张贴一个更完整的例子和几个记录,并显示你想要得到的输出。在

相关问题 更多 >