Pandas组应用程序执行

3条回答

网友

1楼 · 编辑于 2024-05-23 18:52:48

问题是，我相信，你的数据有5300个不同的组。因此，在你的功能中任何慢的东西都会被放大。您可以在函数中使用向量化操作而不是for循环来节省时间，但是一种更简单的方法是return 0而不是return group。当您return group时，pandas将实际创建一个新的数据对象，该对象将组合排序后的组，而您似乎不使用这些组。当您return 0时，pandas将组合5300个零，这要快得多。

例如：

cols = ['ID_number','TimeOfDay','TypeOfCargo','TrackStart']
groups = df.groupby(cols)
print(len(groups))
# 5353

%timeit df.groupby(cols).apply(lambda group: group)
# 1 loops, best of 3: 2.41 s per loop

%timeit df.groupby(cols).apply(lambda group: 0)
# 10 loops, best of 3: 64.3 ms per loop

只需将不使用的结果合并起来大约需要2.4秒；剩下的时间是循环中的实际计算，您应该尝试将其矢量化。

编辑：

通过在for循环之前进行快速的向量化检查并返回0，而不是group，我将时间减少到大约~2sec，这基本上是对每个组进行排序的成本。尝试此功能：

def Full_coverage(group):
    if len(group) > 1:
        group = group.sort('SectionStart', ascending=True)

        # this condition is sufficient to find when the loop
        # will add to the list
        if np.any(group.values[1:, 4] != group.values[:-1, 5]):
            start_km = group.iloc[0,4]
            end_km = group.iloc[0,5]
            end_km_index = group.index[0]

            for index, (i, j) in group.iloc[1:,[4,5]].iterrows():
                if i != end_km:
                    incomplete_coverage.append(('Expected startpoint: '+str(end_km)+' (row '+str(end_km_index)+')', \
                                        'Found startpoint: '+str(i)+' (row '+str(index)+')'))                
                start_km = i
                end_km = j
                end_km_index = index

    return 0

cols = ['ID_number','TimeOfDay','TypeOfCargo','TrackStart']
%timeit df.groupby(cols).apply(Full_coverage)
# 1 loops, best of 3: 1.74 s per loop

编辑2：这里有一个例子，其中包含了我的建议，将排序移到groupby之外，并删除不必要的循环。对于给定的示例，删除循环的速度不会快得多，但如果有许多不完整项，则速度会更快：

def Full_coverage_new(group):
    if len(group) > 1:
        mask = group.values[1:, 4] != group.values[:-1, 5]
        if np.any(mask):
            err = ('Expected startpoint: {0} (row {1}) '
                   'Found startpoint: {2} (row {3})')
            incomplete_coverage.extend([err.format(group.iloc[i, 5],
                                                   group.index[i],
                                                   group.iloc[i + 1, 4],
                                                   group.index[i + 1])
                                        for i in np.where(mask)[0]])
    return 0

incomplete_coverage = []
cols = ['ID_number','TimeOfDay','TypeOfCargo','TrackStart']
df_s = df.sort_values(['SectionStart','SectionStop'])
df_s.groupby(cols).apply(Full_coverage_nosort)

网友

2楼 · 编辑于 2024-05-23 18:52:48

我发现熊猫定位命令（.loc或.iloc）也在减缓进程。通过将sort移出循环并在函数开始时将数据转换为numpy数组，我得到了一个更快的结果。我知道数据不再是数据帧，但是列表中返回的索引可用于在原始df中查找数据。

如果有任何方法可以进一步加快这一进程，我将非常感谢你的帮助。到目前为止我所拥有的：

def Full_coverage(group):

    if len(group) > 1:
        group_index = group.index.values
        group = group.values

        # this condition is sufficient to find when the loop will add to the list
        if np.any(group[1:, 4] != group[:-1, 5]):
            start_km = group[0,4]
            end_km = group[0,5]
            end_km_index = group_index[0]

            for index, (i, j) in zip(group_index, group[1:,[4,5]]):

                if i != end_km:
                    incomplete_coverage.append(('Expected startpoint: '+str(end_km)+' (row '+str(end_km_index)+')', \
                                        'Found startpoint: '+str(i)+' (row '+str(index)+')'))               
                start_km = i
                end_km = j
                end_km_index = index

    return 0

incomplete_coverage = []
df.sort(['SectionStart','SectionStop'], ascending=True, inplace=True)
cols = ['ID_number','TimeOfDay','TypeOfCargo','TrackStart']
%timeit df.groupby(cols).apply(Full_coverage)
# 1 loops, best of 3: 272 ms per loop

网友

3楼 · 编辑于 2024-05-23 18:52:48

问题是，我相信，你的数据有5300个不同的组。因此，在你的功能中任何慢的东西都会被放大。可能可以使用矢量化操作而不是函数中的for循环来节省时间，但省去几秒钟的一个更简单的方法是return 0，而不是return group。当您return group时，pandas将实际创建一个新的数据对象，该对象将组合排序后的组，而您似乎不使用这些组。当您return 0时，pandas将组合5300个零，这要快得多。

例如：

cols = ['ID_number','TimeOfDay','TypeOfCargo','TrackStart']
groups = df.groupby(cols)
print(len(groups))
# 5353

%timeit df.groupby(cols).apply(lambda group: group)
# 1 loops, best of 3: 2.41 s per loop

%timeit df.groupby(cols).apply(lambda group: 0)
# 10 loops, best of 3: 64.3 ms per loop

只需将不使用的结果合并起来大约需要2.4秒；剩下的时间是循环中的实际计算，您应该尝试将其矢量化。

编辑：

通过在for循环之前进行快速的向量化检查并返回0，而不是group，我将时间减少到大约~2sec，这基本上是对每个组进行排序的成本。尝试此功能：

def Full_coverage(group):
    if len(group) > 1:
        group = group.sort('SectionStart', ascending=True)

        # this condition is sufficient to find when the loop
        # will add to the list
        if np.any(group.values[1:, 4] != group.values[:-1, 5]):
            start_km = group.iloc[0,4]
            end_km = group.iloc[0,5]
            end_km_index = group.index[0]

            for index, (i, j) in group.iloc[1:,[4,5]].iterrows():
                if i != end_km:
                    incomplete_coverage.append(('Expected startpoint: '+str(end_km)+' (row '+str(end_km_index)+')', \
                                        'Found startpoint: '+str(i)+' (row '+str(index)+')'))                
                start_km = i
                end_km = j
                end_km_index = index

    return 0

cols = ['ID_number','TimeOfDay','TypeOfCargo','TrackStart']
%timeit df.groupby(cols).apply(Full_coverage)
# 1 loops, best of 3: 1.74 s per loop

def Full_coverage_new(group):
    if len(group) > 1:
        mask = group.values[1:, 4] != group.values[:-1, 5]
        if np.any(mask):
            err = ('Expected startpoint: {0} (row {1}) '
                   'Found startpoint: {2} (row {3})')
            incomplete_coverage.extend([err.format(group.iloc[i, 5],
                                                   group.index[i],
                                                   group.iloc[i + 1, 4],
                                                   group.index[i + 1])
                                        for i in np.where(mask)[0]])
    return 0

incomplete_coverage = []
cols = ['ID_number','TimeOfDay','TypeOfCargo','TrackStart']
df_s = df.sort_values(['SectionStart','SectionStop'])
df_s.groupby(cols).apply(Full_coverage_nosort)

相关问题更多 >

编程相关推荐

热门问题

热门文章