在pandas数据框中对唯一连续的一对项目进行排序

array([['a', 125183.195], ['t', 125529.335], ['t', 125626.555], ['a', 125632.485], ['h', 125755.395], ['h', 125868.105], ['e', 125892.82], ['e', 126007.555], [' ', 126113.25], [' ', 126221.61], ['w', 126695.285], ['w', 126827.34], ['-', 127149.21], ['-', 127269.435], ['s', 127668.525], ['h', 127789.04], ['s', 127800.76], ['h', 127887.645]])

array([['a', 125183.195], ['a', 125632.485], ['t', 125529.335], ['t', 125626.555], ['h', 125755.395], ['h', 125868.105], ['e', 125892.82], ['e', 126007.555], [' ', 126113.25], [' ', 126221.61], ['w', 126695.285], ['w', 126827.34], ['-', 127149.21], ['-', 127269.435], ['s', 127668.525], ['s', 127800.76], ['h', 127789.04], ['h', 127887.645]])

2条回答

网友
1楼 · 编辑于 2024-06-11 06:44:41

如果要按字符串列排序，可以执行以下操作：
df = pd.DataFrame([['a', 125183.195], ['t', 125529.335], ['t', 125626.555], ['a', 125632.485], ['h', 125755.395], ['h', 125868.105], ['e', 125892.82], ['e', 126007.555], [' ', 126113.25], [' ', 126221.61], ['w', 126695.285], ['w', 126827.34], ['-', 127149.21], ['-', 127269.435], ['s', 127668.525], ['h', 127789.04], ['s', 127800.76], ['h', 127887.645]], columns=["letter", "number"])
由于顺序很重要，而且必须是顺序的，所以我提出的解决方案不是很好，但它是有效的：
创建新数据帧
创建放置在框架中的索引列表
在帧上循环附加元素和第一个出现的对避免已包含的索引
df_2 = pd.DataFrame(columns=["letter", "number"]) indexes = [] for i in range(len(df)): if i not in indexes: df_2 = df_2.append( df.loc[i,:]) letter = df.loc[i,"letter"] indexes.append(i) for j in range(i+1, len(df)): if ((df.loc[j,"letter"] == df.loc[i,"letter"]) and (j not in indexes)): df_2 = df_2.append( df.loc[j,:]) indexes.append(j) break;
输出：
array([['a', 125183.195], ['a', 125632.485], ['t', 125529.335], ['t', 125626.555], ['h', 125755.395], ['h', 125868.105], ['e', 125892.82], ['e', 126007.555], [' ', 126113.25], [' ', 126221.61], ['w', 126695.285], ['w', 126827.34], ['-', 127149.21], ['-', 127269.435], ['s', 127668.525], ['s', 127800.76], ['h', 127789.04], ['h', 127887.645]], dtype=object)
希望这有帮助。你知道吗

网友
2楼 · 编辑于 2024-06-11 06:44:41

如果我理解正确，您希望每次看到一个字母两次时都使用递增值作为键，即：
from itertools import count import pandas as pd df = pd.DataFrame(data=data, columns=['letters', 'value']) def lookup(v, d={}, c=count()): if v in d: return d.pop(v) else: d[v] = next(c) return d[v] df['key'] = df.letters.map(lookup) print(df)
输出
letters value key 0 a 125183.195 0 1 t 125529.335 1 2 t 125626.555 1 3 a 125632.485 0 4 h 125755.395 2 5 h 125868.105 2 6 e 125892.820 3 7 e 126007.555 3 8 126113.250 4 9 126221.610 4 10 w 126695.285 5 11 w 126827.340 5 12 - 127149.210 6 13 - 127269.435 6 14 s 127668.525 7 15 h 127789.040 8 16 s 127800.760 7 17 h 127887.645 8
一旦有了键列，只需按它排序（并删除它）：
print(print(df.sort_values(by='key', kind='mergesort').drop('key', axis=1)))
输出
letters value 0 a 125183.195 3 a 125632.485 1 t 125529.335 2 t 125626.555 4 h 125755.395 5 h 125868.105 6 e 125892.820 7 e 126007.555 8 126113.250 9 126221.610 10 w 126695.285 11 w 126827.340 12 - 127149.210 13 - 127269.435 14 s 127668.525 16 s 127800.760 15 h 127789.040 17 h 127887.645
要保留外观顺序，请使用stable sort，例如merge sort（由参数kind='merge-sort'指定）。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章