如何从pandas中的列创建一个惟一ID列表，其中ID列表在Python中被称为字符串

import pandas as pd lst = [23682, 21963, 9711, 21175, 13022,1662,7399, 13679, 17654,4567,23608,2828, 1234] lst_match = ['[21963]','[21175]', '[1662 7399 13679 ]','[17654 23608]','[2828]','0','0','0','0','0','0', '0','0' ] df = pd.DataFrame(list(zip(lst, lst_match)),columns=['ID','ID_match'])

ID 0 23682 1 21963 2 9711 3 21175 4 13022 5 1662 6 7399 7 13679 8 17654 9 23608 10 2828

2条回答

网友

1楼 · 编辑于 2024-06-02 08:03:31

这些看起来像列表的字符串表示。因此您可以使用ast.literal_eval和itertools.chain：

from ast import literal_eval
from itertools import chain

s = df['ID_match'].astype(str).str.replace(' ', ',').apply(literal_eval)
L = list(chain.from_iterable(s[s != 0]))

res = pd.DataFrame({'ID': df.loc[df['ID_match'] != 0, 'ID'].tolist() + L})\
        .drop_duplicates().reset_index(drop=True)

print(res)

       ID
0   23682
1   21963
2    9711
3   21175
4   13022
5    1662
6    7399
7   13679
8   17654
9   23608
10   2828

网友

2楼 · 编辑于 2024-06-02 08:03:31

使用：

s = (df[df['ID_match'] != '0']
       .set_index('ID')['ID_match']
       .str.strip('[ ]')
       .str.split('\s+', expand=True)
       .stack())
print (s)
23682  0    21963
21963  0    21175
9711   0     1662
       1     7399
       2    13679
21175  0    17654
       1    23608
13022  0     2828
dtype: object


vals = s.index.get_level_values(0).to_series().append(s.astype(int)).unique()
df = pd.DataFrame({'ID':vals})
print (df)
       ID
0   23682
1   21963
2    9711
3   21175
4   13022
5    1662
6    7399
7   13679
8   17654
9   23608
10   2828

说明：

首先用^{}过滤掉所有非0值
按ID列按^{}创建索引
用^{}删除尾随的[ ]
^{}值并按^{}调整形状
然后通过^{}获得第一级MultiIndex，并转换^{}
^{}系列s转换为integers
获取^{}值和最后调用DataFrame构造函数

相关问题更多 >

编程相关推荐

热门问题

热门文章