在列中的字典内的值上的dataframe上删除重复项

{'calculado': {73683: '2021-05-27 00:43:46', 83767: '2021-05-27 00:43:46', 103395: '2021-05-27 00:43:46', 105314: '2021-05-27 00:43:46', 116555: '2021-05-27 00:43:46', 120764: '2021-05-27 00:43:46', 120892: '2021-05-27 00:43:46', 122760: '2021-05-27 00:43:46', 124269: '2021-05-27 00:43:46', 125707: '2021-05-27 00:43:46'}, 'geom': {73683: '17.649999999999995,-93.65', 83767: '15.55,-93.25', 103395: '11.45,-98.45', 105314: '11.049999999999997,-98.55', 116555: '8.75,-78.45', 120764: '7.849999999999997,-89.54999999999998', 120892: '7.849999999999997,-76.75', 122760: '7.449999999999998,-81.95', 124269: '7.149999999999999,-75.04999999999998', 125707: '6.849999999999998,-75.25'}, 'lat': {73683: 17.649999999999995, 83767: 15.55, 103395: 11.45, 105314: 11.049999999999997, 116555: 8.75, 120764: 7.849999999999997, 120892: 7.849999999999997, 122760: 7.449999999999998, 124269: 7.149999999999999, 125707: 6.849999999999998}, 'lon': {73683: -93.65, 83767: -93.25, 103395: -98.45, 105314: -98.55, 116555: -78.45, 120764: -89.54999999999998, 120892: -76.75, 122760: -81.95, 124269: -75.04999999999998, 125707: -75.25}, 'lugar': {73683: {'distancia': 12.55, 'mensaje': '13 kms. de Huimanguillo, Tabasco, México', 'nombre': 'Huimanguillo, Tabasco, México', 'pais': 'mx'}, 83767: {'distancia': 16.74, 'mensaje': '17 kms. de Pijijiapan, Chiapas, 30540, México', 'nombre': 'Pijijiapan, Chiapas, 30540, México', 'pais': 'mx'}, 103395: 'Mar abierto', 105314: 'Mar abierto', 116555: {'distancia': 6.7, 'mensaje': '7 kms. de Río Congo Arriba, Distrito Santa Fe, Darién, Panamá', 'nombre': 'Río Congo Arriba, Distrito Santa Fe, Darién, Panamá', 'pais': 'pa'}, 120764: 'Mar abierto', 120892: {'distancia': 5.83, 'mensaje': '6 kms. de Veraguas, Panamá', 'nombre': 'Veraguas, Panamá', 'pais': 'co'}, 122760: {'distancia': 100.26, 'mensaje': '100 kms. de Veraguas, Panamá', 'nombre': 'Veraguas, Panamá', 'pais': 'pa'}, 124269: {'distancia': 12.09, 'mensaje': '12 kms. de Anorí, Nordeste, Antioquia, Región Andina, 052857, Colombia', 'nombre': 'Anorí, Nordeste, Antioquia, Región Andina, 052857, Colombia', 'pais': 'co'}, 125707: {'distancia': 4.03, 'mensaje': '4 kms. de Guadalupe, Norte, Antioquia, Región Andina, Colombia', 'nombre': 'Guadalupe, Norte, Antioquia, Región Andina, Colombia', 'pais': 'co'}}, 'valor': {73683: 198, 83767: 198, 103395: 197, 105314: 198, 116555: 198, 120764: 198, 120892: 198, 122760: 198, 124269: 196, 125707: 198}, 'variable': {73683: 'T', 83767: 'T', 103395: 'T', 105314: 'T', 116555: 'T', 120764: 'T', 120892: 'T', 122760: 'T', 124269: 'T', 125707: 'T'}}

3条回答

网友

1楼 · 编辑于 2024-05-16 13:07:10

我建议您从lugar列中提取新列，如下代码所示

import pandas as pd

## data is dictionary data you uploaded ##
df = pd.DataFrame(data)

def extract_lugar_nombre(lugar) :
    try :
        return lugar["nombre"]
    except :
        ## if lugar column doesn't have nombre key or is not dict type ##
        return None
    
df["lugar_nombre"] = df["lugar"].apply(extract_lugar_nombre)

如果运行此代码，则DataFrame的lugar\u nombre列具有lugar\u nombre。

您可以过滤重复的行

df[df.lugar_nombre.duplicated()==False]

网友

2楼 · 编辑于 2024-05-16 13:07:10

让我们试试

df['new'] = df['lugar'].str.get('nombre')

网友

3楼 · 编辑于 2024-05-16 13:07:10

通过^{}+^{}+^{}的选项：

s = df['lugar'].str['nombre']
df.loc[~s.duplicated() | s.isna()]

                  calculado  ... variable
73683   2021-05-27 00:43:46  ...        T
83767   2021-05-27 00:43:46  ...        T
103395  2021-05-27 00:43:46  ...        T
105314  2021-05-27 00:43:46  ...        T
116555  2021-05-27 00:43:46  ...        T
120764  2021-05-27 00:43:46  ...        T
120892  2021-05-27 00:43:46  ...        T
124269  2021-05-27 00:43:46  ...        T
125707  2021-05-27 00:43:46  ...        T

[9 rows x 7 columns]

相关问题更多 >

编程相关推荐

热门问题

热门文章