在pandas中从字典到数组的映射不正确？

code_pairs_neighborhoods = [[p[0], p[1]] for p in [pair.strip().split('\t') for pair in neighborhood_Map.strip().split('\n')]] neighborhood_name_dic = {k[0]:k[1] for k in code_pairs_neighborhoods} #neighborhood -> community area chicago_crime['neighborhood'] = chicago_crime['community_name'].map(neighborhood_name_dic) Redfin['neighborhood'] = Redfin['Region'].map(neighborhood_name_dic) final_df= pd.merge(chicago_crime, chicago_crime, on='neighborhood')

chicago_crime['community_name']=[[y.split() for y in x] for x in chicago_crime['community_name']] Redfin['Region']= [[j.split() for j in i] for i in Redfin['Region']] idx, datavalue = [], [] for i,dv in enumerate(chicago_crime['community_name']): for d in dv: if d in Redfin['Region'][i]: if i not in idx: idx.append(i) datavalue.append(d) chicago_crime['merge_ref'] = datavalue Redfin['merge_ref'] = datavalue final_df= pd.merge(chicago_crime[['community_area','community_name','merge_ref']], Redfin, on='merge_ref')

1条回答

网友
1楼 · 发布于 2024-04-19 08:58:56

好吧，我发现了：
在neighborhood_Map的第一行中有一个unicode字符，您可能要删除它：Cabrini\xe2\x80\x93Green'->；Cabrini Green
切换neighborhood_name_dic中的键和值，因为您要将现有的“Rogers Park”映射到附近的“East Rogers Park”，如下所示：
neighborhood_name_dic = {k[1]:k[0] for k in code_pairs_neighborhoods}
我们仍然不知道从您的代码中如何读取Redfin data，但我认为您必须在合并之前删除Region列中的Chicago, IL -部分？你知道吗
更新：所以我想我理解了你的代码（再次，请在发布之前尝试清理一下这些东西），我认为Redfin等于house_df。所以不是说：
house_df=house_df.set_index('Region',drop=False)
我建议创建一个邻里专栏：
house_df['neighborhood'] = house_df['Region'].map(lambda x: x.lstrip('Chicago, IL - '))
然后可以在以下位置合并：
crime_finalDF = pd.merge(chicago_crime, house_df, left_on='neighborhood', right_on='neighborhood')
要测试它，请尝试：
mask=(crime_finalDF['neighborhood']==u'Sheridan Park') print(crime_finalDF[['robbery','neighborhood', u'2018-06-01 00:00:00']][mask])
由此产生：
robbery neighborhood 2018-06-01 00:00:00 0 140.0 Sheridan Park 239.0 1 122.0 Sheridan Park 239.0 2 102.0 Sheridan Park 239.0 3 113.0 Sheridan Park 239.0 4 139.0 Sheridan Park 239.0
所以两个数据集的成功连接（我认为）。你知道吗
更新2，关于merge()的成功。你知道吗
我就是这样读入并清理你的xlsx文件的：
house_df = pd.read_excel("./real_eastate_data_main.xlsx",) house_df.replace({'-': None}) house_df.columns=house_df.columns.astype(str) house_df = house_df[house_df['Region'] != 'Chicago, IL'] house_df = house_df[house_df['Region'] != 'Chicago, IL metro area'] house_df['neighborhood'] = house_df['Region'].str.split(' - ')## note the surrounding spaces house_df['neighborhood'] = house_df['neighborhood'].map(lambda x: list(x)[-1]) chicago_crime['neighborhood'] = chicago_crime['community_name'].map(neighborhood_name_dic) ## Lakeview and Humboldt park not defined in neighborhood_name_dic # print( chicago_crime[['community_name','neighborhood']][pd.isnull(chicago_crime['neighborhood'])] ) chicago_crime = chicago_crime[~pd.isnull(chicago_crime['neighborhood'])] ## remove them
现在我们开始寻找两个df中所有独特的社区
cc=sorted(chicago_crime['neighborhood'].unique()) ho=sorted(house_df['neighborhood'].unique()) print(30*u"-"+u" chicago_crime: "+30*u"-") print(len(cc),cc) print(30*u"-"+u" house_df: "+30*u"-") print(len(ho),ho) print(60*"-") # print('\n'.join(cc)) set1 = set(cc) set2 = set(ho) missing = list(sorted(set1 - set2)) added = list(sorted(set2 - set1)) print('These {0} are missing in house_df: {1}'.format(len(missing),missing)) print(60*"-") print('These {0} are only in house_df: {1}'.format(len(added),added))
这表明29在DOUSE df（如“东皮尔森”）中丢失，而132只在DOUSE df（如“奥尔巴尼公园”）中找到，即我们只能“内部连接”46个条目。你知道吗
现在，您必须决定如何继续，最好是先read this了解合并的工作方式（例如，了解那里发布的维恩图），然后您可以相应地改进您的代码！或者：以前手动清理数据，有时没有全自动的解决方案！你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章