Python Pandas用户警告：排序是因为非连接轴未对齐

placement_video = [self.read_sql_vdx_summary, self.read_sql_video_km] placement_video_summary = reduce(lambda left, right: pd.merge(left, right, on='PLACEMENT', sort=False), placement_video) placement_by_video = placement_video_summary.loc[:, ["PLACEMENT", "PLACEMENT_NAME", "COST_TYPE", "PRODUCT", "VIDEONAME", "VIEW0", "VIEW25", "VIEW50", "VIEW75", "VIEW100", "ENG0", "ENG25", "ENG50", "ENG75", "ENG100", "DPE0", "DPE25", "DPE50", "DPE75", "DPE100"]] # print (placement_by_video) placement_by_video["Placement# Name"] = placement_by_video[["PLACEMENT", "PLACEMENT_NAME"]].apply(lambda x: ".".join(x), axis=1) placement_by_video_new = placement_by_video.loc[:, ["PLACEMENT", "Placement# Name", "COST_TYPE", "PRODUCT", "VIDEONAME", "VIEW0", "VIEW25", "VIEW50", "VIEW75", "VIEW100", "ENG0", "ENG25", "ENG50", "ENG75", "ENG100", "DPE0", "DPE25", "DPE50", "DPE75", "DPE100"]] placement_by_km_video = [placement_by_video_new, self.read_sql_km_for_video] placement_by_km_video_summary = reduce(lambda left, right: pd.merge(left, right, on=['PLACEMENT', 'PRODUCT'], sort=False), placement_by_km_video) #print (list(placement_by_km_video_summary)) #print(placement_by_km_video_summary) #exit() # print(placement_by_video_new) """Conditions for 25%view""" mask17 = placement_by_km_video_summary["PRODUCT"].isin(['Display', 'Mobile']) mask18 = placement_by_km_video_summary["COST_TYPE"].isin(["CPE", "CPM", "CPCV"]) mask19 = placement_by_km_video_summary["PRODUCT"].isin(["InStream"]) mask20 = placement_by_km_video_summary["COST_TYPE"].isin(["CPE", "CPM", "CPE+", "CPCV"]) mask_video_video_completions = placement_by_km_video_summary["COST_TYPE"].isin(["CPCV"]) mask21 = placement_by_km_video_summary["COST_TYPE"].isin(["CPE+"]) mask22 = placement_by_km_video_summary["COST_TYPE"].isin(["CPE", "CPM"]) mask23 = placement_by_km_video_summary["PRODUCT"].isin(['Display', 'Mobile', 'InStream']) mask24 = placement_by_km_video_summary["COST_TYPE"].isin(["CPE", "CPM", "CPE+"]) choice25video_eng = placement_by_km_video_summary["ENG25"] choice25video_vwr = placement_by_km_video_summary["VIEW25"] choice25video_deep = placement_by_km_video_summary["DPE25"] placement_by_km_video_summary["25_pc_video"] = np.select([mask17 & mask18, mask19 & mask20, mask17 & mask21], [choice25video_eng, choice25video_vwr, choice25video_deep]) """Conditions for 50%view""" choice50video_eng = placement_by_km_video_summary["ENG50"] choice50video_vwr = placement_by_km_video_summary["VIEW50"] choice50video_deep = placement_by_km_video_summary["DPE50"] placement_by_km_video_summary["50_pc_video"] = np.select([mask17 & mask18, mask19 & mask20, mask17 & mask21], [choice50video_eng, choice50video_vwr, choice50video_deep]) """Conditions for 75%view""" choice75video_eng = placement_by_km_video_summary["ENG75"] choice75video_vwr = placement_by_km_video_summary["VIEW75"] choice75video_deep = placement_by_km_video_summary["DPE75"] placement_by_km_video_summary["75_pc_video"] = np.select([mask17 & mask18, mask19 & mask20, mask17 & mask21], [choice75video_eng, choice75video_vwr, choice75video_deep]) """Conditions for 100%view""" choice100video_eng = placement_by_km_video_summary["ENG100"] choice100video_vwr = placement_by_km_video_summary["VIEW100"] choice100video_deep = placement_by_km_video_summary["DPE100"] choicecompletions = placement_by_km_video_summary['COMPLETIONS'] placement_by_km_video_summary["100_pc_video"] = np.select([mask17 & mask22, mask19 & mask24, mask17 & mask21, mask23 & mask_video_video_completions], [choice100video_eng, choice100video_vwr, choice100video_deep, choicecompletions]) """conditions for 0%view""" choice0video_eng = placement_by_km_video_summary["ENG0"] choice0video_vwr = placement_by_km_video_summary["VIEW0"] choice0video_deep = placement_by_km_video_summary["DPE0"] placement_by_km_video_summary["Views"] = np.select([mask17 & mask18, mask19 & mask20, mask17 & mask21], [choice0video_eng, choice0video_vwr, choice0video_deep]) #print (placement_by_km_video_summary) #exit() #final Table placement_by_video_summary = placement_by_km_video_summary.loc[:, ["PLACEMENT", "Placement# Name", "PRODUCT", "VIDEONAME", "COST_TYPE", "Views", "25_pc_video", "50_pc_video", "75_pc_video","100_pc_video", "ENGAGEMENTS","IMPRESSIONS", "DPEENGAMENTS"]] #placement_by_km_video = [placement_by_video_summary, self.read_sql_km_for_video] #placement_by_km_video_summary = reduce(lambda left, right: pd.merge(left, right, on=['PLACEMENT', 'PRODUCT']), #placement_by_km_video) #print(placement_by_video_summary) #exit() # dup_col =["IMPRESSIONS","ENGAGEMENTS","DPEENGAMENTS"] # placement_by_video_summary.loc[placement_by_video_summary.duplicated(dup_col),dup_col] = np.nan # print ("Dhar",placement_by_video_summary) '''adding views based on conditions''' #filter maximum value from videos placement_by_video_summary_new = placement_by_km_video_summary.loc[ placement_by_km_video_summary.reset_index().groupby(['PLACEMENT', 'PRODUCT'])['Views'].idxmax()] #print (placement_by_video_summary_new) #exit() # print (placement_by_video_summary_new) # mask22 = (placement_by_video_summary_new.PRODUCT.str.upper ()=='DISPLAY') & (placement_by_video_summary_new.COST_TYPE=='CPE') placement_by_video_summary_new.loc[mask17 & mask18, 'Views'] = placement_by_video_summary_new['ENGAGEMENTS'] placement_by_video_summary_new.loc[mask19 & mask20, 'Views'] = placement_by_video_summary_new['IMPRESSIONS'] placement_by_video_summary_new.loc[mask17 & mask21, 'Views'] = placement_by_video_summary_new['DPEENGAMENTS'] #print (placement_by_video_summary_new) #exit() placement_by_video_summary = placement_by_video_summary.drop(placement_by_video_summary_new.index).append( placement_by_video_summary_new).sort_index() placement_by_video_summary["Video Completion Rate"] = placement_by_video_summary["100_pc_video"] / \ placement_by_video_summary["Views"] placement_by_video_final = placement_by_video_summary.loc[:, ["Placement# Name", "PRODUCT", "VIDEONAME", "Views", "25_pc_video", "50_pc_video", "75_pc_video", "100_pc_video", "Video Completion Rate"]]

2条回答

网友

1楼 · 编辑于 2024-06-06 00:01:44

tl；博士：

如果列不匹配，concat和append当前对非连接索引（例如，如果要添加行，则为列）排序。在pandas 0.23中，这开始生成一个警告；传递参数sort=True使其静音。在将来，默认值将更改为不排序，因此最好现在指定sort=True或False，或者更好地确保非连接索引匹配。

这一警告在熊猫0.23.0中是新的：

在将来的pandas版本中，pandas.concat()和DataFrame.append()将不再对未对齐的非连接轴进行排序。当前行为与上一个行为（排序）相同，但现在当未指定排序且未对齐非连接轴时发出警告， link。

来自链接的非常旧的github issue, comment by smcinerney 的更多信息：

When concat'ing DataFrames, the column names get alphanumerically sorted if there are any differences between them. If they're identical across DataFrames, they don't get sorted.
This sort is undocumented and unwanted. Certainly the default behavior should be no-sort.

一段时间后，参数sort在^{}和^{}中实现：

sort : boolean, default None
Sort non-concatenation axis if it is not already aligned when join is 'outer'. The current default of sorting is deprecated and will change to not-sorting in a future version of pandas.
Explicitly pass sort=True to silence the warning and sort. Explicitly pass sort=False to silence the warning and not sort.
This has no effect when join='inner', which already preserves the order of the non-concatenation axis.

因此，如果两个数据帧具有相同顺序的相同列，则不会出现警告和排序：

df1 = pd.DataFrame({"a": [1, 2], "b": [0, 8]}, columns=['a', 'b'])
df2 = pd.DataFrame({"a": [4, 5], "b": [7, 3]}, columns=['a', 'b'])

print (pd.concat([df1, df2]))
   a  b
0  1  0
1  2  8
0  4  7
1  5  3

df1 = pd.DataFrame({"a": [1, 2], "b": [0, 8]}, columns=['b', 'a'])
df2 = pd.DataFrame({"a": [4, 5], "b": [7, 3]}, columns=['b', 'a'])

print (pd.concat([df1, df2]))
   b  a
0  0  1
1  8  2
0  7  4
1  3  5

但是，如果数据帧具有不同的列，或具有不同顺序的相同列，则如果未显式设置参数sort（默认值为sort=None），pandas将返回警告：

df1 = pd.DataFrame({"a": [1, 2], "b": [0, 8]}, columns=['b', 'a'])
df2 = pd.DataFrame({"a": [4, 5], "b": [7, 3]}, columns=['a', 'b'])

print (pd.concat([df1, df2]))

FutureWarning: Sorting because non-concatenation axis is not aligned.

   a  b
0  1  0
1  2  8
0  4  7
1  5  3

print (pd.concat([df1, df2], sort=True))
   a  b
0  1  0
1  2  8
0  4  7
1  5  3

print (pd.concat([df1, df2], sort=False))
   b  a
0  0  1
1  8  2
0  7  4
1  3  5

如果数据帧有不同的列，但是第一列是对齐的，那么它们将被正确地分配给彼此（在下面的示例中，a的df1中的a列和b列和df2中的b列），因为它们同时存在于这两个列中。对于存在于一个但不是同时存在于两个数据帧中的其他列，将创建缺少的值。

最后，如果传递sort=True，列将按字母数字顺序排序。如果sort=False和第二个DafaFrame具有不在第一个框架中的列，则将它们追加到末尾，而不进行排序：

df1 = pd.DataFrame({"a": [1, 2], "b": [0, 8], 'e':[5, 0]}, 
                    columns=['b', 'a','e'])
df2 = pd.DataFrame({"a": [4, 5], "b": [7, 3], 'c':[2, 8], 'd':[7, 0]}, 
                    columns=['c','b','a','d'])

print (pd.concat([df1, df2]))

FutureWarning: Sorting because non-concatenation axis is not aligned.

   a  b    c    d    e
0  1  0  NaN  NaN  5.0
1  2  8  NaN  NaN  0.0
0  4  7  2.0  7.0  NaN
1  5  3  8.0  0.0  NaN

print (pd.concat([df1, df2], sort=True))
   a  b    c    d    e
0  1  0  NaN  NaN  5.0
1  2  8  NaN  NaN  0.0
0  4  7  2.0  7.0  NaN
1  5  3  8.0  0.0  NaN

print (pd.concat([df1, df2], sort=False))

   b  a    e    c    d
0  0  1  5.0  NaN  NaN
1  8  2  0.0  NaN  NaN
0  7  4  NaN  2.0  7.0
1  3  5  NaN  8.0  0.0

在你的代码中：

placement_by_video_summary = placement_by_video_summary.drop(placement_by_video_summary_new.index)
                                                       .append(placement_by_video_summary_new, sort=True)
                                                       .sort_index()

网友

2楼 · 编辑于 2024-06-06 00:01:44

耶斯雷尔的回答是好的，但没有回答我的问题：得到“分类”标志会不会以任何方式扰乱我的数据？答案显然是“不”，不管怎样你都很好。

from pandas import DataFrame, concat

a = DataFrame([{'a':1,      'c':2,'d':3      }])
b = DataFrame([{'a':4,'b':5,      'd':6,'e':7}])

>>> concat([a,b],sort=False)
   a    c  d    b    e
0  1  2.0  3  NaN  NaN
0  4  NaN  6  5.0  7.0

>>> concat([a,b],sort=True)
   a    b    c  d    e
0  1  NaN  2.0  3  NaN
0  4  5.0  NaN  6  7.0

相关问题更多 >

编程相关推荐

热门问题

热门文章