通过逐行比较Pandas值，找出匹配率较高的两行之间的字符串相似度较高

nuomlist = pd.DataFrame(dfn.columns, columns=['Col']) nuomN = nuomlist[nuomlist['Col'].str.contains('-')].index.tolist() for i in range(int(nuomN[-1]+1),int(dfn.columns.get_loc("sim_1"))) : for j in dfn.index: sum(dfn.iloc[j,i]==dfn.iloc[j+dfn.iloc[j,dfn.columns.get_loc('Max_row')],i])/ int(dfn.columns.get_loc("sim_1") - (nuomN[-1] + 1))

data = {'S_ITEMCODE':['', '81527800', '', '81527900'], 'N':['N', '','N', ''], 'ITEMCODE':['81527800', '81320323', '81527900', '81267337'], 'DESC':['Store Brand (Woongjin) SB Fresh Orange Drink Orange NO P.BTL 1.5lit', 'Store Brand (Woongjin) SB Fresh Orange Drink Orange NO P.BTL 1lit', 'Store Brand (Woongjin) SB Fresh Jeju Tang. Drink Tang. NO P.B 1.5lit', 'Store Brand (Woongjin) SB Fresh Jeju Tang. Drink Tang. NO P.B 1lit'], 'ATTR1':['1A', '1A', '1B', '1B'], 'ATTR2':['1A', '1C', '1B', '1B'], 'ATTR3':['1A', '1A', '1B', '1B'], 'ROW_INDEX_SIMILAR_ITEM':[1, -1, 1, 1]} df = pd.DataFrame(data)

data1 = {'S_ITEMCODE':['', '81527800', '', '81527900'], 'N':['N', '','N', ''], 'ITEMCODE':['81527800', '81320323', '81527900', '81267337'], 'DESC':['Store Brand (Woongjin) SB Fresh Orange Drink Orange NO P.BTL 1.5lit', 'Store Brand (Woongjin) SB Fresh Orange Drink Orange NO P.BTL 1lit', 'Store Brand (Woongjin) SB Fresh Jeju Tang. Drink Tang. NO P.B 1.5lit', 'Store Brand (Woongjin) SB Fresh Jeju Tang. Drink Tang. NO P.B 1lit'], 'ATTR1':['1A', '1A', '1B', '1B'], 'ATTR2':['1A', '1C', '1B', '1B'], 'ATTR3':['1A', '1A', '1B', '1B'], 'ROW_INDEX_SIMILAR_ITEM':[1, -1, 1, 1]} 'ATTR_MATCHING_RATE':[2/3, '', 1, '']} df = pd.DataFrame(data1)

1条回答

网友

1楼 · 发布于 2024-04-26 00:14:05

这将为您提供所需的输出：

tested_cols = ['ATTR1', 'ATTR2', 'ATTR3']
df['matches'] = 0
for col in tested_cols:
    df.loc[(df['N'] == 'N') & (df[col] == df[col].shift(-1)), 'matches'] += 1
df['ATTR_MATCHING_RATE'] = df['matches'] / len(tested_cols)
df.drop('matches', axis=1, inplace=True)

相关问题更多 >

编程相关推荐

热门问题

热门文章