比较pandas中的列和它本身

df = pd.DataFrame({'names': ['Mohit', 'Mimansa', 'Viseshini', 'Manoj', 'Manojj', 'Mohith', 'Mimi', 'Visesheni']}) df names 0 Mohit 1 Mimansa 2 Viseshini 3 Manoj 4 Manojj 5 Mohith 6 Mimi 7 Visesheni

ratios = [] for row in df['names']: vals = df['names'].apply(lambda x: fuzz.partial_ratio(x, row)) ratios.append(np.where(vals>80)) ratios [(array([0, 5], dtype=int64),), (array([1], dtype=int64),), (array([2, 7], dtype=int64),), (array([3, 4], dtype=int64),), (array([3, 4], dtype=int64),), (array([0, 5], dtype=int64),), (array([6], dtype=int64),), (array([2, 7], dtype=int64),)]

2条回答

网友

1楼 · 编辑于 2024-04-19 02:37:23

您可以从list comprehension转换为numpy array循环和列出，因此可能的筛选器如果使用numpy.where筛选出相同的索引，则索引由{}创建：

from fuzzywuzzy import fuzz

ratios = []
for i, x in enumerate(df['names']):
    a = np.array([fuzz.partial_ratio(x, row) for row in df['names']])
    a = np.where(a > 80)[0]
    ratios.append(a[a != i])

df['rat'] = ratios
print (df)

       names  rat
0      Mohit  [5]
1    Mimansa   []
2  Viseshini  [7]
3      Manoj  [4]
4     Manojj  [3]
5     Mohith  [0]
6       Mimi   []
7  Visesheni  [2]

网友

2楼 · 编辑于 2024-04-19 02:37:23

使用下面的代码块，所以只需为您想要的输出做一堆东西，它可能不可读，但仍然可以按预期工作，一堆apply和一些时髦的代码：-）：

from fuzzywuzzy import fuzz
import pandas as pd
import random,ast
df = pd.DataFrame({'names': ['Mohit', 'Mimansa', 'Viseshini', 'Manoj', 'Manojj', 'Mohith', 'Mimi', 'Visesheni']})
it=iter(range(len(df['names'])))
df['matches']=df['names'].apply(lambda x: [i for i,v in enumerate(df['names']) if fuzz.partial_ratio(v,x)>80] if len([i for i,v in enumerate(df['names']) if fuzz.partial_ratio(v,x)>80])>1 else [])
df['matches']=df['matches'].astype(str)
df['count'] = df.groupby('matches').cumcount() + 1
df['matches']=df['matches'].map(ast.literal_eval)
df['matches']=df.apply(lambda x: ([x['matches'][-1]] if x['count']==1 else [x['matches'][0]]) if x['matches']!=[] else x['matches'],axis=1)
print(df)

输出：

^{pr2}$

解释：

创建一个apply语句以按预期获取索引
生成一个groupby以获取值的计数，每个值都将被计数，直到该值存在的行
然后进行一系列更新'matches'列，并消除重复问题

相关问题更多 >

编程相关推荐

热门问题

热门文章