我有以下数据
list = ['good dog','bad cat']
pattern = '|'.join(list)
|column|
|---|
|bad cat|
|good dog|
|cat|
|dog|
当我在pandas中执行字符串contains时,只有完全匹配的字符串才能得到如下所示的真输出
df[column].str.contains(pattern,regex=True)
|column|
|---|
|True|
|True|
|False|
|False|
有没有可能做一些类似模糊匹配的事情,其中模式中的部分字符串也会被检查?既然“猫”和“狗”部分存在,那么输出结果都是真的吗?你知道吗
谢谢。你知道吗
自定义指标
写一个粗糙的模糊匹配度量。您可能可以通过删除高频词并适当地进行词干分析来调整此度量。你知道吗
这将计算一个列表中有多少单词与另一个列表中有多少单词匹配。你知道吗
我们构建了一个数据框架来帮助说明。你知道吗
我们可以看到,对于第一行和第二行和第三行,我们得到了一个
1.0
的度量。对于第三行和第四行,我们得到了0.5
的度量值,这意味着匹配的单词有一半。你知道吗现在设置一个阈值,并查找行中是否有超过阈值的项:
阈值为
.5
阈值为
.6
莱文施坦
使用Levenshtein距离比
你可以做与上面相同的阈值分析。你知道吗
相关问题 更多 >
编程相关推荐