我开始使用熊猫,我遇到了一个我不知道如何解决的问题
我有两个数据帧
第一个包含汽车信息,包括汽车型号(列DESCR_MARCA_VEICULO)
df1
col1 col2 DESCR_MARCA_VEICULO
.... .... 'GM/CELTA 5 PORTAS SUPER'
.... .... 'VW/VOYAGE LS'
.... .... 'VW/GOL LS'
.... .... 'I/AUDI A4 2.0T FSI'
.... .... 'FIAT/UNO CS IE'
第二个包含两列de para,其中包含车型和与该车型关联的唯一ID,如下所示:
df2
ID DESCR_MARCA_VEICULO
1 'GM - CELTA 5'
2 'VW - VOYAGE LS'
3 'VW - GOL LS'
4 'ACURA - INTEGRA GS 1.8'
5 'AUDI - 80 S2 AVANT'
而且它不一定遵循像用“-”替换“/”之类的模式
然而,我在DF1中有5000多种不同的车型(这使我无法逐案查看),我需要结合DF1和DF2,将ID列带到DF1(这将是一个合并)。但是,当我合并dfs时,由于字符串中的这些差异,没有匹配项
有没有办法通过DESCR_MARCA_VEICULO列中字符串之间的相似性来合并这些dfs
谢谢:)
我建议您研究fuzzyfuzzy包的模糊匹配
一种方法是从字符串中删除除字母&;以外的所有字符;数字
然而,我们需要匹配几个缺少的键:让我们使用Erfan在这个post中的答案
相关问题 更多 >
编程相关推荐