连接两个不同的mySQL表的最佳方法 -- 为Django做准备的Python

Question

table a (t_a):
id  name    last    first   email           state   country
0   sklass  klass   steve   sklass@foo.com  in      uk
1   jabid   abid    john    abid@foo.com    ny      us
2   jcolle  colle   john    jcolle@foo.com  wi      us


table b (t_b):
id  sn      given   nick    email           l   c   
0   steven  klass   steve   sklass@foo.com  in  uk
1   john    abid    -       abid_j@foo.com  ny  us
2   johnny  colle   john    jcolle@foo.com  wi  us
3   john    abid    -       abid@foo.com    ny  us

上面列出的内容是一个简化版的MySQL表格，包括列和行。看这两个表格，你会发现只要严格比较这些值（不考虑ID），就能找到匹配的值。

t_a     t_b
0       0
1       3
2       2
-       1

我最终想要在Django中实现这个功能——我不确定这是否重要。之前我用纯Python做过这个，方法是删除旧数据，然后创建三个新表。我想改变这种做法（下面有提到），因为我发现时间会改变很多事情，人们也会来来去去。以前我只是重新生成数据，但现在我想记录人们离开的时间，而不是简单地替换（删除）数据。我认为通过SQL更新数据会更优雅，并且能保留历史记录。

我想知道如何直接从MySQL获得这个合并的结果（无论是通过SQL函数还是新表的构建），以以下方式合并数据。我想用纯SQL来实现（我相信这样我也能在Django中做到）。所以我在寻找一个满足以下条件的解决方案：

有一个最小匹配数（min_match），定义了两个行之间必须对齐的最小匹配数量，才能被认为是有效的。
虽然表格的长度可能不同，但它们之间是一对一的映射。换句话说，许多对一个的情况可能不会发生（至少现在不会）。

我的背景是Python，对我来说，最简单的方法就是对较短的表进行一个循环，然后对另一个表进行一个循环，查看匹配的数量。在代码中，这看起来是这样的。

t_a = [ ["sklass", "klass", "steve", "sklass@foo.com", "in", "uk", ],
        ["jabid", "abid", "john", "abid@foo.com", "ny", "us", ],
        ["jcolle", "colle", "john", "jcolle@foo.com", "wi", "us", ], ]

t_b = [ ["steven", "klass", "steve", "sklass@foo.com", "in", "uk",],
        ["john", "abid", "abid_j@foo.com", "ny", "us",],
        ["johnny", "colle", "john", "jcolle@foo.com", "wi", "us",],
        ["john", "abid", "abid@foo.com", "ny", "us",], ]

min_match = 3

for person_a in t_a:
    match = 0
    match_pct = 0.0
    match_a_index = t_a.index(person_a)
    for person_b in t_b:
        new_match_count = len(list(set(person_a) & set(person_b)))
        if new_match_count > match:
            match = new_match_count
            match_b_index = t_b.index(person_b)
            match_pct = "%.2f" % (float(new_match_count) / \
              float(len(set(person_a + person_b))) * 100)
    if match >= min_match:
        print match_a_index, match_b_index #, match_pct, match

评论中有人问，为什么不直接通过电子邮件地址来连接。我不一定知道某一列中的值是否会匹配。我确定在t_a中的某一行的值会与t_b中的某一行的值匹配。我想要t_a中某一行与t_b中最可能匹配的行，并且只有在匹配数量超过最小匹配数时才考虑。

mysql django SQL查询数据库设计数据合并表连接最小匹配数数据历史记录

连接两个不同的mySQL表的最佳方法 -- 为Django做准备的Python

1 个回答

撰写回答