按数据帧中最相似的字符串对所有行和列进行排序

col1 col2 col3 col4 0 Some Same Sky #Some and Same are very similar, Sky is the closest in col4 1 Blue #No match for Blue 2 Blacky Black Bucket #Black,Blacky are similar, and more similar to Bucket 3 Green Green #Exact match 4 Red Rad #Similar Match 5 Floor #No word started with F in any other column

1条回答

网友

1楼 · 发布于 2024-05-29 01:34:52

为每个单词分配一个id
预先计算每个单词之间的Levenshtein距离和其他列中的每个单词之间的Levenshtein距离。将结果存储在一个方阵中，由单词的ID索引
将一行的成本定义为该行中所有词对之间距离的总和
现在，您需要为每个单词分配一行，以最小化所有行的成本之和，同时遵守同一列中的单词必须位于不同行的约束。这个优化问题是一个二次分配问题，可以很容易地传递给二次整数规划库

在步骤1中，当标识IDS时，IDS必须是唯一的，因此考虑所有单词不同。两个词是否相同并不重要；无论如何，给他们不同的身份证

在步骤2中，您需要在与同一列中的成对单词对应的单元格中输入一些默认值；你选择的值并不重要

在步骤4中，可以将约束改写为“每列中每行仅出现一次”，这是一个简单的线性约束

相关问题更多 >

编程相关推荐

热门问题

热门文章

按数据帧中最相似的字符串对所有行和列进行排序

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >