按元素出现频率对元组列表进行排序

Question

我刚接触Python，尝试了很多不同的东西，遇到了一个问题，我觉得自己“解决”了，但代码看起来不太对劲——我强烈怀疑还有更好的方法来达到想要的结果。

顺便说一下，我在Windows上使用的是最新版本的Python 3。

问题定义

简单来说，我要做的是对一组成对的数据进行排序，目的是把那些包含出现次数最少的元素的对排到前面。

这些对的形式是 [i,j]，其中 0 <= i <= j < n，这里的 n 是已知的元素最大值。列表中没有重复的对。

元素 i 的计数是指在形式为 [i,j]、[j,i] 和 [i,i] 的对中，i 出现的次数（j 是任何能形成有效对的值）。

在排序后的结果中，如果一对 [i,j] 的计数小于另一对 [k,l] 的计数，或者两者计数相等但 j 的计数小于 l 的计数，那么 [i,j] 应该排在 [k,l] 前面（如果 j 和 l 的计数相等，它们的顺序可以互换——我不太在意排序是否稳定，如果能稳定就更好了）。

在排序后的结果中，如果一对 [i,j] 的最小计数小于另一对 [k,l] 的最小计数，或者两者的最小计数相等但最大计数小于另一对的最大计数，那么 [i,j] 应该排在 [k,l] 前面。
换句话说，如果这对是 [0,1]，而 1 的计数是1，但 0 的计数是400，那么这对仍然应该排在列表的前面（或者至少很靠前）——它们需要根据对中出现次数最少的元素进行排序。

这是我构造的一个例子：

input   [[0,0],[1,2],[1,4],[2,2],[2,3],[3,3],[3,4]]

这是每个元素的计数和它们来源的对：

0: 1   [0,0]
1: 2   [1,2],[1,4]
2: 3   [1,2],[2,2],[2,3]
3: 3   [2,3],[3,3],[3,4]
4: 2   [1,4],[3,4]

这是结果，以及每对的得分：

output: [[0,0],[1,4],[1,2],[3,4],[2,2],[2,3],[3,3]]
scores:   1     1-2   1-3   2-3   3     3     3

在这里，0 的计数是1（它出现在一个对中，虽然出现了两次），所以排在第一。1 的计数是2，所以排在第二——[1,4] 排在 [1,2] 前面，因为 4 的计数是2，而 2 的计数是3，依此类推。

我目前的解决方案

如前所述，我认为这个实现是准确的，但我觉得一定还有更好的方法来做这件事。无论如何，这是我目前的代码：

#my implementation uncommented to reduce post size, see history for comments
def sortPairList( data , n ):
    count = []
    for i in range(0,n):
        count.append( 0 )

    #count up the data
    for p in data:
        count[p[0]] += 1
        if p[1] != p[0]:
            count[p[1]] += 1

    maxcount = 0
    for i in range(0,n):
        if count[i] > maxcount:
            maxcount = count[i]

    def elementFrequency(p):
        if count[ p[0] ] < count[ p[1] ]:
            return count[ p[0] ] + float(count[ p[1] ]) / (maxcount+1)
        else:
            return count[ p[1] ] + float(count[ p[0] ]) / (maxcount+1)

    data.sort( key=elementFrequency )

有没有更“Pythonic”的做法？
或者我目前的尝试有什么问题吗？

新的测试案例（见答案的评论）

input:    [[0,0],[0,3],[0,5],[0,7],[1,1],[1,2],[1,8],[2,4],[2,5],[3,4],[3,5],[3,9],[4,4],[4,7],[4,8],[6,8],[7,7],[7,9],[8,9]]
expected: [[6,8],[1,1],[1,2],[2,5],[0,5],[1,8],[3,5],[3,9],[7,9],[8,9],[2,4],[0,0],[0,3],[0,7],[7,7],[3,4],[4,7],[4,8],[4,4]]

代码优化数据结构编程技巧排序算法数据分析稳定排序元组处理频率计数

按元素出现频率对元组列表进行排序

问题定义

我目前的解决方案

新的测试案例（见答案的评论）

4 个回答

撰写回答