对两个文本执行diff，只使用文本中每行的一部分

1条回答

网友

1楼 · 发布于 2024-05-28 20:02:40

您可以创建str的子类，对其进行散列和比较，就好像它只包含其ID:

import re

class IdString(str):
    """A string that hashes and compares on its id.

        >>> hash(IdString('XXX ID A XXX')) == hash('A')
        True
        >>> hash(IdString('XXX ID abc XXX')) == hash('abc')
        True
        >>> IdString('XXX ID A XXX') == IdString('YYY ID A YYY')
        True
        >>> IdString('XXX ID A XXX') == IdString('XXX ID B XXX')
        False

    """
    def __new__(cls, *args):
        self = super(IdString, cls).__new__(cls, *args)
        m = re.search(r'\bID (\w+)', self)
        self.id = m.group(1)
        return self

    def __hash__(self):
        return hash(self.id)

    def __eq__(self, other):
        return self.id == other.id

    def __ne__(self, other):
        return self.id != other.id

然后可以将普通字符串转换为IdString对象并将其传递给difflib，如下所示：

from difflib import unified_diff

text1 = '''T0 ID A
T1 ID B
T2 ID C
T4 ID D
'''

text2 = '''T5 ID A
T6 ID E
T7 ID F
T8 ID D
'''

print(''.join(unified_diff(map(IdString, text1.splitlines(True)),
                           map(IdString, text2.splitlines(True)),
                           n=0)))

产生非常接近你想要的输出：

 - 
+++ 
@@ -2,2 +2,2 @@
-T1 ID B
-T2 ID C
+T6 ID E
+T7 ID F

（你的问题中的例子是@-1,2 +1,2，但我无法准确地再现，因为我不知道diff是什么样式，在diff输出中行号从1开始。）

相关问题更多 >

编程相关推荐

热门问题

热门文章

对两个文本执行diff，只使用文本中每行的一部分

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >