Python：如何跳过输入文件中的重复行？

<http://catalog.data.gov/bread> <http://dbpedia.org> <http://catalog.data.gov/bread> <http://dbpedia.org> <http://catalog.data.gov/bread> <http://dbpedia.org> <http://catalog.data.gov/bread> <http://dbpedia.org> <http://catalog.data.gov/roll> <http://dbpedia.org> <http://catalog.data.gov/roll> <http://dbpedia.org>

file = open('rdfs.txt') for id, line in enumerate(file): if id % 2 == 0: if line.isspace(): continue line1 = line.split() sub_line1, rel_line1 = line1[0], line1[1] sub_line1 = sub_line1.lstrip("<").rstrip(">") print(sub_line1) else: if line.isspace(): continue line2 = line.split() sub_line2, rel_line2 = line2[0], line2[1] sub_line2 = sub_line2.lstrip("<").rstrip(">") print(sub_line2)

1条回答

网友

1楼 · 发布于 2024-06-16 10:08:52

您可以声明一个set()并将其命名为line_seen，它将保存所有可见的行，并检查每一个新行是否在lines_seen中，并将其添加到您的检查中：

您的代码应该如下所示：

file = open('rdfs.txt')
lines_seen = set() # holds lines already seen
for id, line in enumerate(file):
    if line not in lines_seen: # not a duplicate
        lines_seen.add(line)
        if id % 2 == 0:
            if line.isspace():
                continue
            line1 = line.split()
            sub_line1, rel_line1 = line1[0], line1[1]
            sub_line1 = sub_line1.lstrip("<").rstrip(">")
            print(sub_line1)

        else:
            if line.isspace():
                continue
            line2 = line.split()
            sub_line2, rel_line2 = line2[0], line2[1]
            sub_line2 = sub_line2.lstrip("<").rstrip(">")
            print(sub_line2)

相关问题更多 >

编程相关推荐

热门问题

热门文章