从txt fi中删除重复行

网友

1楼 · 编辑于 2024-05-17 15:25:43

不管有额外位的线的位置如何，对glenn jackman答案的这种变化都应该有效：

awk '{idx = $1 " " $2 " " $3; if (length($0) > length(x[idx])) x[idx] = $0} END {for (idx in x) print x[idx]}' inputfile

或者

awk -v ncols=3 '
  {
    key = "";
    for (i=1; i<=ncols; i++) {key = key FS $i}
    if (length($0) > length(x[key])) x[key] = $0
  }
  END {for (y in x) print x[y]}
' inputfile

网友

2楼 · 编辑于 2024-05-17 15:25:43

awk '{x[$1 " " $2 " " $3] = $0} END {for (y in x) print x[y]}'

如果需要指定不同文件的列数：

awk -v ncols=3 '
  {
    key = "";
    for (i=1; i<=ncols; i++) {key = key FS $i}
    if (length($0) > length(x[key])) {x[key] = $0}
  }
  END {for (y in x) print y "\t" x[y]}
'

网友

3楼 · 编辑于 2024-05-17 15:25:43

下面（用Python）如何：

prev = None
for line in sorted(open('file')):
  line = line.strip()
  if prev is not None and not line.startswith(prev):
    print prev
  prev = line
if prev is not None:
  print prev

如果发现内存使用有问题，可以使用Unix sort（即disk-based）作为预处理步骤进行排序，并更改脚本，使其不会将整个文件读入内存。

相关问题更多 >

编程相关推荐

热门问题

热门文章

从txt fi中删除重复行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >