Python编辑distan

网友

1楼 · 编辑于 2024-05-14 05:36:16

如果要过滤出完全重复的内容，可以使用setPython内置类型。例如：

a = ["tccggatcc", "actcctgct", "tccggatcc"] # You have a list of sequences
s = set(a) # Put that into a set

s等于['tccggatcc', 'actcctgct']，没有重复项。在

网友

2楼 · 编辑于 2024-05-14 05:36:16

假设您的文件仅由每行一个序列排列的序列组成，我建议如下：

seq_file = open(#your file)

sequences = [seq for seq in seq_file]

uniques = list(set(sequences))

假设你有记忆。多少百万？在

预计到达时间：

正在读取上面的注释（但是没有注释特权）-假设序列ID对于任何重复项都是相同的，这将起作用。如果重复的序列可以不同的序列id，那么就要知道文件中哪个是第一个，它们之间是什么。在

网友

3楼 · 编辑于 2024-05-14 05:36:16

一定是Python吗？在

如果序列只是文本字符串，每行一个，那么shell脚本将非常有效：

sort input-file-name | uniq > output-file-name

这将在32位Linux上处理高达2GB的文件。在

{如果你在GNU上安装^ utils}。在