输入文件是一个以制表符分隔的unicode txt文件
a A e f m
b B g h
c C i j
b B k l
我想按第一列和第二列进行匹配并合并。所以我想
a A e f m
b B g h k l
c C i j
代码必须检测输入中的最大列数。因为在这个例子中是5,“kl”是从第6列开始的。你知道吗
事实上,当它们都是数字的时候,我几乎可以用Matlab来实现这一点。但是,当它们是字母时,Matlab在处理unicode方面非常糟糕,尽管我读到了stackoverflow关于如何在Matlab中处理unicode的文章,我还是放弃了。所以我现在转向python。你知道吗
使用excelvba似乎是可行的,但是由于数据量太大,所以我猜python会比excelvba更快(我猜得对吗?)你知道吗
我个人会将输入/处理逻辑与输出/格式化逻辑分开。你知道吗
演示:
您可以使用
dict
(defaultdict
)返回的match_merge
并轻松地将其写入tab delim文件。因为我不太了解你的输出需求,所以我省略了那部分。你知道吗相关问题 更多 >
编程相关推荐