为表中的列使用唯一值

contig length identity percent hit contig-100_0 5485 [1341/1341] [100.%] ['hit1'] contig-100_0 5485 [5445/5445] [100.%] ['hit2'] contig-100_0 5485 [59/59] [100.%] ['hit3'] contig-100_1 2865 [2865/2865] [100.%] ['hit1'] contig-100_2 2800 [2472/2746] [90.0%] ['hit1'] contig-100_3 2417 [2332/2342] [99.5%] ['hit1'] contig-100_4 2204 [2107/2107] [100.%] ['hit1'] contig-100_4 2000 [1935/1959] [98.7%] ['hit2']

contig length identity percent hit contig-100_0 5485 [1341/1341] [100.%] ['hit1'] contig-100_1 2865 [2865/2865] [100.%] ['hit1'] contig-100_2 2800 [2472/2746] [90.0%] ['hit1'] contig-100_3 2417 [2332/2342] [99.5%] ['hit1'] contig-100_4 2204 [2107/2107] [100.%] ['hit1']

df = pd.read_csv(path+i,sep='\t', header=None, engine='python', \ names=['contig','length','identity','percent','hit']) df = df.sort_values(['length', 'percent'], ascending=[False, False]) top_hits = df.to_string(justify='left',index=False) with open ('sorted_contigs', 'a') as sortedfile: sortedfile.write(top_hits+"\n")

1条回答

网友

1楼 · 发布于 2024-04-26 10:54:07

您可以使用DataFrame.groupby(<colname>).head(<num_of_rows>)执行此操作：

df.groupby('contig').head(1)

以及输出：

          contig    length  identity    percent hit
0   contig-100_0    5485    [1341/1341] [100.%] ['hit1']
3   contig-100_1    2865    [2865/2865] [100.%] ['hit1']
4   contig-100_2    2800    [2472/2746] [90.0%] ['hit1']
5   contig-100_3    2417    [2332/2342] [99.5%] ['hit1']
6   contig-100_4    2204    [2107/2107] [100.%] ['hit1']

相关问题更多 >

编程相关推荐

热门问题

热门文章