使用Pandas设置列之间的相关性分数

Yan TNSeq Kato Eco-GeneOrth Essential accA accA accA accA accA accB accB accB accB accB accC accC accC accC accC accD accD accD accD accD aceF acpP acpP alaS aceF acpP acpS acpS argA acpP acpS adk adk argB acpS

2条回答

网友

1楼 · 编辑于 2024-05-21 01:53:29

看看这个。如果你的数据集很大，可能会有一些性能问题，但是，由于你的数据不是按行排列的，我看不出一种方法可以避免检查每个基本基因的整个数据框：

import pandas as pd
def check(ess, col):
    return any(col.str.contains(ess))
df["Score"] = pd.Series(sum(df.loc[:,"Yan":"Eco-GeneOrth"].
                            apply(lambda col: check(ess, col), axis = 0)) for ess in df.Essential)

#    Yan    TNSeq   Kato    Eco-GeneOrth    Essential   Score
# 0 accA    accA    accA    accA    accA    4
# 1 accB    accB    accB    accB    accB    4
# 2 accC    accC    accC    accC    accC    4
# 3 accD    accD    accD    accD    accD    4
# 4 aceF    acpP    acpP    alaS    aceF    1
# 5 acpP    acpS    acpS    argA    acpP    3
# 6 acpS    adk     adk     argB    acpS    3

网友

2楼 · 编辑于 2024-05-21 01:53:29

你可以这样做：

df['Score'] = pd.DataFrame(df, columns=['Yan', 'TNSeq', 'Kato', 'Eco-GeneOrth']).eq(df['Essential'], axis='rows').sum(axis=1)

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Pandas设置列之间的相关性分数

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >