哪些库可以帮助我读取python中的gct文件,并像删除带有NaN值的行一样对其进行编辑。如果我将下面的代码应用于.gct文件,它将如何更改
data = pd.read_csv('PAAD1.csv')
new_data = data.dropna(axis = 0, how ='any')
print("Old data frame length:", len(data), "\nNew data frame length:",
len(new_data), "\nNumber of rows with at least 1 NA value: ",
(len(data)-len(new_data)))
new_data.to_csv('EditedPAAD.csv')
谷歌快速搜索将为您提供以下信息: https://pypi.org/project/cmapPy/
关于代码,如果您不关心前两行中的元数据,这似乎符合您的目的,但是您应该首先指出分隔符是
TAB
,并跳过前两行-pandas.read_csv(PATH_TO_GCT_FILE, sep='\t',skiprows=2)
您应该为此使用^{} 包。与
read_csv
相比,它提供了更多的自由度和特定于域的实用程序。例如,如果你的*.gct
看起来像这样您只能提取具有所需probeset id(行id)的行,例如
['1007_s_at', '1053_at', '117_at', '121_at', '1255_g_at', '1294_at UBE1L']
因此,要读取文件,请删除
description
中的nan
并再次保存,请执行以下操作:那么
new_example.gct
看起来是这样的:相关问题 更多 >
编程相关推荐