Python用pandas提取具有重复标题的列

2024-05-13 04:34:04 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个csv文件,有90万行和30列。标题位于第一行: “探针集ID”、“dbSNP RS ID”、“染色体”、“物理位置”等。。。在

我只想用pandas提取某些列。在

现在我的问题是头文件每隔50行左右重复一次,所以当我提取列时,我只得到前50行。如何在跳过除第一个标题之外的所有标题的同时获得完整的列?在

这是我迄今为止的代码,但只能在第二个标题之前正常工作:

import pandas
data = pandas.read_csv('data1.csv', usecols = ['dbSNP RS ID', 'Physical         Position'])

import sys  
sys.stdout = open("data2.csv", "w") 
print data

下面是一个示例,表示提取列的某些行:

^{pr2}$

提前非常感谢!在


Tags: 文件csv代码importid标题pandasdata
1条回答
网友
1楼 · 发布于 2024-05-13 04:34:04

您可以read the file with ^{}drop the duplicate rows(默认情况下保留第一行),然后将剩余的第一行设置为标题,如下所示:

df = read_csv(path, header=None).drop_duplicates()
df.columns = df.iloc[0]
df = df.iloc[1:]

相关问题 更多 >