我有一个csv文件,有90万行和30列。标题位于第一行: “探针集ID”、“dbSNP RS ID”、“染色体”、“物理位置”等。。。在
我只想用pandas提取某些列。在
现在我的问题是头文件每隔50行左右重复一次,所以当我提取列时,我只得到前50行。如何在跳过除第一个标题之外的所有标题的同时获得完整的列?在
这是我迄今为止的代码,但只能在第二个标题之前正常工作:
import pandas
data = pandas.read_csv('data1.csv', usecols = ['dbSNP RS ID', 'Physical Position'])
import sys
sys.stdout = open("data2.csv", "w")
print data
下面是一个示例,表示提取列的某些行:
^{pr2}$提前非常感谢!在
您可以read the file with ^{} ,drop the duplicate rows(默认情况下保留第一行),然后将剩余的第一行设置为标题,如下所示:
相关问题 更多 >
编程相关推荐