将.txt文件转换为具有特定列的.csv

SEQ MSSSSWLLLSLVAVTAAQSTIEEQAKTFLDKFNHEAEDLFYQSSLASWNY SS3 CCCHHHHHHHHHHHHCCCCCCHHHHHHHHHHHHHHHHHHHHHHHHHHHHH 95024445656543114678678999999999999999888889998886 SS8 CCHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHHHHHHHHHHHHHHHH 96134445555554311253378999999999999999999999999987 SA EEEbBBBBBBBBBBbEbEEEeeEeBeEbBEEbbEeBeEbbeebBbBbBbb 41012123422000000103006262214011342311110000030001 TA bhHHHHHHHHHHHHHgIihiHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH 00789889988663201010099999999999999999898999998741 CD NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 54433221111112221122124212411342243234323333333333

3条回答

网友

1楼 · 编辑于 2024-04-27 03:19:47

您可以使用此脚本将.txt文件加载到DataFrame并将其另存为csv文件：

import pandas as pd


data = {}
with open('<your file.txt>', 'r') as f_in:
    for line in f_in:
        line = line.split()        
        if len(line) == 2:
            data[line[0]] = [line[1]]

df = pd.DataFrame(data)
print(df)
df.to_csv('data.csv', index=False)

保存此CSV：

网友

2楼 · 编辑于 2024-04-27 03:19:47

要使用pandas.read_csv（）方法读取文本文件，文本文件应包含用逗号分隔的数据

 SEQ, SS3, ....
 MSSSSWLLLSLVAVTAAQSTIEEQ..., CCCHHHHHHHHHHHHCCCCCCHHHHHHH.....

网友

3楼 · 编辑于 2024-04-27 03:19:47

台阶

使用pd.read_fwf()以固定宽度格式读取文件
用df.ffill()最后一个可用值填充缺少的值
使用groupby-cumcount构造为输出中的行号分配组号gp
将gp=（0,1）按df.pivot移动到列中，然后再次转置到所需的输出中

注意：此解决方案适用于第一列中省略值的任意（包括零，当然不太多）连续行

代码

# data (3 characters for the second column only)
file_path = "/mnt/ramdisk/input.txt"
df = pd.read_fwf(file_path, names=["col", "val"])

# fill the blank values
df["col"].ffill(inplace=True)
# get correct row location
df["gp"] = df.groupby("col").cumcount()
# pivot group (0,1) to columns and then transpose. 
df_ans = df.pivot(index="col", columns="gp", values="val").transpose()

结果

print(df_ans)  # show the first 3 characters only

col   CD   SA  SEQ  SS3  SS8   TA
gp                               
0    NNN  EEE  MSS  CCC  CCH  bhH
1    544  410  NaN  950  961  007

然后可以使用df_ans.to_csv()保存生成的数据帧

台阶

代码

结果

相关问题更多 >

编程相关推荐

热门问题

热门文章