在python3中从单列数据派生多列

20 7369 CLERK 30 7499 SALESMAN 30 7521 SALESMAN 20 7566 MANAGER 30 7654 SALESMAN 30 7698 MANAGER 10 7782 MANAGER 20 7788 ANALYST 10 7839 PRESIDENT 30 7844 SALESMAN 20 7876 CLERK 30 7900 CLERK 20 7902 ANALYST

DEPTNO EMPNO JOB 20 7369 CLERK 30 7499 SALESMAN 30 7521 SALESMAN 20 7566 MANAGER 30 7654 SALESMAN 30 7698 MANAGER 10 7782 MANAGER 20 7788 ANALYST 10 7839 PRESIDENT 30 7844 SALESMAN 20 7876 CLERK 30 7900 CLERK 20 7902 ANALYST

2条回答

网友

1楼 · 编辑于 2024-06-09 13:25:12

可以使用columns参数：

import pandas as pd    
with open('Emp.dat','r') as f:
    next(f) # skip first row
    df = pd.DataFrame((l.rstrip().split() for l in f), columns=['DEPTNO', 'EMPNO', 'JOB'])

输出：

   DEPTNO EMPNO        JOB
0      20  7369      CLERK
1      30  7499   SALESMAN
2      30  7521   SALESMAN
3      20  7566    MANAGER
4      30  7654   SALESMAN
5      30  7698    MANAGER
6      10  7782    MANAGER
7      20  7788    ANALYST
8      10  7839  PRESIDENT
9      30  7844   SALESMAN
10     20  7876      CLERK
11     30  7900      CLERK
12     20  7902    ANALYST

网友

2楼 · 编辑于 2024-06-09 13:25:12

这里有两种方法。你知道吗

使用df = pd.read_csv('emp.dat', sep=r'\s+)分割任意数量的空白字符上的每一行（更多详细信息请参见How to make separator in pandas read_csv more flexible wrt whitespace?）
使用固定宽度字段df = pd.read_fwf(io.StringIO(t), width=[4,9,9])

在这两种情况下，第一行都将用作标题行。使用pd.read...(..., header=None, skiprows=[0])完全忽略它

相关问题更多 >

编程相关推荐

热门问题

热门文章