如何在sp中读取固定字符长度的格式文件

2024-05-19 21:56:28 发布

男 | 程序猿一只，喜欢编程写python代码。

数据如下。在

[Row(_c0='ACW00011604  17.1167  -61.7833   10.1    ST JOHNS COOLIDGE FLD                       '),
 Row(_c0='ACW00011647  17.1333  -61.7833   19.2    ST JOHNS                                    '),
 Row(_c0='AE000041196  25.3330   55.5170   34.0    SHARJAH INTER. AIRP            GSN     41196')]

我已经根据文档用正确的列宽等定义了模式。我使用pyspark将其读入数据帧的代码如下：

^{pr2}$

我得到以下输出。在

In [62]: df.show(3)
+-----------+--------+---------+---------+--------+-------+--------+------------+------+
|         ID|LATITUDE|LONGITUDE|ELEVATION|   STATE|   NAME|GSN FLAG|HCN/CRN FLAG|WMO ID|
+-----------+--------+---------+---------+--------+-------+--------+------------+------+
|ACW00011604|    null|  17.1167|     null|-61.7833|   null|    null|        10.1|  null|
|ACW00011647|    null|  17.1333|     null|-61.7833|   null|    null|        19.2|  null|
|AE000041196|    null|   25.333|     null|    null|55.5170|    null|        null|  34.0|
+-----------+--------+---------+---------+--------+-------+--------+------------+------+

我不能删除空白请问这里少了什么。在

Tags：数据 id null row flag st c0 fld

1条回答

网友

1楼 · 发布于 2024-05-19 21:56:28

你需要把当作一行一行的文本来读。否则分隔符错误

df = spark.read.text("hdfs:////data/stn")

然后然后解析

^{pr2}$

如何在sp中读取固定字符长度的格式文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在sp中读取固定字符长度的格式文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >