数据如下。在
[Row(_c0='ACW00011604 17.1167 -61.7833 10.1 ST JOHNS COOLIDGE FLD '),
Row(_c0='ACW00011647 17.1333 -61.7833 19.2 ST JOHNS '),
Row(_c0='AE000041196 25.3330 55.5170 34.0 SHARJAH INTER. AIRP GSN 41196')]
我已经根据文档用正确的列宽等定义了模式。我使用pyspark将其读入数据帧的代码如下:
^{pr2}$我得到以下输出。在
In [62]: df.show(3)
+-----------+--------+---------+---------+--------+-------+--------+------------+------+
| ID|LATITUDE|LONGITUDE|ELEVATION| STATE| NAME|GSN FLAG|HCN/CRN FLAG|WMO ID|
+-----------+--------+---------+---------+--------+-------+--------+------------+------+
|ACW00011604| null| 17.1167| null|-61.7833| null| null| 10.1| null|
|ACW00011647| null| 17.1333| null|-61.7833| null| null| 19.2| null|
|AE000041196| null| 25.333| null| null|55.5170| null| null| 34.0|
+-----------+--------+---------+---------+--------+-------+--------+------------+------+
我不能删除空白 请问这里少了什么。在
你需要把当作一行一行的文本来读。否则分隔符错误
然后然后解析
^{pr2}$相关问题 更多 >
编程相关推荐