我是一个新的spark用户,以前我是熊猫背景的。这是我的Spark数据框
In[75]: spDF
Out[75]: DataFrame[customer_id: string, name: string]
当我show
他们
In[75]: spDF.show()
Out[75]:
+-----------+-----------+
|customer_id| name|
+-----------+-----------+
| 25620| MCDonnalds|
| 25620| STARBUCKS|
| 25620| nan|
| 25620| nan|
| 25620| MCDonnalds|
| 25620| nan|
| 25620| MCDonnalds|
| 25620|DUNKINDONUT|
| 25620| LOTTERIA|
| 25620| nan|
| 25620| MCDonnalds|
| 25620|DUNKINDONUT|
| 25620|DUNKINDONUT|
| 25620| nan|
| 25620| nan|
| 25620| nan|
| 25620| nan|
| 25620| LOTTERIA|
| 25620| LOTTERIA|
| 25620| STARBUCKS|
+-----------+-----------+
only showing top 20 rows
然后我尝试只查询列
In[76]: spDF['name']
Out[76]: Column<b'name'>
但是当我给他们看的时候,我得到了下面的错误。
In[79]: spDF['name'].show()
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-79-f6676d5e5ca2> in <module>()
----> 1 spDF['name'].show()
TypeError: 'Column' object is not callable
有人知道,这个错误是什么?
试试看
所以spDF.select('colname').show()
相关问题 更多 >
编程相关推荐