我是Spark的新手,尝试着像使用熊猫进行数据分析一样使用它。你知道吗
在pandas中,要查看变量,我将编写以下内容:
import pandas as pd
df = pd.DataFrame({a:[1,2,3],b:[4,5,6]})
print(df.head())
在Spark中,我的打印语句不会打印到终端。基于David的comment on this answer,print语句被发送到stdout/stderr
,有一种方法可以通过Yarn获得它,但他没有说明如何获得它。我找不到任何有意义的谷歌“如何捕捉stdout火花”。你知道吗
我想要的是一种查看我的一些数据的方法,以便对我的数据分析进行故障排除。”添加那个专栏有用吗?”诸如此类的事情。我也欢迎新的方法来解决更适合于大型数据集的问题。你知道吗
是的,您可以使用不同的方式打印数据帧:
df.show()
将打印前20行,但您可以为n
行传递一个数字。你知道吗您还可以使用
df.limit(n).toPandas()
获得熊猫样式df.head()
相关问题 更多 >
编程相关推荐