Python中文
首页
教程
问答
标签
搜索
登录
注册
如何过滤pyspark数据帧
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我已经看到了许多与筛选pyspark数据帧相关的问题,但尽管我尽了最大的努力,我仍然无法让任何非SQL解决方案发挥作用</p> <pre><code>+----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...| TORONTO | 3| |30/10/2017| Groceries| -1.84| LONGO'S # 2| | 4| </code></pre> <p>这不起作用:</p> <pre><code>df1 = spark.read.csv("/some/path/to/file", sep=',')\ .filter((col('purch_location')=='BRAMPTON') </code></pre> <p>但这不起作用</p> <pre><code>df1 = spark.read.csv("/some/path/to/file", sep=',')\ .filter(purch_location == 'BRAMPTON') </code></pre> <p>这个(SQL表达式)可以工作,但需要很长时间,我想有一种更快的非SQL方法</p> <pre><code>df1 = spark.read.csv("/some/path/to/file", sep=',')\ .filter(purch_location == 'BRAMPTON') </code></pre> <p><strong>更新</strong>我应该提到我能够使用以下方法(比SQL表达式运行得更快):</p> <pre><code>df1 = spark.read.csv("/some/path/to/file", sep=',') df2 = df1.filter(df1.purch_location == "BRAMPTON") </code></pre> <p>但是我想了解为什么“pipe”<code>/</code>连接语法不正确</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您可以使用<code>df["purch_location"]</code></p> <pre class="lang-py prettyprint-override"><code>df = spark.read.csv("/some/path/to/file", sep=',') df = df.filter(df["purch_location"] == "BRAMPTON") </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
plt.savefig不会覆盖现有文件
4 回答
plt.savefig不保存图像
4 回答
plt.savefig在jupyter笔记本中不起作用
1 回答
plt.savefig在从另一个fi调用时停止工作
10 回答
plt.savefig在调用plt.show之前保存空数字
8 回答
plt.save不创建png文件
6 回答
plt.scatter overlay分类数据帧列
6 回答
Plt.Scatter:如何添加title、xlabel和ylab
3 回答
plt.scatter()绘图与Matplotlib中的plt.plot()绘图类似
5 回答
plt.scatter错误'NoneType'对象在成功运行后没有属性'sqrt'
5 回答
plt.set_title()中的标题字符串有误
8 回答
plt.show()
10 回答
plt.show()不在Jupyter笔记本上渲染任何内容
10 回答
plt.show()不打印plt.plot only plt.scatter
4 回答
plt.show()不显示三维散射图像
7 回答
plt.show()不显示任何内容
3 回答
plt.show()不显示数据,而是保留它供下一个图表使用(spyder)
2 回答
plt.show()使终端挂起
10 回答
plt.show()无法使用此代码
1 回答
plt.show()没有打开新的图形风
3 回答