我只保留第二个表中引用的具有部门ID的员工。
Employee table
LastName DepartmentID
Rafferty 31
Jones 33
Heisenberg 33
Robinson 34
Smith 34
Department table
DepartmentID
31
33
我尝试了以下不起作用的代码:
employee = [['Raffery',31], ['Jones',33], ['Heisenberg',33], ['Robinson',34], ['Smith',34]]
department = [31,33]
employee = sc.parallelize(employee)
department = sc.parallelize(department)
employee.filter(lambda e: e[1] in department).collect()
Py4JError: An error occurred while calling o344.__getnewargs__. Trace:
py4j.Py4JException: Method __getnewargs__([]) does not exist
有什么想法吗?我在Python中使用Spark 1.1.0。不过,我会接受Scala或Python的答案。
我终于用join实现了一个解决方案。为了避免Spark出现异常,我必须给部门加上一个0值:
在多个列中筛选多个值:
如果要从数据库中提取数据(本例中是Hive或SQL类型的db),并且需要在多个列上进行筛选,则可能更容易使用第一个筛选加载表,然后通过RDD迭代筛选(鼓励使用多个小迭代的Spark编程方法):
当然,为了筛选正确的值,您需要稍微了解数据,但这是分析过程的一部分。
在这种情况下,您希望实现的是在每个分区上使用department表中包含的数据进行筛选: 这将是基本的解决方案:
如果您的部门数据很大,广播变量将通过将数据一次传递到所有节点来提高性能,而不必将其与每个任务序列化
尽管使用join可以工作,但这是一个非常昂贵的解决方案,因为它需要分布式数据洗牌(byKey)来实现join。考虑到需求是一个简单的过滤器,将数据发送到每个分区(如上所示)将提供更好的性能。
相关问题 更多 >
编程相关推荐