我正在寻找一个RDD操作,比如sql中的like
。假设我有一个不同IP的专栏,比如:
192.168.1.1/
192.168.1.2/
192.168.1.3/
123.123.123.123/
1.1.1.1/
2.2.2.2/
假设它们是不同类型的RDD和DataFrame,这样我们就可以直接对它们进行一些操作。在RDD中是否有一个操作的结果与下面的sql相同?你知道吗
'SELECT count(host) from webIP where host like '192.168.1.%'.
我知道如何使用reduceByKey
函数来计数,比如Lines.reduceByKey(lambda x, y: x+y)
,我要找的是一个类似于sql中的like
的函数来找出RDD数据中以192.168.1.*开头的ip。你知道吗
使用RDD:
要计算以
192.168.1.
开头的元素,可以执行以下操作:注意
filter()
是一个转换,而count()
是一个动作对于数据帧:
您可以直接使用sql进行筛选:假设目标列是
'webIP'
相关问题 更多 >
编程相关推荐