2024-04-23 09:31:41 发布
网友
我试图分析一个包含来自Twitter API的数据的JSON文件。 我想知道一个标签或特定单词在我的数据集中出现了多少次。我可以使用以下工具获取最常见的tweet列表:
print(df.groupby('text').count().sort(desc('count')).show())
所以我知道,比如,利物浦在数据中绝对是一个词。在
我只想找出“利物浦”这个词在我的数据集中出现了多少次,这可能吗?谢谢
我使用Spark版本1.6.0。在
列命名为
不确定这是否适用于1.6,我使用2.1,但我会做类似的事情:
from pyspark.sql.functions import col df.where(col('text').like("%Liverpool%")).count()
不确定这是否适用于1.6,我使用2.1,但我会做类似的事情:
相关问题 更多 >
编程相关推荐