pyspark：查找包含单词/标签的tweet数量

2024-04-23 09:31:41 发布

男 | 程序猿一只，喜欢编程写python代码。

我试图分析一个包含来自Twitter API的数据的JSON文件。我想知道一个标签或特定单词在我的数据集中出现了多少次。我可以使用以下工具获取最常见的tweet列表：

 print(df.groupby('text').count().sort(desc('count')).show())

所以我知道，比如，利物浦在数据中绝对是一个词。在

我只想找出“利物浦”这个词在我的数据集中出现了多少次，这可能吗？谢谢

我使用Spark版本1.6.0。在

列命名为

^{pr2}$

Tags：文件工具数据 text api json df 列表

1条回答

网友

1楼 · 发布于 2024-04-23 09:31:41

不确定这是否适用于1.6，我使用2.1，但我会做类似的事情：

from pyspark.sql.functions import col

df.where(col('text').like("%Liverpool%")).count()