在pyspark中操作.txt文件数据并更改数据类型

2024-04-19 20:09:54 发布

男 | 程序猿一只，喜欢编程写python代码。

我对这个领域还不熟悉。我正在尝试使用python在sparkshell（pyspark）上执行简单的函数。该文件是.txt格式，其中只有数字。我把它和台词一起上传了

numbers_rdd = sc.textFile("/users/hadoop/numbers.txt")

我试着用

numbers_rdd.mean()

我相信这是因为我需要将文本文件中的数据从字符串转换为数字，但我不确定。请告知如何进行。你知道吗

数字_rdd.take公司（5） output

Tags：文件函数 txt output 格式数字 users 领域

1条回答

网友

1楼 · 发布于 2024-04-19 20:09:54

您正在从文本文件加载数字，其中每行数字位于不同的rdd元素中，因此：

拆分每行，强制转换为int并展平结果列表，以便将每个数字作为单独的元素：

numbers_rdd.flatMap(lambda x: [int(y) for y in x.split()]).mean()