将文本文件读取到元组pyspark

from pyspark import SparkConf, SparkContext import operator import math conf = SparkConf().setMaster("local[*]").setAppName("Lab 6") sc = SparkContext(conf=conf) rawData = sc.textFile("txtfile.data") data = rawData.flatMap(lambda line: line.split(","))

2条回答

网友

1楼 · 编辑于 2024-04-25 01:58:05

flatmap是map（转换）和展平的组合，它将为子数组中的每个元素创建一行

您希望使用map方法生成字符串数组类型的列

网友

2楼 · 编辑于 2024-04-25 01:58:05

用^{}代替flatMap

data = rawData.map(lambda line: line.split(","))
#[['Sunny', 'Hot', 'High', 'Weak', 'No'], ['Sunny', 'Hot', 'High', 'Strong', 'No']]

#to get list of tuples
data = rawData.map(lambda line: tuple(line.split(",")))
#[('Sunny', 'Hot', 'High', 'Weak', 'No'), ('Sunny', 'Hot', 'High', 'Strong', 'No')]

编程相关推荐

从方法名创建java查询无效。正在尝试筛选可分页的
构造函数中的java异常消息
java为什么我在MAC OS X 10.11上看不到java_主路径？
java如何澄清用户的输入是否是二进制数？
java在ant脚本中将JVM参数传递给clover
从txt文件读取调查结果并输出每个调查答案频率的Java程序
java进程引擎。getDefaultProcessEngine（）空点异常
java SpringSecurity：忽略服务器名的别名并强制重新登录
java pythonsocket[Errno 57]socket未连接，尽管响应良好
使用Commons或Guava将文本文件转换为Java列表<String>

相关问题更多 >

编程相关推荐

热门问题

热门文章

将文本文件读取到元组pyspark

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >