pyspark:trainkma表示从

sc = SparkContext(appName="PythonStreamingKafka") ssc = StreamingContext(sc, 30) zkQuorum, topic = sys.argv[1:] kvs = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer", {topic: 1}) lines = kvs.map(lambda x: x[1]) lines.pprint()

1条回答

网友

1楼 · 发布于 2024-05-15 03:10:04

第一个问题是格式化从卡夫卡提取的流。以下是对管道分离数据的处理方法

sc = SparkContext(appName="PythonStreamingKafka")
ssc = StreamingContext(sc, 30)

zkQuorum, topic = sys.argv[1:]
kvs = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer", {topic: 1})

raw = kvs.flatMap(lambda kafkaS: [kafkaS])
lines = raw.map(lambda xs: xs[1].split("|"))

lines = lines.map(lambda x: DenseVector(x))

第二个问题是数据的维度：setRandomCenters的第一个参数（它应该与特征的数量相同）

编程相关推荐

java Admob不使用webview
Java Wicket表单：序列化对象类“myClassName”时出错
java googledriveapi更新文件与我的帐户管理员
java简单框架未知xml标记解析
java如何使用主类和用户获取Spark应用程序ID
java如何更改自定义属性的值？
java有没有办法在jMock中找到未使用的期望值？
gradle运行任务的java文档？
java通过使用数组来存储文本文件的行，通过覆盖来删除文本文件中的行
用于表达式语言注入的java利用负载

相关问题更多 >

编程相关推荐

热门问题

热门文章

pyspark:trainkma表示从

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >