spark,cassandra,流媒体,python,错误,数据库,

2024-04-20 05:42:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我想把我的流媒体数据从spark保存到cassandra,spark被连接到kafka并且工作正常,但是保存到cassandra它让我变得疯狂。我用的是spark 2.0.2,kafka 0.10和cassandra 2.23

这就是我如何服从火花

spark-submit --verbose --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.0 --jars /tmp/pyspark-cassandra-0.3.5.jar --driver-class-path /tmp/pyspark-cassandra-0.3.5.jar --py-files /tmp/pyspark-cassandra-0.3.5.jar --conf spark.cassandra.connection.host=localhost /tmp/direct_kafka_wordcount5.py localhost:9092 testing

这是我的代码,只是从spark示例中稍作修改,它可以工作,但我不能将这些数据保存到cassandra。。。。在

这就是我要做的,只是计数结果 http://rustyrazorblade.com/2015/05/spark-streaming-with-python-and-kafka/

^{pr2}$

我犯了这个错误

回溯(最近一次呼叫): 文件“/tmp/direct_kafka_wordcount5.py”,第88行,in counts.saveToCassandra公司(“火花”,“计数”)


Tags: kafka数据pylocalhosttmpsparkpysparkjar
1条回答
网友
1楼 · 发布于 2024-04-20 05:42:47

Pyspark Casasndra不久前停止更新,最新版本仅支持Spark 1.6 https://github.com/TargetHolding/pyspark-cassandra

另外

counts=lines.count() // Returns data to the driver (not an RDD)

counts现在是一个整数。这意味着函数saveToCassandra不适用,因为它是RDD的函数

相关问题 更多 >