使用pysp将Dstream转换为Spark数据帧

2024-05-16 15:10:55 发布

男 | 程序猿一只，喜欢编程写python代码。

我想将Dstream转换为DataFrame，以便对这个DataFrame应用相同的转换，并调用NaiveBayesModel模型来预测目标概率，我使用apachespark 2.1.1，Dstream是从socketTextStream构建的。我试图调用foreachRDD函数的foreachRDD，但它没有工作。在

def predict(rdd):
    count = rdd.count()
    if(count>0):
        hashingTF = HashingTF(numFeatures=1000)
        features = hashingTF.transform(rdd)
        result = model.transform(features)
        return result.probability
    else:
        print("No data receveid")

model = NaiveBayesModel.load(sc, "ML_models/NaiveClassifier/naiveBayesClassifier-2010-09-10-08-51-25")
lines = ssc.socketTextStream("localhost", 9999)
tweets = lines.map(lambda v: json.loads(v))
text_dstream = tweets.map(lambda tweet: tweet['text'])
df = text_dstream.foreachRDD(lambda rdd: predict(rdd))
ssc.start()             # Start the computation
ssc.awaitTermination()

我收到以下错误消息

^{pr2}$

我的想法是将Dstream转换为SparkDataFrame，并使用以下方法应用转换：

#Tokenize sentiment text
tokenizer = Tokenizer(inputCol="SentimentText", outputCol="SetimentTextTokenize")
wordsData = tokenizer.transform(df)

hashingTF = HashingTF(inputCol="SetimentTextTokenize", outputCol="rawFeatures", numFeatures=1000)
featurizedData = hashingTF.transform(wordsData)

Tags： lambda text dataframe count transform predict rdd dstream

0条回答

目前没有回答

使用pysp将Dstream转换为Spark数据帧

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用pysp将Dstream转换为Spark数据帧

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >