如何以编程方式将Kafka主题加载并流式传输到PySpark数据帧

import pyspark from pyspark.sql import SparkSession, Row from pyspark.context import SparkContext from kafka import KafkaConsumer sc = SparkContext.getOrCreate() spark = SparkSession(sc) consumer = KafkaConsumer('Jim_Topic') for message in consumer: data = message print(data) # Printing the messages properly df = data.map # am unable to convert it to a dataframe.

df = spark \ .read \ .format("kafka") \ .option("kafka.bootstrap.servers", "localhost:9092") \ .option("subscribe", "Jim_Topic") \ .load() df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")

1条回答

网友

1楼 · 发布于 2024-04-19 11:09:51

根据您的用例，您可以

用于流式查询

val df = spark
  .readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "localhost:9092")
  .option("subscribe", "Jim_Topic")
  .load()

# Query data
df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)") \
  .as[(String, String)]

用于批量查询

val df = spark
  .read
  .format("kafka")
  .option("kafka.bootstrap.servers", "localhost:9092")
  .option("subscribe", "Jim_Topic")
  .load()

# Query data
df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)") \
  .as[(String, String)]

还要确保添加所需的依赖项：

org.apache.spark:spark-sql-kafka-0-10_2.11:2.0.2

（替换为您的Spark版本-上面提到的是Spark版本2.0.2）

相关问题更多 >

编程相关推荐

热门问题

热门文章