使用python Sp向Kafka发送大型CSV

sc = SparkContext() text = sc.textFile("file.csv") header = text.first().split(',') def remove_header(itr_index, itr): return iter(list(itr)[1:]) if itr_index == 0 else itr noHeader = text.mapPartitionsWithIndex(remove_header) messageRDD = noHeader.map(lambda x: json.dumps(dict(zip(header, x.split(","))

1条回答

网友

1楼 · 发布于 2024-04-26 21:30:29

您可以为每个分区创建一个生产者，并使用mapPartitions或foreachPartition：

def sendkafka(messages):
    kafka = KafkaClient("localhost:9092")
    producer = SimpleProducer(kafka)
    for message in messages:
        yield producer.send_messages('topic', message)

sentRDD = messageRDD.mapPartitions(sendkafka)

如果上面的方法不能帮助您使用asynchronous producer扩展它。

在Spark 2.x中，也可以使用Kafka数据源。你必须包括spark-sql-kafkajar，匹配的Spark和Scala版本（分别是2.2.0和2.11）：

spark.jars.packages  org.apache.spark:spark-sql-kafka-0-10_2.11:2.2.0

将数据转换为DataFrame（如果它还没有DataFrame）：

messageDF = spark.createDataFrame(messageRDD, "string")

使用DataFrameWriter编写：

(messageDF.write
    .format("kafka")
    .option("topic", topic_name)
    .option("kafka.bootstrap.servers", bootstrap_servers)
    .save())

相关问题更多 >

编程相关推荐

热门问题

热门文章