SparkStreaming整合Kafka过程详解

2023-01-29 08:56:20
目录
Spark Streaming连接kafka 的两种方式Receiver based ApproahDirect Approach代码展示自动提交偏移量手动提交

Spark>

Receiver>
    KafkaUtils.createDstream基于接收器方式,消费Kafka数据,已淘汰Receiver作为Task运行在Executor等待数据,一个Receiver效率低,需要开启多个,再手动合并数据,很麻烦Receiver挂了,可能丢失数据,需要开启WAL(预写日志)保证数据安全,效率低通过Zookeeper来连接kafka,offset存储再zookeeper中spark消费的时候为了保证数据不丢也会保存一份offset,可能出现数据不一致

    Direct>
      KafkaUtils.createDirectStream直连方式,streaming中每个批次的job直接调用Simple Consumer API获取对应Topic数据Direct方式直接连接kafka分区获取数据,提高了并行能力Direct方式调用kafka低阶API,offset自己存储和维护,默认由spark维护在checkpoint中offset也可以自己手动维护,保存在mysql/redis中
      // 从kafka加载数据
      val kafkaParams = Map[String, Object](
        "bootstrap.servers" -> "hadoop102:9092",//kafka集群地址
        "key.deserializer" -> classOf[StringDeserializer],//key的反序列化规则
        "value.deserializer" -> classOf[StringDeserializer],//value的反序列化规则
        "group.id" -> "sparkdemo",//消费者组名称
        //earliest:表示如果有offset记录从offset记录开始消费,如果没有从最早的消息开始消费
        //latest:表示如果有offset记录从offset记录开始消费,如果没有从最后/最新的消息开始消费
        //none:表示如果有offset记录从offset记录开始消费,如果没有就报错
        "auto.offset.reset" -> "latest",
        "auto.commit.interval.ms"->"1000",//自动提交的时间间隔
        "enable.auto.commit" -> (true: java.lang.Boolean)//是否自动提交
      )
      val topics = Array("spark_kafka")//要订阅的主题
      //使用工具类从Kafka中消费消息
      val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
        ssc,
        LocationStrategies.PreferConsistent, //位置策略,使用源码中推荐的
        ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消费策略,使用源码中推荐的
      )
      

      代码展示

      自动提交偏移量

      object kafka_Demo01 {
        def main(args: Array[String]): Unit = {
          val conf = new SparkConf().setMaster("local[*]").setAppName("kafka_Demo01")
          val sc = new SparkContext(conf)
          val ssc = new StreamingContext(sc, Seconds(5))
          ssc.checkpoint("data/ckp")
          // 从kafka加载数据
          val kafkaParams = Map[String, Object](
            "bootstrap.servers" -> "hadoop102:9092",//kafka集群地址
            "key.deserializer" -> classOf[StringDeserializer],//key的反序列化规则
            "value.deserializer" -> classOf[StringDeserializer],//value的反序列化规则
            "group.id" -> "sparkdemo",//消费者组名称
            //earliest:表示如果有offset记录从offset记录开始消费,如果没有从最早的消息开始消费
            //latest:表示如果有offset记录从offset记录开始消费,如果没有从最后/最新的消息开始消费
            //none:表示如果有offset记录从offset记录开始消费,如果没有就报错
            "auto.offset.reset" -> "latest",
            "auto.commit.interval.ms"->"1000",//自动提交的时间间隔
            "enable.auto.commit" -> (true: java.lang.Boolean)//是否自动提交
          )
          val topics = Array("spark_kafka")//要订阅的主题
          //使用工具类从Kafka中消费消息
          val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
            ssc,
            LocationStrategies.PreferConsistent, //位置策略,使用源码中推荐的
            ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消费策略,使用源码中推荐的
          )
          // 处理消息
          val infoDS = kafkaDS.map(record => {
            val topic = record.topic()
            val partition = record.partition()
            val offset = record.offset()
            val key = record.key()
            val value = record.value()
            val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}"""
            info
          })
          // 输出
          infoDS.print()
          ssc.start()
          ssc.awaitTermination()
          ssc.stop(true, true)
        }
      }
      

      手动提交

      提交代码

      // 处理消息
      //注意提交的时机:应该是消费完一小批就该提交一次offset,而在DStream一小批的体现是RDD
      kafkaDS.foreachRDD(rdd => {
        rdd.foreach(record => {
          val topic = record.topic()
          val partition = record.partition()
          val offset = record.offset()
          val key = record.key()
          val value = record.value()
          val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}"""
          info
          println("消费" + info)
        })
        //获取rdd中offset相关的信息:offsetRanges里面就包含了该批次各个分区的offset信息
        val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
        //提交
        kafkaDS.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
        println("当前批次的数据已消费并手动提交")
      })
      

      完整代码

      object kafka_Demo02 {
        def main(args: Array[String]): Unit = {
          val conf = new SparkConf().setMaster("local[*]").setAppName("kafka_Demo01")
          val sc = new SparkContext(conf)
          val ssc = new StreamingContext(sc, Seconds(5))
          ssc.checkpoint("data/ckp")
          // 从kafka加载数据
          val kafkaParams = Map[String, Object](
            "bootstrap.servers" -> "hadoop102:9092",//kafka集群地址
            "key.deserializer" -> classOf[StringDeserializer],//key的反序列化规则
            "value.deserializer" -> classOf[StringDeserializer],//value的反序列化规则
            "group.id" -> "sparkdemo",//消费者组名称
            //earliest:表示如果有offset记录从offset记录开始消费,如果没有从最早的消息开始消费
            //latest:表示如果有offset记录从offset记录开始消费,如果没有从最后/最新的消息开始消费
            //none:表示如果有offset记录从offset记录开始消费,如果没有就报错
            "auto.offset.reset" -> "latest",
      //      "auto.commit.interval.ms"->"1000",//自动提交的时间间隔
            "enable.auto.commit" -> (false: java.lang.Boolean)//是否自动提交
          )
          val topics = Array("spark_kafka")//要订阅的主题
          //使用工具类从Kafka中消费消息
          val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
            ssc,
            LocationStrategies.PreferConsistent, //位置策略,使用源码中推荐的
            ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消费策略,使用源码中推荐的
          )
          // 处理消息
          //注意提交的时机:应该是消费完一小批就该提交一次offset,而在DStream一小批的体现是RDD
          kafkaDS.foreachRDD(rdd => {
            rdd.foreach(record => {
              val topic = record.topic()
              val partition = record.partition()
              val offset = record.offset()
              val key = record.key()
              val value = record.value()
              val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}"""
              info
              println("消费" + info)
            })
            //获取rdd中offset相关的信息:offsetRanges里面就包含了该批次各个分区的offset信息
            val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
            //提交
            kafkaDS.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
            println("当前批次的数据已消费并手动提交")
          })
          // 输出
          kafkaDS.print()
          ssc.start()
          ssc.awaitTermination()
          ssc.stop(true, true)
        }
      }

      到此这篇关于SparkStreaming整合Kafka过程详解的文章就介绍到这了,更多相关SparkStreaming整合Kafka内容请搜索易采站长站以前的文章或继续浏览下面的相关文章希望大家以后多多支持易采站长站!