当前位置: > > > Kafka - 生产者acks参数介绍与设置教程(附:如何保证数据不丢)

Kafka - 生产者acks参数介绍与设置教程(附:如何保证数据不丢)

1,数据通讯方式介绍

针对 producer 的数据通讯方式有同步发送和异步发送两种,它们区别如下:
  • 同步发送:生产者发出数据后,等接收方发回响应以后再发送下个数据的通讯方式。
  • 异步发送:生产者发出数据后,不等接收方发回响应,接着发送下个数据的通讯方式。

2,acks 参数介绍

(1)具体采用何种数据通讯策略(生产者决定何种写入语义)是由 acks 参数控制的,该参数有如下三种可选值:
  • 1(默认值):表示需要 Leader 节点回复收到消息,这样生产者才会发送下一条数据
  • -1(即 all):表示需要所有 Leader + 副本节点回复收到消息(acks=-1),这样生产者才会发送下一条数据
  • 0:表示不需要任何节点回复,生产者会继续发送下一条数据

(2)以下图为例,我们在向 hello 这个 topic 生产数据的时候,可以在生产者中设置 acks 参数:
  • 如果 acks 设置为 1,表示我们在向 hello 这个 topic partition1 这个分区写数据的时候,只需要让 leader 所在的 broker1 这个节点回复确认收到的消息就可以了,这样生产者就可以发送下一条数据了
  • 如果 acks 设置为 -1(即 all),则需要 partition1 的这两个副本所在的节点(包含 Leader)都回复收到消息,生产者才会发送下一条数据
  • 如果 acks 设置为 0,表示生产者不会等待任何 partition 所在节点的回复,它只管发送数据,不管你有没有收到,所以这种情况丢失数据的概率比较高。

3,acks 参数设置

(1)以 SpringBoot 项目为例,如果使用的是 kafka-clients 组件与 Kafka 进行集成,则在代码中通过如下方式设置 acks 参数:
Properties prop = new Properties();
//指定kafka的broker地址
prop.put("bootstrap.servers", "node1:9092,node2:9092,node3:9092");
//指定key-value数据的序列化格式
prop.put("key.serializer", StringSerializer.class.getName());
prop.put("value.serializer", StringSerializer.class.getName());
// acks设置
prop.put("acks", "1");
//指定topic
String topic = "hello";
//创建kafka生产者
KafkaProducer <String, String> producer = new KafkaProducer<String,String>(prop);
//向topic中生产数据
producer.send(new ProducerRecord<String, String>(topic, "hello hangge.com"));
//关闭链接
producer.close();

(2)如果我们使用的是 spring-kafka 这个组件,只要在项目 application.properties 文件中添加如下配置进行设置即可:
spring.kafka.producer.acks=1

4,ISR

(1)ISRIn-Sync Replicas)是指和主分区保持了主从同步的所有从分区。
  • 比如说,一个主分区本身有 3 个从分区,但是因为网络之类的问题,导致其中一个从分区和主分区失去了联系,没办法同步数据,那么对于这个主分区来说,它的 ISR 就是剩下的 2 个分区。

(2)我们能够通过 min.insync.replicas 这个参数来配置对 ISR 里面的分区数量。
  • 比如说当我们设置 min.insync.replicas = 2 的时候,就意味着 ISR 里面至少要有两个从分区。如果分区数量不足,那么生产者在配置 acks = all 的时候,发送消息会失败。
(3)与 ISR 对应的一个概念是 OSR,也就是不在 ISR 里面的分区集合。

附一:消息丢失的各种场景

1,生产者发送

(1)一个消息丢失的场景就是生产者把 acks 设置成 0,然后发送消息。这个时候虽然生产者能够拿到消息客户端返回的成功响应,但是事实上 broker 可能根本没收到,或者收到了但是处理新消息的时候遇到 Bug 了。

(2)如果我们启用了批量发送功能,而且批次比较大的话,那么还可能发生的情况就是,Kafka 客户端连请求都没有发送出去,服务就整个崩溃了,这种情况也会引起消息丢失。

2,主从同步

(1)而在 acks=1 的时候,只要求写入主分区就可以。所以假设在写入主分区之后,主分区所在 broker 立刻就崩溃了。这个时候发起新的主分区选举,不管是哪个从分区被选上,它都缺了这条消息。

(2)如果只要使用 acks=all 也不能保证肯定不会有问题。因为 Kafka 里面还有一种 unclean 选举。在允许 unclean 选举的情况下,如果 ISR 里面没有任何分区,那么 Kafka 就会选择第一个从分区来作为主分区。这种 unclean 选举机制本身主要是为了解决你希望尽可能保证 Kafka 依旧可用,并且等待从分区重新进入 ISR 的问题。类似地,unclean 选出来的新的主分区也可能少了部分数据。

(3)那么如果我设置 acks=all 并且禁用 unclean 选举,还是不能保证万无一失,因为还有下面的刷盘问题。

3,刷盘

(1)为了减少磁盘写入的次数,broker 会将消息暂时缓存起来(存储在 page cache 中),当消息的个数达到一定阈值或者过了一定的时间间隔后,再 flush 到磁盘。当遇到断电或机器故障的情况,PageCache 上的数据可能未来得及刷新到磁盘,会造成消息丢失。
  • acks=1 的时候,主分区返回写入成功的消息,但是这个时候消息可能还在操作系统的 page cache 里面。
  • 而当 acks=all 的时候,主分区返回写入成功的消息,不管是主分区还是 ISR 中的从分区,这条消息都可能还在 page cache 里面。

(2)而在 Kafka 中,控制刷盘的参数有三个:
  • log.flush.interval.messages:控制消息到多少条就要强制刷新磁盘。Kafka 会在写入 page cache 的时候顺便检测一下。
  • log.flush.interval.ms:间隔多少毫秒就刷新数据到磁盘上。
  • log.flush.scheduler.interval.ms:间隔多少毫秒,就检测数据是否需要刷新到磁盘上。

(3)参数说明:
  • 后面两个是要配合在一起的。举个例子,假如说 log.flush.internval.ms 设置为 500,而 log.flush.schduler.interval.ms 设置为 200。也就是说,Kafka 每隔 200 毫秒检查一下,如果上次刷新到现在已经过了 500 毫秒,那么就刷新一次磁盘。
  • log.flush.interval.messages log.flush.interval.ms 都设置了的话,那么就是它们俩之间任何一个条件满足了,都会刷新磁盘。
提示:总之,Kafka 要么是定量刷,要么是定时刷。

4,消费者提交

消费者提交是指消费者提交了偏移量,但是最终终却没有消费的情况。
  • 比如说线程池形态的异步消费,消费者线程拿到消息就直接提交,然后再转交给工作线程。在转交之前,或者工作线程正在处理的时候,消费者都有可能宕机。于是一个消息本来并没有被消费,但是却被提交了,这也叫做消息丢失。

附二:如何保证消息不丢失

1,确保发送方一定发了消息

(1)在发送方,我们可以采用本地消息表解决方案。简单来说,就是在业务操作的过程中,在本地消息表里面记录一条待发消息,做成一个本地数据库事务。然后尝试立刻发送消息,如果发送成功,那么就把本地消息表里对应的数据删除,或者把状态标记成已发送。

(2)如果这个时候失败了,就可以立刻尝试重试。同时,还要有一个异步的补发机制,扫描本地消息表,找出已经过了一段时间,比如说三分钟,但是还没有发送成功的待发消息,然后补发。

(3)而异步补发机制可以简单理解成有一个线程定时扫描数据库,找到需要发送但是又没有发送的消息发送出去。更直观的来说,就是这个线程会执行一个类似如下的 SQL
# 找出三分钟前还没发送出去的消息,然后补发
SELECT * FROM msg_tab WHERE create_time < now() - 3min AND status = '未发送'

(4)整个过程如下图所示,并且图里标注了三个易出错点:  
  • 1. 如果已经提交事务了,那么即便服务器立刻宕机了也没关系。因为我们的异步补发机制会找出这条消息,进行补发。
  • 2. 如果消息发送成功了,但是还没把数据库里的消息状态更新成已发送,也没关系,异步补发机制还是会找出这条消息,再发一次。也就是说,在这种情况下会发送两次。
  • 3. 如果在重试的过程中,重发成功了但是还没把消息状态更新成已发送,和第 2 点一样,也是依赖于异步补发机制。

(5)上面三点都依赖于异步补发机制。但是,重试也要控制住重试间隔和重试次数。所以我们可以在本地消息表里面额外增加了一个新的列,用来控制重试的间隔和重试的次数。如果最终补发都失败了就会告警。这个时候就需要人手工介入了。
那么这时候本地消息表至少有两个关键列:一个是消息体列,里面存储了消息的数据;另一个是重试机制列,里面可以只存储重试次数,也可以存储重试间隔、已重试次数、最大重试次数。剩余的列,我们就可以根据自己的需要随便加,不关键。

(6)总之,这种解决方案其实就是把一个分布式事务转变成本地事务 + 补偿机制。
  • 在这里案例里面,我们的分布式事务是要求执行业务操作并且发消息,那么就转化成一个本地事务,这个本地事务包含了业务操作,以及下一步做什么。
  • 然后,补偿机制会查看本地事务提交的数据,找出需要执行但是又没有执行成功的下一步,执行。这里的下一步,就是发送消息。

2,确保消息队列不丢失

(1)要确保消息发送到了消息队列上,而且不会丢失。就要把 acks 设置成 all 并且禁用 unclean 选举。

(2)进一步考虑刷盘的问题,那就需要调整 log.flush.interval.messageslog.flush.interval.ms log.flush.scheduler.interval.ms 三个会影响刷盘的参数。比如我们可以将其设置为 1000020003000
提示:理论上来说,这种配置确实还是有一点消息丢失的可能,但是概率已经非常低了。只有一种可能,就是消息队列完成主从同步之后,主分区和 ISR 的从分区都没来得及刷盘就崩溃了,才会丢失消息。这个时候真丢失了消息,就只能人手工补发了。

3,确保消费者肯定消费

要确保消费者肯定消费消息,大多数时候都不需要额外做什么,但是如果业务上有使用异步消费机制就要小心一些。
  • 比如说我的 A 业务里面就采用了异步消费来提高消费速率,我利用批量消费、批量提交来保证异步消费的同时,也不会出现未消费的问题。
评论0