最近有一位朋友去某滴公司面试,在第二轮面试中被问到一个问题:“请简单说一下,kafka为什么这么快?”这位朋友在脑海中搜寻了很久,却没能回答上来。
今天,我将为大家详细分析这个问题,希望能帮助大家更好地理解Kafka的高性能。
此外,我花了很长时间准备了一份500页的PDF面试资料文档和一份10万字的Java总结面试题及答案。



Kafka是一个号称能够用普通PC机处理超千万亿消息吞吐量的实时消息流处理平台。我认为Kafka能够支持如此大的吞吐量并保持高性能的主要原因有四个:磁盘顺序读写、稀疏索引、批量文件压缩和零拷贝机制。下面我将逐一详细介绍这些原因:
立即学习“Java免费学习笔记(深入)”;
1、磁盘顺序读写
首先,我们需要了解磁盘寻址的过程,如图所示:


这是磁盘的构造。磁盘盘片不断旋转,磁头会在磁盘表面画出圆形轨迹,称为磁道。从内到外,半径不同的磁道被分割成扇区(两根射线之间的扇区组成扇面)。如果要读写数据,必须找到数据对应的扇区,这个过程称为寻址。
如果读写的多条数据在磁盘上是分散的,寻址会非常耗时,这称为随机I/O。
如果读写的数据在磁盘上是集中的,不需要重复寻址的过程,这称为顺序I/O。
而Kafka的消息是不断追加到本地磁盘文件末尾的,而不是随机写入,这使得Kafka的写入吞吐量显著提升。
在一定条件下的测试中,磁盘的顺序读写可以达到53.2M每秒,比内存的随机读写还要快。
2、稀疏索引
Kafka的索引并不是每条消息都会建立索引,而是一种稀疏索引。如图所示,


也就是说,Kafka每插入一批消息才会产生一条索引记录。后续利用二分查找,可以大大提高检索效率。
3、批量文件压缩
Kafka默认不会删除数据,它会将所有消息变成一个批量的文件。如图所示,它会将相同的Key合并为最后一个Value。


这样对消息进行合理的批量压缩,可以减少网络I/O损耗。
4、零拷贝机制
操作系统的虚拟内存分为两部分,一部分是内核空间,一部分是用户空间。这样可以避免用户进程直接操作内核,保证内核安全。如图所示:


正常情况下,如果用户要从磁盘读取数据,必须先将数据从磁盘拷贝到内核缓冲区,然后再从内核缓冲区拷贝到用户缓冲区,最后才能返回给用户。
在Linux操作系统中提供了一个sendfile函数,可以实现“零拷贝”。意思是无需经过用户缓冲区,可以直接将数据拷贝到网卡。
而Kafka中文件传输最终调用的是Java NIO库中的transferTo方法,实际上最后会使用到Linux的sendfile()系统调用函数。零拷贝技术可以大大提升文件传输的性能。
这道面试题涉及一些计算机底层的原理,基本上也是业务程序员的知识盲区。但我想给大家一个建议,做开发其实和建房子一样,要想楼层更高更稳,首先地基要打牢固。
最后,我将之前分享的资料全部整理成了文字,希望能够以此来提高各位粉丝的通过率。

我是被编程耽误的文艺Tom,只弹干货不掺水!你们的支持就是我最大的动力!关注我,面试不再难!
以上就是【Java面试】某滴二面高频面试题,简单说一下Kafka为什么这么快?的详细内容,更多请关注php中文网其它相关文章!
Kafka Eagle是一款结合了目前大数据Kafka监控工具的特点,重新研发的一块开源免费的Kafka集群优秀的监控工具。它可以非常方便的监控生产环境中的offset、lag变化、partition分布、owner等,有需要的小伙伴快来保存下载体验吧!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号