0

0

Kafka 中的分层存储 - Uber 技术博客摘要

WBOY

WBOY

发布时间:2024-07-12 09:19:01

|

1046人浏览过

|

来源于dev.to

转载

kafka 中的分层存储 - uber 技术博客摘要

Uber 的技术博客发表了一篇文章,Introduction to Kafka Tiered Storage at Uber,旨在通过更少的 Kafka Broker 和更少的内存来最大限度地保留数据。这允许在各种业务应用程序中延长消息保留时间。

常见的解决方案是手动集成外部存储,定期将数据同步到外部系统。然而,这涉及大量的开发和维护工作,例如确定如何保存数据、设置同步频率、触发流程、获取数据和使用索引。

因此,Uber提出了一个解决方案,封装了外部存储的逻辑,通过简单的配置使其即插即用。此功能正在与 Apache 基金会合作开发,并将在未来版本中提供。

设想

重要的是要了解 Kafka 是一个具有非常高吞吐量能力的仅附加消息队列 (MQ) 组件。 Kafka将日志存储在broker的本地存储上,用户可以配置保留时间或日志大小。在我之前的公司(联想),我们使用Flink来持续消费数据。大数据量会导致Kafka超出磁盘存储限制,导致数据写入失败和业务错误。为了降低成本,我们只能调整保留时间,而不是部署更多机器。

此外,如果每个公司都开发自己的系统来将旧数据保存到外部存储,那么将涉及大量的开发工作。还有许多与同步和数据一致性相关的问题。

解决方案

本质就是对Broker进行改造,增加远程日志管理和存储管理

Remove.bg
Remove.bg

AI在线抠图软件,图片去除背景

下载

RemoteLogManager:管理远程日志段的生命周期,包括复制、清理和获取。

RemoteStorageManager:管理远程日志段的操作,包括复制、获取和删除。与远程日志段关联的元数据包括有关段的开始和结束偏移量、时间戳、生产者状态快照和领导者纪元检查点的信息。
RemoteLogMetadataManager 跟踪此元数据,以确保系统知道每个段的开始和结束位置,以及数据检索和管理所需的其他关键信息。

RemoteLogMetadataManager:管理远程日志段的元数据生命周期,具有强一致性。

其中RemoteLogManager作为控制组件,直接连接Broker中的磁盘来检索读取的数据。它还负责回调远程数据。 RemoteStorageManager是对数据进行操作的实体,RemoteLogMetadataManager负责管理元数据。

Kafka分层存储中的三个动作总结

  1. 将段复制到远程存储
    如果日志段的结束偏移量(段中最后一条消息的偏移量)小于分区的last-stable-offset,则认为该日志段有资格复制到远程存储。(Last-Stable-Offset (LSO):最高偏移量所有先前的消息都被所有同步副本完全确认,确保不会丢失数据。)RemoteStorageManager 处理日志段及其关联索引、时间戳、生产者快照和领导者纪元缓存的复制。

  2. 清理远程段
    通过专用线程池计算符合条件的段,定期清理远程数据。这与本地日志段的异步清理不同。删除主题时,远程日志段的清理是异步完成的,不会阻塞现有的删除操作或重新创建新主题。

  3. 从远程存储中获取段
    RemoteLogManager 通过使用 RemoteLogMetadataManager 查看元数据存储,根据所需的偏移量和领导纪元确定目标远程段。它使用 RemoteStorageManager 查找段内的位置并开始获取所需的数据。

相关文章

Kafka Eagle可视化工具
Kafka Eagle可视化工具

Kafka Eagle是一款结合了目前大数据Kafka监控工具的特点,重新研发的一块开源免费的Kafka集群优秀的监控工具。它可以非常方便的监控生产环境中的offset、lag变化、partition分布、owner等,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
kafka消费者组有什么作用
kafka消费者组有什么作用

kafka消费者组的作用:1、负载均衡;2、容错性;3、广播模式;4、灵活性;5、自动故障转移和领导者选举;6、动态扩展性;7、顺序保证;8、数据压缩;9、事务性支持。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

167

2024.01.12

kafka消费组的作用是什么
kafka消费组的作用是什么

kafka消费组的作用:1、负载均衡;2、容错性;3、灵活性;4、高可用性;5、扩展性;6、顺序保证;7、数据压缩;8、事务性支持。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

149

2024.02.23

rabbitmq和kafka有什么区别
rabbitmq和kafka有什么区别

rabbitmq和kafka的区别:1、语言与平台;2、消息传递模型;3、可靠性;4、性能与吞吐量;5、集群与负载均衡;6、消费模型;7、用途与场景;8、社区与生态系统;9、监控与管理;10、其他特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

202

2024.02.23

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

482

2023.08.10

apache是什么意思
apache是什么意思

Apache是Apache HTTP Server的简称,是一个开源的Web服务器软件。是目前全球使用最广泛的Web服务器软件之一,由Apache软件基金会开发和维护,Apache具有稳定、安全和高性能的特点,得益于其成熟的开发和广泛的应用实践,被广泛用于托管网站、搭建Web应用程序、构建Web服务和代理等场景。本专题为大家提供了Apache相关的各种文章、以及下载和课程,希望对各位有所帮助。

409

2023.08.23

apache启动失败
apache启动失败

Apache启动失败可能有多种原因。需要检查日志文件、检查配置文件等等。想了解更多apache启动的相关内容,可以阅读本专题下面的文章。

930

2024.01.16

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

9

2026.01.22

html编辑相关教程合集
html编辑相关教程合集

本专题整合了html编辑相关教程合集,阅读专题下面的文章了解更多详细内容。

53

2026.01.21

三角洲入口地址合集
三角洲入口地址合集

本专题整合了三角洲入口地址合集,阅读专题下面的文章了解更多详细内容。

28

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
RunnerGo从入门到精通
RunnerGo从入门到精通

共22课时 | 1.7万人学习

尚学堂Mahout视频教程
尚学堂Mahout视频教程

共18课时 | 3.2万人学习

Linux优化视频教程
Linux优化视频教程

共14课时 | 3.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号