首页 > 运维 > linux运维 > 正文

源码解读etcd heartbeat,election timeout之间的拉锯

看不見的法師
发布: 2025-07-11 09:32:28
原创
578人浏览过

以下是你在知乎上的回答的伪原创版本,保持了原意和图片位置不变:


源码解读etcd heartbeat,election timeout之间的拉锯


答:准确来说:election是timeout,而heartbeat 是interval,这样理解起来就很清晰了。

heartbeat interval 是leader安抚follower的时间,这个时间间隔在leader上体现,是leader发送心跳的周期(我每xxxx ms 进行一次心跳)。

election timeout 是follower能够容忍多久没有收到心跳而开始骚动的时间(我等你xxxx ms,如果你没来,我就起义)。

为了压制follower随时起义的骚动,heartbeat interval 通常设置得小于 election timeout。

源码解读etcd heartbeat,election timeout之间的拉锯

楼主提到两个配置超时都会成为候选者,实际上,heartbeat interval/election timeout 是一个相互制约的拉锯。

想象一个刚初始化的集群,所有节点都是follower,没有heartbeat压制,各follower节点在election timeout之后开始骚动。如果一次选举周期内没有选出leader,很可能是由于选票分散,需要发起新的选举;为了缓解选票分散的情况,每个节点的election timeout骚动时间是随机的。在发生网络分区时,少数派分区的follower收不到leader的安抚,是不是又要起义,这个时候election timeout 也发挥了作用。我们结合etcd的默认配置和源码来理解:

目前etcd默认heartbeat = 100ms, election = 1000ms

https://www.php.cn/link/70a3e3e59bc61c8eb7acfbba1073980c

raft 为节点定义了以下状态:

const (
    StateFollower StateType = iota
    StateCandidate
    StateLeader
    StatePreCandidate
    numStates
)
登录后复制

becomeLeader 注册了定期发送心跳的动作 r.tick = r.tickHeartbeat ;

卡拉OK视频制作
卡拉OK视频制作

卡拉OK视频制作,在几分钟内制作出你的卡拉OK视频

卡拉OK视频制作 178
查看详情 卡拉OK视频制作

becomeFollower, becomeCandidate, becomePreCandidate 都注册了(没有收到安抚而)起义的动作 r.tick = r.tickElection ;

我们以follower节点为例:

func (r *raft) becomeFollower(term uint64, lead uint64) {
    r.step = stepFollower
    r.reset(term)
    r.tick = r.tickElection
    r.lead = lead
    r.state = StateFollower
    r.logger.Infof("%x became follower at term %d", r.id, r.Term)
}
登录后复制

r.reset(term)==> r.resetRandomizedElectionTimeout() 会接受传播过来的term,并计算随机选举超时时间。

func (r *raft) resetRandomizedElectionTimeout() {
    r.randomizedElectionTimeout = r.electionTimeout + globalRand.Intn(r.electionTimeout)
}
登录后复制

从上面的源码看出,etcd默认配置产生的节点随机超时时间是 [1000,2000]ms。

r.tickElection 会判断:如果当前经历的时间electionElapsed大于随机超时时间,就开始起义,并重置electionElapsed时间。

func (r *raft) tickElection() {
    r.electionElapsed++
    if r.promotable() && r.pastElectionTimeout() {
        r.electionElapsed = 0
        if err := r.Step(pb.Message{From: r.id, Type: pb.MsgHup}); err != nil {
            r.logger.Debugf("error occurred during election: %v", err)
        }
    }
}

func (r *raft) pastElectionTimeout() bool {
    return r.electionElapsed >= r.randomizedElectionTimeout
}
登录后复制

becomePreCandidate 没有r.reset(term)动作,这是一个预投票状态,也称prevote,这也是etcd的常见面试题。

prevote 是论文作者为了解决“分区后少数派leader重新加入集群,因为高term导致集群瞬间不稳定”而提出的方案,etcd 默认加入prevote机制:在成为真正意义的候选者之前不自增term,先预投票,因为其他节点一直收到心跳,并不会起义,故该节点预投票拿不到多数投票,等到该节点收到leader心跳,自行降为follower,term和Leader一致,现在这一机制已经插入到每次follower-->Candidate之间。

switch m.Type {
case pb.MsgHup:
    if r.preVote {
        r.hup(campaignPreElection)
    } else {
        r.hup(campaignElection)
    }
}
登录后复制

源码解读etcd heartbeat,election timeout之间的拉锯

Prevote是一个典型的2PC协议,第一阶段先征求其他节点是否同意选举,如果同意选举则发起真正的选举操作,否则降为Follower角色。这样就避免了网络分区节点重新加入集群,触发不必要的选举操作。

https://www.php.cn/link/14318e2a43a225fc24ab55f3c0122cf0https://www.php.cn/link/9154498493d8e734d9c7489c2b6b26d7

以上就是源码解读etcd heartbeat,election timeout之间的拉锯的详细内容,更多请关注php中文网其它相关文章!

相关标签:
最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号