当前位置：网站首页 > 编程网 > 正文

ETCD 故障恢复（etc常见故障）

yuyutoo 2025-04-30 21:00 23 浏览 0 评论

概述

Kubernetes集群外部ETCD节点故障，导致kube-apiserver无法启动。

当API Server无法启动的时候，多数情况是etcd产生的问题

非常业余的事项在于该集群ETCD未进行定时备份[裂开]

三节点均无法通过正常命令启动。

处理过程

使用bbolt工具检查snap/db文件的完整性

bbolt check snap/db

仅有节点3的返回状态为OK，实在没有OK的就硬来，随便选一个db文件，跳过第一步，直接进行后续操作。

备份db文件

cp /var/lib/etcd/member/snap/db{,backup}

rm -rf /var/lib/etcd/*

前台启动新数据库（单节点）

etcd --name etcd-pro-1 \
 --initial-cluster-state=new \
 --initial-advertise-peer-urls http://0.0.0.0:2380 \
 --listen-peer-urls http://0.0.0.0:2380 \
 --advertise-client-urls http://0.0.0.0:2379 \
 --listen-client-urls http://0.0.0.0:2379 \
 --snapshot-count=10000 \
 --data-dir /var/lib/etcd/ \
 --quota-backend-bytes 8589934592 --log-level debug
 
# 启动后ctrl+c 终止前台进程

关停新集群，删除db文件，将原有db文件拷贝到数据目录中

cp ./node3-db /var/lib/etcd/member/snap/db

重新启动服务，此时使用备份命令导出db的快照snapshot.db

etcdctl snapshot save snapshot.db --endpoints http://xxx.xxx.xxx.xxx:2379

启动集群，注意原有数据库文件db大小2.1G，超出--quota-backend-bytes 默认值（2G），所以启动一直报错

Error: etcdserver: mvcc: database space exceeded

127.0.0.1:2379 is unhealthy: failed to commit proposal: Active Alarm(s): NOSPACE
Error: unhealthy cluster

两个报错信息都提示空间不足，实际上就是quota-backend-bytes的默认值造成的

在启动命令中添加--quota-backend-bytes 8589934592 (8G)，启动后Active Alarm(s): NOSPACE Error: unhealthy cluster 仍然存在，执行 etcdctl alarm list 可以查询到该告警，使用 etcdctl alarm disarm 清除告警，集群恢复正常。

# 清理数据目录，然后将snapshot恢复到数据目录中
etcdutl snapshot restore ./snapshot.db \
  --name etcd-pro-1 \
  --initial-cluster etcd-pro-1=http://127.0.0.1:2380 \
  --initial-cluster-token etcd-cluster-1 \
  --initial-advertise-peer-urls http://127.0.0.1:2380 \
  --data-dir  /var/lib/etcd
 

etcd --name etcd-pro-1 \
    --cert-file=/etc/kubernetes/pki/etcd/server.crt \
    -key-file=/etc/kubernetes/pki/etcd/server.key \
    --initial-cluster-state=new \
    --client-cert-auth=true \
    --initial-advertise-peer-urls https://x.x.x.x:2380 \
    --listen-peer-urls https://x.x.x.x:2380 \
    --advertise-client-urls https://x.x.x.x:2379 \
    --listen-client-urls https://x.x.x.x:2379 \
    --data-dir /var/lib/etcd \
    --peer-cert-file=/etc/kubernetes/pki/etcd/peer.crt \
    --peer-client-cert-auth=true \
    --peer-key-file=/etc/kubernetes/pki/etcd/peer.key \
    --peer-trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt \
    --snapshot-count=100000 \
    --trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt \
    --quota-backend-bytes 17179869184 --log-level debug
    

 etcdctl --endpoints=https://xxx.xxx.x.xx:2379 \
> --cacert=/etc/kubernetes/pki/etcd/ca.crt \
> --cert=/etc/kubernetes/pki/etcd/server.crt \
> --key=/etc/kubernetes/pki/etcd/server.key \
> endpoint health --write-out=table

+---------------------------+--------+-------------+---------------------------+
|         ENDPOINT          | HEALTH |    TOOK     |           ERROR           |
+---------------------------+--------+-------------+---------------------------+
| https://xxx.xxx.x.xx:2379 |  false | 2.74863569s | Active Alarm(s): NOSPACE  |
+---------------------------+--------+-------------+---------------------------+
Error: unhealthy cluster

# 清理Alarm，使集群恢复健康状态
etcdctl alarm disarm

etcdctl --endpoints=https://x.x.x.x:2379 --cacert=/etc/kubernetes/pki/etcd/ca.crt --cert=/etc/kubernetes/pki/etcd/server.crt --key=/etc/kubernetes/pki/etcd/server.key endpoint health --write-out=table
+---------------------------+--------+--------------+-------+
|         ENDPOINT          | HEALTH |     TOOK     | ERROR |
+---------------------------+--------+--------------+-------+
| https://xxx.xx.x.xx:2379 |   true | 218.403291ms |       |
+---------------------------+--------+--------------+-------+

# Alarm已经清除,集群状态健康

Kubernetes API server恢复启动，RPO为ETCD故障时间点，实际业务并未受到影响，只是业务平台涉及调用kubernetes api的服务变成了只读状态

总结

备份与恢复测试重要性，虚拟机快照不叫备份，备份数据库所在虚拟机也不叫对数据库的备份，谨记。
需要持续追踪新版本软件的新特性，关注软件说明文档，熟悉重要参数如本次的quota-backend-bytes

auth faild

上一篇：在Ubuntu 16.04 LTS服务器上安装FreeRADIUS和Daloradius的方法
下一篇：「软帝学院」java常用词汇分享第二弹

ETCD 故障恢复（etc常见故障）

概述

处理过程

总结

相关推荐

取消回复欢迎你发表评论:

前端面试:iframe 的优缺点? iframe有那些缺点

蓝导航是一个功能齐全、简洁便捷的导航网站

带斜线的表头制作好了，如何填充内容?这几种方法你更喜欢哪个?

漫学笔记之PHP.ini常用的配置信息

推荐7个模板代码和其他游戏源码下载的网址

其实模版网站在开发工作中很重要，推荐几个参考站给大家

[干货] JAVA - JVM - 2 内存两分 [干货]+java+-+jvm+-+2+内存两分吗

正在学习使用python搭建自动化测试框架?这个系统包你可能会用到

【开源分享】2024PHP在线客服系统源码(搭建教程+终身使用)

织梦(Dedecms)建站教程织梦建站详细步骤

ETCD 故障恢复（etc常见故障）

概述

处理过程

总结

相关推荐

取消回复欢迎 你 发表评论:

前端面试:iframe 的优缺点? iframe有那些缺点

蓝导航是一个功能齐全、简洁便捷的导航网站

带斜线的表头制作好了，如何填充内容?这几种方法你更喜欢哪个?

漫学笔记之PHP.ini常用的配置信息

推荐7个模板代码和其他游戏源码下载的网址

其实模版网站在开发工作中很重要，推荐几个参考站给大家

[干货] JAVA - JVM - 2 内存两分 [干货]+java+-+jvm+-+2+内存两分吗

正在学习使用python搭建自动化测试框架?这个系统包你可能会用到

【开源分享】2024PHP在线客服系统源码(搭建教程+终身使用)

织梦(Dedecms)建站教程 织梦建站详细步骤

取消回复欢迎你发表评论:

织梦(Dedecms)建站教程织梦建站详细步骤