百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

ETCD 故障恢复(etc常见故障)

yuyutoo 2025-04-30 21:00 23 浏览 0 评论

概述

Kubernetes集群外部ETCD节点故障,导致kube-apiserver无法启动。

当API Server无法启动的时候,多数情况是etcd产生的问题

非常业余的事项在于该集群ETCD未进行定时备份[裂开]

三节点均无法通过正常命令启动。

处理过程

  1. 使用bbolt工具检查snap/db文件的完整性
bbolt check snap/db

仅有节点3的返回状态为OK,实在没有OK的就硬来,随便选一个db文件,跳过第一步,直接进行后续操作。

  1. 备份db文件
cp /var/lib/etcd/member/snap/db{,backup}
  1. 清理数据目录,启动服务
rm -rf /var/lib/etcd/*

前台启动新数据库(单节点)

etcd --name etcd-pro-1 \
 --initial-cluster-state=new \
 --initial-advertise-peer-urls http://0.0.0.0:2380 \
 --listen-peer-urls http://0.0.0.0:2380 \
 --advertise-client-urls http://0.0.0.0:2379 \
 --listen-client-urls http://0.0.0.0:2379 \
 --snapshot-count=10000 \
 --data-dir /var/lib/etcd/ \
 --quota-backend-bytes 8589934592 --log-level debug
 
# 启动后ctrl+c 终止前台进程
  1. 关停新集群,删除db文件,将原有db文件拷贝到数据目录中
cp ./node3-db /var/lib/etcd/member/snap/db
  1. 重新启动服务,此时使用备份命令导出db的快照snapshot.db
etcdctl snapshot save snapshot.db --endpoints http://xxx.xxx.xxx.xxx:2379
  1. 启动集群,注意原有数据库文件db大小2.1G,超出--quota-backend-bytes 默认值 (2G),所以启动一直报错
Error: etcdserver: mvcc: database space exceeded

127.0.0.1:2379 is unhealthy: failed to commit proposal: Active Alarm(s): NOSPACE
Error: unhealthy cluster

两个报错信息都提示空间不足,实际上就是quota-backend-bytes的默认值造成的

  1. 在启动命令中添加--quota-backend-bytes 8589934592 (8G),启动后Active Alarm(s): NOSPACE Error: unhealthy cluster 仍然存在,执行 etcdctl alarm list 可以查询到该告警,使用 etcdctl alarm disarm 清除告警,集群恢复正常。
# 清理数据目录,然后将snapshot恢复到数据目录中
etcdutl snapshot restore ./snapshot.db \
  --name etcd-pro-1 \
  --initial-cluster etcd-pro-1=http://127.0.0.1:2380 \
  --initial-cluster-token etcd-cluster-1 \
  --initial-advertise-peer-urls http://127.0.0.1:2380 \
  --data-dir  /var/lib/etcd
 

etcd --name etcd-pro-1 \
    --cert-file=/etc/kubernetes/pki/etcd/server.crt \
    -key-file=/etc/kubernetes/pki/etcd/server.key \
    --initial-cluster-state=new \
    --client-cert-auth=true \
    --initial-advertise-peer-urls https://x.x.x.x:2380 \
    --listen-peer-urls https://x.x.x.x:2380 \
    --advertise-client-urls https://x.x.x.x:2379 \
    --listen-client-urls https://x.x.x.x:2379 \
    --data-dir /var/lib/etcd \
    --peer-cert-file=/etc/kubernetes/pki/etcd/peer.crt \
    --peer-client-cert-auth=true \
    --peer-key-file=/etc/kubernetes/pki/etcd/peer.key \
    --peer-trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt \
    --snapshot-count=100000 \
    --trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt \
    --quota-backend-bytes 17179869184 --log-level debug
    

 etcdctl --endpoints=https://xxx.xxx.x.xx:2379 \
> --cacert=/etc/kubernetes/pki/etcd/ca.crt \
> --cert=/etc/kubernetes/pki/etcd/server.crt \
> --key=/etc/kubernetes/pki/etcd/server.key \
> endpoint health --write-out=table

+---------------------------+--------+-------------+---------------------------+
|         ENDPOINT          | HEALTH |    TOOK     |           ERROR           |
+---------------------------+--------+-------------+---------------------------+
| https://xxx.xxx.x.xx:2379 |  false | 2.74863569s | Active Alarm(s): NOSPACE  |
+---------------------------+--------+-------------+---------------------------+
Error: unhealthy cluster

# 清理Alarm,使集群恢复健康状态
etcdctl alarm disarm

etcdctl --endpoints=https://x.x.x.x:2379 --cacert=/etc/kubernetes/pki/etcd/ca.crt --cert=/etc/kubernetes/pki/etcd/server.crt --key=/etc/kubernetes/pki/etcd/server.key endpoint health --write-out=table
+---------------------------+--------+--------------+-------+
|         ENDPOINT          | HEALTH |     TOOK     | ERROR |
+---------------------------+--------+--------------+-------+
| https://xxx.xx.x.xx:2379 |   true | 218.403291ms |       |
+---------------------------+--------+--------------+-------+

# Alarm已经清除,集群状态健康

  1. Kubernetes API server恢复启动,RPO为ETCD故障时间点,实际业务并未受到影响,只是业务平台涉及调用kubernetes api的服务变成了只读状态

总结

  1. 备份与恢复测试重要性,虚拟机快照不叫备份,备份数据库所在虚拟机也不叫对数据库的备份,谨记。
  2. 需要持续追踪新版本软件的新特性,关注软件说明文档,熟悉重要参数如本次的quota-backend-bytes

相关推荐

《保卫萝卜2》安卓版大更新 壕礼助阵世界杯

《保卫萝卜2:极地冒险》本周不仅迎来了安卓版本的重大更新,同时将于7月4日本周五,带来“保卫萝卜2”安卓版本世界杯主题活动的火热开启,游戏更新与活动两不误。一定有玩家会问,激萌塔防到底进行了哪些更新?...

儿童手工折纸:胡萝卜,和孩子一起边玩边学carrot

1、准备两张正方形纸,一橙一绿,对折出折痕。2、橙色沿其中一条对角线如图折两三角形。3、把上面三角折平,如图。4、绿色纸折成三角形。5、再折成更小的三角形。6、再折三分之一如图。7、打开折纸,压平中间...

《饥荒》食物代码有哪些(饥荒最新版代码总汇食物篇)

饥荒游戏中,玩家们需要获取各种素材与食物,进行生存。玩家们在游戏中,进入游戏后按“~”键调出控制台使用代码,可以直接获得素材。比如胡萝卜的代码是carrot,玉米的代码是corn,南瓜的代码是pump...

Skyscanner:帮你找到最便宜机票 订票不求人

你喜欢旅行吗?在合适的时间、合适的目的地,来一场说走就走的旅行?机票就是关键!Skyscanner这款免费的手机应用,在几秒钟内比较全球600多家航空公司的航班安排、价格和时刻表,帮你节省金钱和时间。...

小猪佩奇第二季50(小猪佩奇第二季英文版免费观看)

Sleepover过夜Itisnighttime.现在是晚上。...

我在民政局工作的那些事儿(二)(我在民政局上班)

时间到了1997年的秋天,经过一年多的学习和实践,我在处理结婚和离婚的事情更加的娴熟,也获得了领导的器重,所以我在处理平时的工作时也能得心应手。这一天我正在离婚处和同事闲聊,因为离婚处几天也遇不到人,...

夏天来了就你还没瘦?教你不节食13天瘦10斤的哥本哈根减肥法……

好看的人都关注江苏气象啦夏天很快就要来了你是否和苏苏一样身上的肉肉还没做好准备?真是一个悲伤的故事……下面这个哥本哈根减肥法苏苏的同事亲测有效不节食不运动不反弹大家快来一起试试看吧~DAY1...

Pursuing global modernization for peaceful development, mutually beneficial cooperation, prosperity for all

AlocalworkeroperatesequipmentintheChina-EgyptTEDASuezEconomicandTradeCooperationZonei...

Centuries-old tea road regains glory as Belt and Road cooperation deepens

FUZHOU/ST.PETERSBURG,Oct.2(Xinhua)--NestledinthepicturesqueWuyiMountainsinsoutheastChi...

15 THE NUTCRACKERS OF NUTCRACKER LODGE (CONTINUED)胡桃夹子小屋里的胡桃夹子(续篇)

...

AI模型部署:Triton Inference Server模型部署框架简介和快速实践

关键词:...

Ftrace function graph简介(flat function)

引言由于android开发的需要与systrace的普及,现在大家在进行性能与功耗分析时候,经常会用到systrace跟pefetto.而systrace就是基于内核的eventtracing来实...

JAVA历史版本(java各版本)

JAVA发展1.1996年1月23日JDK1.0Java虚拟机SunClassicVM,Applet,AWT2.1997年2月19日JDK1.1JAR文件格式,JDBC,JavaBea...

java 进化史1(java的进阶之路)

java从1996年1月第一个版本诞生,到2022年3月最新的java18,已经经历了27年,整整18个大的版本。很久之前有人就说java要被淘汰,但是java活到现在依然坚挺,不知道java还能活...

学习java第二天(java学完后能做什么)

#java知识#...

取消回复欢迎 发表评论: