百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

ETCD 故障恢复(etc常见故障)

yuyutoo 2025-04-30 21:00 5 浏览 0 评论

概述

Kubernetes集群外部ETCD节点故障,导致kube-apiserver无法启动。

当API Server无法启动的时候,多数情况是etcd产生的问题

非常业余的事项在于该集群ETCD未进行定时备份[裂开]

三节点均无法通过正常命令启动。

处理过程

  1. 使用bbolt工具检查snap/db文件的完整性
bbolt check snap/db

仅有节点3的返回状态为OK,实在没有OK的就硬来,随便选一个db文件,跳过第一步,直接进行后续操作。

  1. 备份db文件
cp /var/lib/etcd/member/snap/db{,backup}
  1. 清理数据目录,启动服务
rm -rf /var/lib/etcd/*

前台启动新数据库(单节点)

etcd --name etcd-pro-1 \
 --initial-cluster-state=new \
 --initial-advertise-peer-urls http://0.0.0.0:2380 \
 --listen-peer-urls http://0.0.0.0:2380 \
 --advertise-client-urls http://0.0.0.0:2379 \
 --listen-client-urls http://0.0.0.0:2379 \
 --snapshot-count=10000 \
 --data-dir /var/lib/etcd/ \
 --quota-backend-bytes 8589934592 --log-level debug
 
# 启动后ctrl+c 终止前台进程
  1. 关停新集群,删除db文件,将原有db文件拷贝到数据目录中
cp ./node3-db /var/lib/etcd/member/snap/db
  1. 重新启动服务,此时使用备份命令导出db的快照snapshot.db
etcdctl snapshot save snapshot.db --endpoints http://xxx.xxx.xxx.xxx:2379
  1. 启动集群,注意原有数据库文件db大小2.1G,超出--quota-backend-bytes 默认值 (2G),所以启动一直报错
Error: etcdserver: mvcc: database space exceeded

127.0.0.1:2379 is unhealthy: failed to commit proposal: Active Alarm(s): NOSPACE
Error: unhealthy cluster

两个报错信息都提示空间不足,实际上就是quota-backend-bytes的默认值造成的

  1. 在启动命令中添加--quota-backend-bytes 8589934592 (8G),启动后Active Alarm(s): NOSPACE Error: unhealthy cluster 仍然存在,执行 etcdctl alarm list 可以查询到该告警,使用 etcdctl alarm disarm 清除告警,集群恢复正常。
# 清理数据目录,然后将snapshot恢复到数据目录中
etcdutl snapshot restore ./snapshot.db \
  --name etcd-pro-1 \
  --initial-cluster etcd-pro-1=http://127.0.0.1:2380 \
  --initial-cluster-token etcd-cluster-1 \
  --initial-advertise-peer-urls http://127.0.0.1:2380 \
  --data-dir  /var/lib/etcd
 

etcd --name etcd-pro-1 \
    --cert-file=/etc/kubernetes/pki/etcd/server.crt \
    -key-file=/etc/kubernetes/pki/etcd/server.key \
    --initial-cluster-state=new \
    --client-cert-auth=true \
    --initial-advertise-peer-urls https://x.x.x.x:2380 \
    --listen-peer-urls https://x.x.x.x:2380 \
    --advertise-client-urls https://x.x.x.x:2379 \
    --listen-client-urls https://x.x.x.x:2379 \
    --data-dir /var/lib/etcd \
    --peer-cert-file=/etc/kubernetes/pki/etcd/peer.crt \
    --peer-client-cert-auth=true \
    --peer-key-file=/etc/kubernetes/pki/etcd/peer.key \
    --peer-trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt \
    --snapshot-count=100000 \
    --trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt \
    --quota-backend-bytes 17179869184 --log-level debug
    

 etcdctl --endpoints=https://xxx.xxx.x.xx:2379 \
> --cacert=/etc/kubernetes/pki/etcd/ca.crt \
> --cert=/etc/kubernetes/pki/etcd/server.crt \
> --key=/etc/kubernetes/pki/etcd/server.key \
> endpoint health --write-out=table

+---------------------------+--------+-------------+---------------------------+
|         ENDPOINT          | HEALTH |    TOOK     |           ERROR           |
+---------------------------+--------+-------------+---------------------------+
| https://xxx.xxx.x.xx:2379 |  false | 2.74863569s | Active Alarm(s): NOSPACE  |
+---------------------------+--------+-------------+---------------------------+
Error: unhealthy cluster

# 清理Alarm,使集群恢复健康状态
etcdctl alarm disarm

etcdctl --endpoints=https://x.x.x.x:2379 --cacert=/etc/kubernetes/pki/etcd/ca.crt --cert=/etc/kubernetes/pki/etcd/server.crt --key=/etc/kubernetes/pki/etcd/server.key endpoint health --write-out=table
+---------------------------+--------+--------------+-------+
|         ENDPOINT          | HEALTH |     TOOK     | ERROR |
+---------------------------+--------+--------------+-------+
| https://xxx.xx.x.xx:2379 |   true | 218.403291ms |       |
+---------------------------+--------+--------------+-------+

# Alarm已经清除,集群状态健康

  1. Kubernetes API server恢复启动,RPO为ETCD故障时间点,实际业务并未受到影响,只是业务平台涉及调用kubernetes api的服务变成了只读状态

总结

  1. 备份与恢复测试重要性,虚拟机快照不叫备份,备份数据库所在虚拟机也不叫对数据库的备份,谨记。
  2. 需要持续追踪新版本软件的新特性,关注软件说明文档,熟悉重要参数如本次的quota-backend-bytes

相关推荐

ETCD 故障恢复(etc常见故障)

概述Kubernetes集群外部ETCD节点故障,导致kube-apiserver无法启动。...

在Ubuntu 16.04 LTS服务器上安装FreeRADIUS和Daloradius的方法

FreeRADIUS为AAARadiusLinux下开源解决方案,DaloRadius为图形化web管理工具。...

如何排查服务器被黑客入侵的迹象(黑客 抓取服务器数据)

---排查服务器是否被黑客入侵需要系统性地检查多个关键点,以下是一份详细的排查指南,包含具体命令、工具和应对策略:---###**一、快速初步检查**####1.**检查异常登录记录**...

使用 Fail Ban 日志分析 SSH 攻击行为

通过分析`fail2ban`日志可以识别和应对SSH暴力破解等攻击行为。以下是详细的操作流程和关键分析方法:---###**一、Fail2ban日志位置**Fail2ban的日志路径因系统配置...

《5 个实用技巧,提升你的服务器安全性,避免被黑客盯上!》

服务器的安全性至关重要,特别是在如今网络攻击频繁的情况下。如果你的服务器存在漏洞,黑客可能会利用这些漏洞进行攻击,甚至窃取数据。今天我们就来聊聊5个实用技巧,帮助你提升服务器的安全性,让你的系统更...

聊聊Spring AI Alibaba的YuQueDocumentReader

序本文主要研究一下SpringAIAlibaba的YuQueDocumentReaderYuQueDocumentReader...

Mac Docker环境,利用Canal实现MySQL同步ES

Canal的使用使用docker环境安装mysql、canal、elasticsearch,基于binlog利用canal实现mysql的数据同步到elasticsearch中,并在springboo...

RustDesk:开源远程控制工具的技术架构与全场景部署实战

一、开源远程控制领域的革新者1.1行业痛点与解决方案...

长安汽车一代CS75Plus2020款安装高德地图7.5

不用破解原车机,一代CS75Plus2020款,安装车机版高德地图7.5,有红绿灯读秒!废话不多讲,安装步骤如下:一、在拨号状态输入:在电话拨号界面,输入:*#518200#*(进入安卓设置界面,...

Zookeeper使用详解之常见操作篇(zookeeper ui)

一、Zookeeper的数据结构对于ZooKeeper而言,其存储结构类似于文件系统,也是一个树形目录服务,并通过Key-Value键值对的形式进行数据存储。其中,Key由斜线间隔的路径元素构成。对...

zk源码—4.会话的实现原理一(会话层的基本功能是什么)

大纲1.创建会话...

Zookeeper 可观测性最佳实践(zookeeper能够确保)

Zookeeper介绍ZooKeeper是一个开源的分布式协调服务,用于管理和协调分布式系统中的节点。它提供了一种高效、可靠的方式来解决分布式系统中的常见问题,如数据同步、配置管理、命名服务和集群...

服务器密码错误被锁定怎么解决(服务器密码错几次锁)

#服务器密码错误被锁定解决方案当服务器因多次密码错误导致账户被锁定时,可以按照以下步骤进行排查和解决:##一、确认锁定状态###1.检查账户锁定状态(Linux)```bash#查看账户锁定...

zk基础—4.zk实现分布式功能(分布式zk的使用)

大纲1.zk实现数据发布订阅...

《死神魂魄觉醒》卡死问题终极解决方案:从原理到实战的深度解析

在《死神魂魄觉醒》的斩魄刀交锋中,游戏卡死犹如突现的虚圈屏障,阻断玩家与尸魂界的连接。本文将从技术架构、解决方案、预防策略三个维度,深度剖析卡死问题的成因与应对之策,助力玩家突破次元壁障,畅享灵魂共鸣...

取消回复欢迎 发表评论: