百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

Zookeeper 可观测性最佳实践(zookeeper能够确保)

yuyutoo 2025-04-30 21:00 4 浏览 0 评论

Zookeeper 介绍

ZooKeeper 是一个开源的分布式协调服务,用于管理和协调分布式系统中的节点。它提供了一种高效、可靠的方式来解决分布式系统中的常见问题,如数据同步、配置管理、命名服务和集群管理等。本文介绍通过 DataKit 采集 Zookeeper 指标,帮助监控 Zookeeper 运行情况。

主要功能:

  • 配置管理:集中管理分布式系统的配置信息,便于动态更新和同步。
  • 命名服务:为分布式系统中的节点提供统一的命名和查找机制,类似于 DNS。
  • 分布式锁:通过锁机制解决分布式系统中的资源竞争问题。
  • 队列管理:实现分布式队列,支持顺序队列和优先队列。
  • 集群管理:监控集群成员的健康状态,实现故障检测和自动恢复。

Zookeeper 可观测的必要性:

  • 保障系统稳定性:ZooKeeper 是分布式系统的核心组件,负责协调多个节点的行为,确保数据一致性和服务可用性。监控 ZooKeeper 的健康状态可以及时发现潜在问题,如节点故障、网络异常或性能瓶颈,从而快速采取措施,避免系统整体故障。
  • 优化系统性能:监控可以帮助开发者和运维人员了解 ZooKeeper 集群的性能状况,例如操作延迟、事务处理速度等。通过分析这些数据,可以优化配置,提升系统性能。
  • 预防故障:监控系统可以提前预警潜在问题,例如磁盘 I/O 等资源瓶颈,从而在问题恶化之前进行干预,预防故障的发生。
  • 支持故障排查:当 ZooKeeper 集群出现问题时,监控数据可以提供关键线索,帮助快速定位问题根源。例如,通过分析日志和性能指标,可以确定是网络问题、配置错误还是硬件故障。
  • 提升运维效率:运维人员可以直观地查看 ZooKeeper 集群的状态,减少手动排查问题的时间,提高运维效率。
  • 确保集群一致性:ZooKeeper 的核心功能之一是保证分布式系统中数据的一致性。监控可以确保集群中的所有节点状态一致,及时发现和修复不一致的情况。
  • 支持动态调整:分布式系统的环境和需求可能会动态变化,监控 ZooKeeper 可以帮助运维人员根据实时数据动态调整集群配置,例如增加节点或优化资源分配。

观测云

观测云是一款功能强大的统一可观测平台,提供对多云环境、云原生应用、中间件以及各类应用程序的实时监控和分析能力。在 ZooKeeper 的监控场景中,观测云通过其核心数据采集器 DataKit,结合 ZooKeeper 的监控指标,实现对 ZooKeeper 集群的实时监控和数据可视化展示。观测云通过其强大的数据可视化功能,将 ZooKeeper 的监控指标以直观的仪表盘形式展示出来,帮助用户快速定位问题并优化系统性能。

暴露 Zookeeper 指标

从 3.6.0 版本开始,ZooKeeper 原生支持 Prometheus 格式的指标暴露。只需在 zoo.cfg 配置文件中添加以下配置:

metricsProvider.className=org.apache.zookeeper.metrics.prometheus.PrometheusMetricsProvider
metricsProvider.httpPort=7000
metricsProvider.exportJvmInfo=true

然后重启 Zookeeper 服务。

执行完毕后,可通过 http://主机ip:7000/metrics 查看当前主机获取到的所有监控数据。

采集器配置

进入 DataKit 安装目录下的 conf.d/prom 目录,复制 prom.conf.sample 并命名为 zookeeper.conf

[[inputs.prom]]
  urls = ["http://192.168.0.19:7000/metrics"]                                                                                   
  ## 采 集 器 别 名                                                                                                                  
  source = "zookeeper"                                                                                                          
  ## 采 集 间 隔  "ns", "us" (or "us"), "ms", "s", "m", "h"                                                                         
  interval = "10s"                                                                                                              
  measurement_name = "zookeeper"                                                                                                
  metric_types = []                                                                                                             
  ## TLS 配 置                                                                                                                    
  tls_open = false                                                                                                              
  [inputs.prom.tags]                                                                                                            
    service = "zookeeper"  
  # ·················
  [inputs.prom.as_logging]
    enable = false
    service = "service_name"

  ## Customize tags.
  # [inputs.prom.tags]
    # some_tag = "some_value"
    # more_tag = "some_other_value"
  
  ## (Optional) Collect interval: (defaults to "30s").
  # interval = "30s"

  ## (Optional) Timeout: (defaults to "30s").
  # timeout = "30s"

主要修改 urls,配置好后保存,重启 DataKit 即可。

关键指标

登录观测云控制台,点击「指标」 -「指标管理」,输入“zookeeper”,就能查询采集到的指标。

ZooKeeper 是一个分布式协调服务,用于管理分布式系统中的配置信息、命名服务、分布式同步等。以下是对 ZooKeeper 指标的解释:

  • 系统性能与延迟:通过 ZooKeeper 的四字命令(如 stat、srvr 等)可以获取服务的运行状态,包括是否处于领导者或追随者角色、服务的延迟等
  • 会话数:监控会话数可以帮助了解 ZooKeeper 的使用情况,及时发现异常的会话增长。
  • 请求延迟:监控 ZooKeeper 的请求延迟可以帮助评估服务的响应性能。高延迟可能表明存在性能问题,需要进一步调查。

以下是关于 Zookeeper 关键指标的介绍:

指标

描述

单位

avg_latency

平均延迟

ms

readlatency_count

读操作延迟的计数

count

propagation_latency_count

数据传播延迟的计数

count

commit_count

提交操作的次数

count

requests_in_session_queue_count

会话队列中的请求数量

count

requests_not_forwarded_to_commit_processor

未转发到提交处理器的请求数量

count

prep_processor_queue_size

预处理队列的大小

Bytes

connection_request_count

当前存活的连接数

count

num_alive_connections

用于缓存文件系统的内存量

Bytes

session_queues_drained_count

会话队列被清空的次数

count

auth_failed_count

认证失败的次数

count

ensemble_auth_fail

集群认证失败的次数

count

bytes_received_count

接收的字节数

Bytes

open_file_descriptor_count

当前打开的文件描述符数量

count

process_open_fds

进程打开的文件描述符数量

count

uptime

系统或进程的运行时间

s

approximate_data_size

近似数据大小

Bytes

znode_count

节点数量

count

watch_count

监控数量

count

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “Zookeeper”, 选择 “ Zookeeper”,点击 “确定” 即可添加视图。

监控器(告警)

Zookeeper 服务器发送宕机异常

Zookeeper 平均响应延迟过高异常

Zookeeper 堆积请求数过大异常

总结

通过使用观测云平台对 ZooKeeper 进行统一监控,我们能够实时追踪关键性能指标,如会话连接数、节点读写操作次数、以及会话超时情况。这些指标对于优化 ZooKeeper 集群性能、识别性能瓶颈、及时排查故障至关重要。它们帮助我们优化会话管理策略,确保集群状态一致性,进行有效的资源规划,并为分布式协调任务提供支持。这样的监控不仅增强了用户体验,也显著提高了系统的可靠性和稳定性。

相关推荐

ETCD 故障恢复(etc常见故障)

概述Kubernetes集群外部ETCD节点故障,导致kube-apiserver无法启动。...

在Ubuntu 16.04 LTS服务器上安装FreeRADIUS和Daloradius的方法

FreeRADIUS为AAARadiusLinux下开源解决方案,DaloRadius为图形化web管理工具。...

如何排查服务器被黑客入侵的迹象(黑客 抓取服务器数据)

---排查服务器是否被黑客入侵需要系统性地检查多个关键点,以下是一份详细的排查指南,包含具体命令、工具和应对策略:---###**一、快速初步检查**####1.**检查异常登录记录**...

使用 Fail Ban 日志分析 SSH 攻击行为

通过分析`fail2ban`日志可以识别和应对SSH暴力破解等攻击行为。以下是详细的操作流程和关键分析方法:---###**一、Fail2ban日志位置**Fail2ban的日志路径因系统配置...

《5 个实用技巧,提升你的服务器安全性,避免被黑客盯上!》

服务器的安全性至关重要,特别是在如今网络攻击频繁的情况下。如果你的服务器存在漏洞,黑客可能会利用这些漏洞进行攻击,甚至窃取数据。今天我们就来聊聊5个实用技巧,帮助你提升服务器的安全性,让你的系统更...

聊聊Spring AI Alibaba的YuQueDocumentReader

序本文主要研究一下SpringAIAlibaba的YuQueDocumentReaderYuQueDocumentReader...

Mac Docker环境,利用Canal实现MySQL同步ES

Canal的使用使用docker环境安装mysql、canal、elasticsearch,基于binlog利用canal实现mysql的数据同步到elasticsearch中,并在springboo...

RustDesk:开源远程控制工具的技术架构与全场景部署实战

一、开源远程控制领域的革新者1.1行业痛点与解决方案...

长安汽车一代CS75Plus2020款安装高德地图7.5

不用破解原车机,一代CS75Plus2020款,安装车机版高德地图7.5,有红绿灯读秒!废话不多讲,安装步骤如下:一、在拨号状态输入:在电话拨号界面,输入:*#518200#*(进入安卓设置界面,...

Zookeeper使用详解之常见操作篇(zookeeper ui)

一、Zookeeper的数据结构对于ZooKeeper而言,其存储结构类似于文件系统,也是一个树形目录服务,并通过Key-Value键值对的形式进行数据存储。其中,Key由斜线间隔的路径元素构成。对...

zk源码—4.会话的实现原理一(会话层的基本功能是什么)

大纲1.创建会话...

Zookeeper 可观测性最佳实践(zookeeper能够确保)

Zookeeper介绍ZooKeeper是一个开源的分布式协调服务,用于管理和协调分布式系统中的节点。它提供了一种高效、可靠的方式来解决分布式系统中的常见问题,如数据同步、配置管理、命名服务和集群...

服务器密码错误被锁定怎么解决(服务器密码错几次锁)

#服务器密码错误被锁定解决方案当服务器因多次密码错误导致账户被锁定时,可以按照以下步骤进行排查和解决:##一、确认锁定状态###1.检查账户锁定状态(Linux)```bash#查看账户锁定...

zk基础—4.zk实现分布式功能(分布式zk的使用)

大纲1.zk实现数据发布订阅...

《死神魂魄觉醒》卡死问题终极解决方案:从原理到实战的深度解析

在《死神魂魄觉醒》的斩魄刀交锋中,游戏卡死犹如突现的虚圈屏障,阻断玩家与尸魂界的连接。本文将从技术架构、解决方案、预防策略三个维度,深度剖析卡死问题的成因与应对之策,助力玩家突破次元壁障,畅享灵魂共鸣...

取消回复欢迎 发表评论: