golang zk大量disconnected event_golang zk watch-程序员宅基地

技术标签: zookeeper  golang  Code  

背景

在容器平台上我们提供了zk做白名单功能,Pod启动时 sidecar会自动注册zk。昨天遇到zk server抖动,sidecar容器输出大量StateDisconnected事件,zk正常后仍无法恢复,由于大量日志造成sidecar容器 cpu占用过高,进而引发dockerdcpu占用过高,严重时影响dockerd正常调用。

问题分析

问题复现

正常情况下,sidecar启动后会去注册zk

# docker logs -f 01a1a4a74785
I0302 15:04:05.476463       1 manager.go:116] start run plugin zk
2021/03/02 15:04:05 Connected to 10.38.161.60:11000
I0302 15:04:05.488006       1 zk.go:152] zookeeper connect succeed: zk.srv:11000
2021/03/02 15:04:05 authenticated: id=33746806328105493, timeout=30000
2021/03/02 15:04:05 re-submitting `0` credentials after reconnect
I0302 15:04:05.516446       1 zk.go:220] watching zk node:[/tasks/cluster.xxx_default_deployment.htool/10.46.12.72] in cluster[xxx] #注册成功,开始watch

通过iptables来模拟异常,首先进入到容器network namesapce

pod=htool-6875bcb898-w7llc
containerid=$(docker ps |grep $pod|awk '{print $1}'|head -n 1)
pid=$(docker inspect -f {
     {
     .State.Pid}} $containerid)
nsenter -n --target $pid

使用iptables drop掉发往zk的请求(11000为zk server端口)

iptables -A OUTPUT -p tcp -m tcp --dport 11000 -j DROP

zk client自动重试(1s一次),日志显示Failed to connect to 10.38.161.54:11000: dial tcp 10.38.161.54:11000: i/o timeout

I0302 15:04:05.516446       1 zk.go:220] watching zk node:[/tasks/cluster.xxx_default_deployment.htool/10.46.12.72] in cluster[xxx]
2021/03/02 15:08:55 recv loop terminated: err=failed to read from connection: read tcp 10.46.12.72:36884->10.38.161.60:11000: i/o timeout
2021/03/02 15:08:55 send loop terminated: err=<nil>
2021/03/02 15:08:56 Failed to connect to 10.38.161.54:11000: dial tcp 10.38.161.54:11000: i/o timeout

网络恢复,删除iptables

iptables -D OUTPUT -p tcp -m tcp --dport 11000 -j DROP

出现大量StateDisconnected日志

I0302 15:09:50.951897       1 zk.go:232] Unknown zk event[StateDisconnected] for znode:[/tasks/cluster.xxx_default_deployment.htool/10.46.12.72]
I0302 15:09:50.951893       1 zk.go:232] Unknown zk event[StateDisconnected] for znode:[/tasks/cluster.xxx_default_deployment.htool/10.46.12.72]
...

问题分析

sidecar中zk watch代码如下:

exist, _, eventCh, err := conn.ExistsW(node) //监听zk事件
watcher:
        for {
                select {
                case e := <-eventCh:
                        switch e.State {
                        case zk.StateExpired:
                                return fmt.Errorf("node[%v] expired", node)
                        case zk.StateConnected, zk.StateHasSession:
                                return fmt.Errorf("Get zk event: %v ", e.State)
                        default:
                                klog.Infof("Get zk event[%v] for znode:[%v]", e.State, node) // 出错位置
                        }
                case <-ctx.Done():
                        // we close the conn in caller
                        break watcher
                }
        }

ExistsW函数由github.com/samuel/go-zookeeper/zk库提供,监听zk给定目录的事件

func (c *Conn) ExistsW(path string) (bool, *Stat, <-chan Event, error) {
    var ech <-chan Event
    ...
    ech = c.addWatcher(path, watchTypeData)
    return exists, &res.Stat, ech, err
}

当zk异常恢复后,c.addWatcher中的channelclose,即sidecareventCh关闭,进入死循环。

修复验证

知道了原因,修复很简单,判断下eventCh状态即可

    for {
        select {
        case e, ok := <-eventCh:
            if !ok {
                return fmt.Errorf("event channel closed")
            }
            if e.Err != nil {
                return fmt.Errorf("Get zk event: %v, err: %v", e.State, e.Err)
            }
            switch e.State {
            case zk.StateExpired:
                return fmt.Errorf("node[%v] expired", node)
            case zk.StateConnected, zk.StateHasSession:
                return fmt.Errorf("Get zk event: %v ", e.State)
            default:
                klog.Infof("Get zk event[%v] for znode:[%v]", e.State, node)
            }
        }

在修复代码后,再次验证可正常注册

2021/03/02 15:13:40 Failed to connect to 10.38.161.60:11000: dial tcp 10.38.161.60:11000: i/o timeout
2021/03/02 15:13:40 Connected to 10.38.161.55:11000
2021/03/02 15:13:40 authentication failed: zk: session has been expired by the server
W0302 15:13:40.222923       1 zk.go:300] meet error when watching node path: Get zk event: StateDisconnected, err: zk: session has been expired by the server
2021/03/02 15:13:40 Connected to 10.38.161.54:11000
2021/03/02 15:13:40 authenticated: id=177861994644216038, timeout=30000
2021/03/02 15:13:40 re-submitting `1` credentials after reconnect
I0302 15:13:41.238524       1 zk.go:220] watching zk node:[/tasks/cluster.xxx_default_deployment.htool/10.46.12.72] in cluster[xxx]

总结

这个问题其实与zk没关系,是由于没有判断channel状态,陷入死循环。通常情况下大部分应用只有退出时才会关闭channel,不需要特殊处理。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u012986012/article/details/114290843

智能推荐

Audio System 九 之 AudioTrack_audiotrackserverproxy-程序员宅基地

文章浏览阅读1k次。Audio System 九 之 AudioTrack十四、AudioTrack & AudioFlinger 相关类14.1 AudioTrack & AudioFlinger 的类图14.1.1 AudioFlinger::PlaybackThread 回放线程基类14.1.2 AudioFlinger::PlaybackThread::Track 音频流管理类14.1...._audiotrackserverproxy

Redis 通用命令(keys,help,mset,exists,expire,ttl,tab补全)_redis如何添加help命令-程序员宅基地

文章浏览阅读874次。redis 通用命令 _redis如何添加help命令

google chromeDriver 地址

chrome driver 下载地址。#chrome brower下载地址。#安装openssl 1.1.1K。#安装chrome driver。#安装browser。

西门子 S7-200 SMART 系列三: 最新西门子 s7-200 smart V2.8产品特性及软件下载_s7200amart最新软件-程序员宅基地

文章浏览阅读1k次,点赞18次,收藏24次。V2.8 固件的标准型 CPU, HSC(高速计数器)功能开始支持频率模式,通过 HSC 指令 或者高速计数器向导,可以轻松的实现对高速脉冲的频率测量,支持三种频率测量 周期,分别是 1s、100ms、10ms。V2.8 版本的标准型 CPU PID 功能在原有精确调节的基础上,新增了预调节功能,配 置完向导并满足一定条件的基础上,即可操作预调节,该功能可大大节约闭环控制 系统的调试时间。支持轴组路径规划参数的动态激活,向导中可组态多条路径,根据需求灵活便 捷的激活并触发某一段路径。_s7200amart最新软件

Go语言进阶之路(二):字符串和指针_go string 和指针-程序员宅基地

文章浏览阅读3.6k次。上一篇文章《Go语言进阶之路(一):变量、类型、数组、切片、字典和结构体》我们学习了Go语言基础的一些变量和条件控制语句,结构体等。这一篇主要学习一下Go语言中的字符串和指针。_go string 和指针

javaFX初探(灯光)_javafx ambientlight-程序员宅基地

文章浏览阅读1.6k次。本章介绍javaFX 3D库的的Light API。Light也是场景图中的一个节点,如果场景中灯光的集合是空的话,那么就会提供一个默认的灯光。每个灯光都包含一个节点的集合,如果集合没有包含节点,那么场景中所有的节点都会被灯光影响,如果集合中包含一个父节点,那么所有的子节点都会产生影响。Light与3D图形和它的材料的几何图像相互作用就会产生渲染的结果,我们有两种类型的光源: Am_javafx ambientlight

随便推点

Java利用JNA调用C#的dll-程序员宅基地

文章浏览阅读7.3k次,点赞2次,收藏23次。https://www.cnblogs.com/wyongbo/p/jnaTest.html本文参考以上链接,结合自己实际遇到的问题,做过一些修改(红色字体标注),主要是为了给自己做个笔记。一、需求阐述:  如果我们的项目利用c#开发,到了开发后期需要和java组进行合作,其中有一部分业务逻辑利用c#已经code completed,那么我们可能会考虑用java来调用现成的c#dll实...

linux查看系统编码和修改系统编码的方法_linux 机器编码设置-程序员宅基地

文章浏览阅读1.4w次。查看支持的字符编码使用locale命令,如:. 代码如下:# localeLANG=en_US.UTF-8LC_CTYPE="en_US.UTF-8"LC_NUMERIC="en_US.UTF-8"LC_TIME="en_US.UTF-8"LC_COLLATE="en_US.UTF-8"LC_MONETARY="en_US.UTF-8"LC_MESSAG_linux 机器编码设置

企业微信小程序_小程序开发工具及真机调试_host配置及代理_微信开发者工具 本地代理-程序员宅基地

文章浏览阅读7.6k次。文章目录一、开发前准备1. 开发文档2. 工具安装3. 安装插件4. 调整编译模式5. 选择企业6. PC 调试前端7. PC 调试后端二、甄姬调试前端2.1. 预览小程序2.2. 手机企微扫码2.3. 手机企微调试2.4. 多场景调试2.5. 手机企微调试前后端一、开发前准备1. 开发文档小程序开发文档:https://developer.work.weixin.qq.com/document/path/91502点击企业微信小程序开发进入详情页面2. 工具安装微信开发者工具3. ._微信开发者工具 本地代理

详解C语言自定义类型——结构体struct_struct结构体定义和声明-程序员宅基地

文章浏览阅读2.6k次,点赞3次,收藏10次。详解C语言自定义类型——结构体struct_struct结构体定义和声明

kettle-基本使用_kettle箭头-程序员宅基地

文章浏览阅读621次。Kettle 背景知识 – ETL 抽取(Extract):一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是 ETL 解决方案的成功实施的一个主要障碍。 转换(Transform):任何对数据的处理过程都是转换。这些处理过程通常包括(但不限于)下面一些操作:移动数据根据规则验证数据数据内容和数据结构的修改将多个数据源的数据集成 根据处理后的..._kettle箭头

python输入两个数值区间若能合并区间_【python-leetcode57-区间合并】插入区间-程序员宅基地

文章浏览阅读719次。问题描述:给出一个无重叠的 ,按照区间起始端点排序的区间列表。在列表中插入一个新的区间,你需要确保列表中的区间仍然有序且不重叠(如果有必要的话,可以合并区间)。示例1:输入: intervals = [[1,3],[6,9]], newInterval = [2,5]输出: [[1,5],[6,9]]示例2:输入: intervals = [[1,2],[3,5],[6,7],[8,10],[..._python输入两个数值区间后,若能合并区间

推荐文章

热门文章

相关标签