flink任务监控- 利用Grafana和Prometheus实现实时计算平台任务监控_flink任务级别grafana监控-程序员宅基地

技术标签: flink  经验分享  java  grafana  其他  prometheus  大数据  

简介

最近负责公司基于flink实时计算平台的基本任务监控,包括重启通知,失败监控,一些关于flink 在pushgateway 上exported_job信息上报便于最后删除 pushgateway上的信息避免重复告警等,其实开始想的也是在网上找,没有找到,现在就总结一下自己的做法。第一次写博文不合理之处大家多多理解。

修改flink的flink-conf.yaml配置文件

具体配置讲解网上很多不赘述了

metrics.reporter.promgateway.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter
metrics.reporter.promgateway.host: host
metrics.reporter.promgateway.port: 9091
metrics.reporter.promgateway.jobName: flinkxx #自定义
metrics.reporter.promgateway.randomJobNameSuffix: true
metrics.reporter.promgateway.deleteOnShutdown: false
#metrics.reporter.promgateway.groupingKey: job_name=
metrics.reporter.promgateway.interval: 30 SECONDS

flink job 任务失败监控告警到实时计算平台

我们这一个指标监控主要是基于flink_jobmanager_job_uptime 这个指标进行了监控的,特性是在job任务存活时,他会按照你这个配置metrics.reporter.promgateway.interval上报频率递增。基于这个特点,当任务失败后这个数值就不会改变,就能监控到任务失败。

Grafana 上查询规则

数据查询策略图:
在这里插入图片描述
30秒为数据上报到 promgateway 频率 除以100为了数据好看,当job任务失败后数 flink上报的promgateway 的 flink_jobmanager_job_uptime指标值不会变化。这时候 ((flink_jobmanager_job_uptime)-(flink_jobmanager_job_uptime offset 30s))/100 值就会是0,配置告警

Grafana 上告警规则

直接上图:
在这里插入图片描述
在告警通知中可以邮件和webhook,webhook给实时计算平台接口告警,实时计算平台的一些自定义操作看你的需求怎样了,我们自己是做的任务状的修改为FAILED。这个里我们接口里做了通过 发起http delete 请求删除 pushgateway 上flink上报的 metrics 信息,删除调用http://localhost:9091/metrics/job/hlink_jobs6d35e8378ffc405c0a3d5a8d24574bf0,hlink_jobs6d35e8378ffc405c0a3d5a8d24574bf0 这个为 exported_job, 一个运行在yarn的flink任务会有根据任务运行模式会有两个,jobmanager的exported_job和taskmanager的exported_job。

webhook需要提前配合好在 告警时候直接引入.
上图:
在这里插入图片描述

flink job 网络延时或任务重启监控

这个告警也是基于flink_jobmanager_job_uptime 指标,为了恢复 网络延时或者重启产生的,flink任务失败已经把实时计算平台任务状态改成的FAILED从新改成RUNNING 状态。延时会导致查询公式**((flink_jobmanager_job_uptime offset 30s)-(flink_jobmanager_job_uptime))/1000** 的值 突然大数值小于-30(正常情况为-30),重启会导致flink_jobmanager_job_uptime指标清零从新从0值上报,导致查询公式**((flink_jobmanager_job_uptime offset 30s)-(flink_jobmanager_job_uptime))/1000** 计算值突然大于0(正常情况为-30)这时候我们就会发起告警。

Grafana 上查询规则

数据查询策略图:
在这里插入图片描述

Grafana 上告警规则

告警配置图:
在这里插入图片描述
具体配置告警的邮件通知和webhook http的自定义接口操作自己实时计算平台数据。

flink job 重启次数告警

这个告警也是基于flink_jobmanager_job_numRestarts 指标,这个flink job的重启次数,一般设置重启策略的在任务异常重启后这个数值会递增+1。我们用这个值表来上报每次重启后,在实时计算平台上的重启次数+1,展示给用户,也可以邮件告知用户。

Grafana 上查询规则

数据查询策略图:
在这里插入图片描述
也是利用当前值减去30秒前的值,如果等于1证明重启了一次 然后告警。

Grafana 上告警规则

告警策略图:
在这里插入图片描述
不多做解释使用了范围告警。

flink job 的exported_job 上报告警

这个主要用于上报flink 在pushgateway 上展示的 jobmanager的exported_job和taskmanager的exported_job。目的是为了后期删除pushgateway 上flink job失败或停止后的遗留信息。这个上报也是基于flink_jobmanager_job_uptime 指标。
在这里插入图片描述
对应的就是这些。不删会导致grafana查询过期数据job任务信息一致在。话不多说上图。

Grafana 上查询规则

数据查询策略图:
在这里插入图片描述

Grafana 上告警规则

数据告警策略图:
在这里插入图片描述
告警策略这样配置是我们自己的原因,在使用flink_jobmanager_job_uptime 指标上报exported_job自身自能上报 jobmanager的exported_job,我们自己在实时平台的接口中通过 Prometheus查询 http://localhost:9090/api/v1/query?query=flink_taskmanager_job_task_operator_select_rate{job_name=‘FlinkStreamWordCount’,job_id=‘930e368525d3314709be390d5756771b’} 查询拿到对应的 taskmanager的exported_job,flink_taskmanager_job_task_operator_select_rate这个指标是选择的一个信息比较全的指标。做两次告警原因是 这个查询在第一查询时候是查不到结果。所以用两次告警解决。应该是时间差的问题。不知道小伙伴有其他方法不,可以告诉我我优化一下哦。

告警数据样例

相信大家都能看懂吧

{
    
    "panelId":78,
    "dashboardId":4,
    "ruleName":"jobs_survival _state alert",
    "state":"alerting",
    "message":"任务运行状态告警",
    "ruleId":5,
    "title":"[Alerting] jobs_survival _state alert",
    "ruleUrl":"http://localhost:3000/d/-0rFuzoZk/flink-dashboard-hello?fullscreen&edit&tab=alert&panelId=78&orgId=1",
    "orgId":1,
    "evalMatches":[
        {
    
            "metric":"{exported_job=\"hlink_jobs381564b4d3e414fcb0e150814d34c77d\", host=\"fc_sit2_flink_com\", instance=\"localhost:9091\", job=\"flink-yarn-push\", job_id=\"2fb16d151ea92994a2eaf6317cfc8c3e\", job_name=\"flinkWordCount_new\"}",
            "value":1,
            "tags":{
    
                "instance":"localhost:9091",
                "job_name":"yousJobname",
                "exported_job":"hlink_jobs2be8c74c06b1f12a62a094f00944366f",
                "job_id":"3ae6929814d93f79ed9670070821d5a7",
                "host":"ssj_sit2_flwyiewi_com",
                "job":"flink-yarn-push"
            }
        }],
    "tags":{
    
    }
}

总结

毕业四年了,第一次写博文。总结的一些 flink 任务监控告警基于Grafana和Prometheus的使用技巧,希望能够对大家有一点小的启发吧。有些可能不是很好,大家有什么更好的方案可以分享给我,感谢观看!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/baidu_29559021/article/details/107951421

智能推荐

我的一个关于文件的程序 - [C语言]_fseek(fp,0l,2)-程序员宅基地

文章浏览阅读6.3k次。 2005-09-05我的一个关于文件的程序 - [C语言]#includevoid main(){char ch;FILE* fp;if((fp=fopen("test.txt","r"))==NULL){printf("error");exit(1);}fseek(fp,0L,2);while((fseek(fp,-1L,1))!=-1){ch=fgetc(fp);pu_fseek(fp,0l,2)

oracle 设置查询条数,SQL、MySQL、Oracle、 Sqlite、Informix数据库查询指定条数数据的方法...-程序员宅基地

文章浏览阅读674次。SQL查询前10条的方法为:select top X * from table_name--查询前X条记录,可以改成需要的数字,比如前10条。select top X * from table_name order by colum_name desc--按colum_name属性降序排序查询前X条记录,“order by” 后紧跟要排序的属性列名,其中desc表示降序,asc表示升序(默认也..._oracle怎么用语句设置查询结果数量

课程设计之第二次冲刺----第九天-程序员宅基地

文章浏览阅读58次。讨论成员:罗凯旋、罗林杰、吴伟锋、黎文衷讨论完善APP,调试功能。转载于:https://www.cnblogs.com/383237360q/p/5011594.html

favicon.ico 图标及时更新问题_win 软件开发 ico图标多久更新-程序员宅基地

文章浏览阅读5.4k次。首先看你 favicon.ico 图标文件引入路径是否正确然后 看ico文件能否正常打开,这两个没问题的话,在地址栏直接输入你的域名 http://xxx.com/favicon.ico 注意 此刻可能还是 之前的ico图标 不要着急 刷新一下 试试 完美解决 清除程序缓存_win 软件开发 ico图标多久更新

手工物理删除Oracle归档日志RMAN备份报错_rman 说明与资料档案库中在任何归档日志都不匹配-程序员宅基地

文章浏览阅读2.1k次。Oracle归档日志删除我们都都知道在controlfile中记录着每一个archivelog的相关信息,当然们在OS下把这些物理文件delete掉后,在我们的controlfile中仍然记录着这些archivelog的信息,在oracle的OEM管理器中有可视化的日志展现出,当我们手工清除 archive目录下的文件后,这些记录并没有被我们从controlfile中清除掉,也就是or_rman 说明与资料档案库中在任何归档日志都不匹配

命令提示符_命令提示符文件开头-程序员宅基地

文章浏览阅读706次。命令提示符:[ root@localhost桌面] #[用户名@主机名 当前所在位置] #(超级用户) KaTeX parse error: Expected 'EOF', got '#' at position 25: …用户: #̲ su 用户名 //切… su密码:[ root@cml桌面] #临时提升为root权限:# sudo 命令..._命令提示符文件开头

随便推点

android+打包+不同app,基于Gradle的Android应用打包实践-程序员宅基地

文章浏览阅读152次。0x01 基本项目结构使用Android Studio创建的Android项目会划分成三个层级:project : settings.gradle定义了构建应用时包含了哪些模块;build.gradle定义了适用于项目中所有模块的构建配置module : 可以是一个app类型的module,对应生成apk应用;也可以是一个lib类型的module,对应生成aar包. 每个module中包含的bui..._android多个应用 gradle 怎么打包指定的应用

qsort实现顺序与逆序/排整型,字符串数组,字符数组,结构体类型数组的名字排序,年龄排序等_qsort反向排序-程序员宅基地

文章浏览阅读599次,点赞12次,收藏11次。前言:通常我们排序都需要创建一个函数实现排序,但当我们排完整型数组时,想要排字符串呢?那需要重新创建一个函数,完善它的功能,进而实现排字符串,这样非常繁琐,但是有一个函数可以帮我们实现传什么,排什么;qsort的传参:(1️⃣,2️⃣,3️⃣,4️⃣) (首元素地址,排序的元素个数,每个元素的大小,指向比较两个元素的函数的指针)1️⃣2️⃣3️⃣4️⃣的传参方法,下面介绍:…整型数组:......_qsort反向排序

MVC绕过登陆界面验证时HttpContext.Current.User.Identity.Name取值为空问题解决方法_mvc 不验证登陆-程序员宅基地

文章浏览阅读355次。MVC绕过登陆界面验证时HttpContext.Current.User.Identity.Name取值为空问题解决方法_mvc 不验证登陆

Java中DO、DTO、BO、AO、VO、POJO、Query 命名规范_dto命名规范-程序员宅基地

文章浏览阅读7.6k次,点赞2次,收藏8次。1.分层领域模型规约: • DO( Data Object):与数据库表结构一一对应,通过DAO层向上传输数据源对象。 • DTO( Data Transfer Object):数据传输对象,Service或Manager向外传输的对象。 • BO( Business Object):业务对象。 由Service层输出的封装业务逻辑的对象。 • AO( Ap..._dto命名规范

1015. Reversible Primes (20) PAT甲级刷题_pat甲级1015-程序员宅基地

文章浏览阅读91次。A reversible prime in any number system is a prime whose "reverse" in that number system is also a prime. For example in the decimal system 73 is a reversible prime because its reverse 37 is also a pr..._pat甲级1015

ABAP接口之Http发送json报文_abap http 转换为json输出-程序员宅基地

文章浏览阅读1.5k次。ABAP接口之Http发送json报文abap 调用http 发送 json 测试函数SE11创建结构:zsmlscpnoticeSE37创建函数:zqb_test_http_fuc1FUNCTIONzqb_test_http_fuc1.*"----------------------------------------------------------------..._abap http 转换为json输出