自动清理 ES 历史数据_es 删除历史数据 ,并减少存储空间-程序员宅基地

技术标签： kubernetes elasticsearch 搜索引擎

一、背景

二、解决方案

三、实现操作

三、合并定时任务的例子

一、背景

随着业务的增长和时间的变化，ES 数据库的存储空间越来越大，存储数据多数为系统监控日志，保存的数据不需要长期保留，多数情况只需要保留几个月ES数据即可，既可以减轻ES服务器的负载和资源使用率，还可以节约更多的存储空间。

二、解决方案

由于我的环境是k8s集群，ES 主要是为k8s集群内部应用服务，没有映射外部访问端口，所以不能直接使用Linux自带的crontab定时ES数据清理脚本。需要创建一个容器定时任务来定时清理ES历史数据。

k8s定时任务，会根据你设置的时间，定时启动pod实例来执行任务，pod完成执行任务后，pod的状态会由 running 状态变成 Completed 状态。查看定时任务脚本执行日志，可通过查看pod日志实现。

创建两个定时任务，一个定时任务在删除ES索引前执行，用于核对和审计定时任务删除的索引；另一个是关键的定时任务，用于删除ES历史数据。第一个定时任务可以根据实际情况选择性决定是否要创建。（当然你也可以直接把两个任务合并到一起，将两句curl命令完整内容作为command的参数，两句curl要使用分号或者 && 连接）

三、实现操作

1、获取ES索引信息

获取ES索引定时任务编排文件: elastic-get-indeices.yaml

apiVersion: batch/v1beta1
kind: CronJob
metadata:
  annotations: 
    description: "先获取一次索引信息，然后再删除索引；以便核对每次删除的索引"
  labels:
    app: elastic-get-indeices
  name: elastic-get-indeices
spec:
  concurrencyPolicy: Forbid
  failedJobsHistoryLimit: 5
  schedule: "0 0 * * *"
  jobTemplate:
    metadata:
      labels:
        app: elastic-get-indeices
    spec:
      activeDeadlineSeconds: 360
      backoffLimit: 3
      completions: 1
      parallelism: 1
      template:
        metadata:
          annotations:
            kubesphere.io/imagepullsecrets: '{}'
        spec:
          containers:
          - command:
            - /bin/sh
            - -c
            - curl -XGET -u ${esuser}:${espass} ${esurl}/_cat/indices | sort -k 3
            env:
            - name: esuser
              value: "elastic"  # ES 用户，使用默认用户即可
            - name: espass
              value: "ES密码"    # 替换成 ES 真实的 密码
            - name: esurl
              value: "http://eshost:9200"  # 替换成 ES 真实 url 地址

            image: centos:7.9.2009  ## 使用任何一个带有 curl 命令的基础镜像都可以
            imagePullPolicy: IfNotPresent
            name: conjob
            resources: {}
            terminationMessagePath: /dev/termination-log
            terminationMessagePolicy: File
            volumeMounts:
            - mountPath: /etc/localtime
              name: host-time
              readOnly: true
          dnsPolicy: ClusterFirst
          restartPolicy: Never
          schedulerName: default-scheduler
          securityContext: {}
          serviceAccount: default
          serviceAccountName: default
          terminationGracePeriodSeconds: 30
          volumes:
          - hostPath:
              path: /etc/localtime
              type: ""
            name: host-time
  startingDeadlineSeconds: 30
  successfulJobsHistoryLimit: 5
  suspend: false

创建获取ES索引信息的定时任务：

# 创建 获取 ES 索引 信息定时任务
kubectl apply -f elastic-get-indeices.yaml

2、删除 ES 30天之前的历史数据

删除ES历史数据编排文件： elastic-delete-data.yaml

apiVersion: batch/v1beta1
kind: CronJob
metadata:
  annotations: 
    description: "定时删除 ES 历史数据;保留30天的历史数据"
  labels:
    app: elastic-delete-data
  name: elastic-delete-data
spec:
  concurrencyPolicy: Forbid
  failedJobsHistoryLimit: 5
  schedule: "0 1 * * *"    # 每天凌晨 1 点 自动动清理 ES 30天前的历史数据
  jobTemplate:
    metadata:
      labels:
        app: elastic-delete-data
    spec:
      activeDeadlineSeconds: 360
      backoffLimit: 3
      completions: 1
      parallelism: 1
      template:
        metadata:
          annotations:
            kubesphere.io/imagepullsecrets: '{}'
        spec:
          containers:
          - command:
            - /bin/sh
            - -c
            - curl -XDELETE -u ${esuser}:${espass} ${esurl}/*$(date +%Y%m%d -d "30 days ago")*
            env:
            - name: esuser
              value: "elastic"  # ES 用户，使用默认用户即可
            - name: espass
              value: "ES密码"    # 替换成 ES 真实的 密码
            - name: esurl
              value: "http://eshost:9200"  # 替换成 ES 真实 url 地址

            image: centos:7.9.2009  # 使用任何一个带有 curl 命令的基础镜像都可以
            imagePullPolicy: IfNotPresent
            name: conjob
            resources: {}
            terminationMessagePath: /dev/termination-log
            terminationMessagePolicy: File
            volumeMounts:
            - mountPath: /etc/localtime
              name: host-time
              readOnly: true
          dnsPolicy: ClusterFirst
          restartPolicy: Never
          schedulerName: default-scheduler
          securityContext: {}
          serviceAccount: default
          serviceAccountName: default
          terminationGracePeriodSeconds: 30
          volumes:
          - hostPath:
              path: /etc/localtime
              type: ""
            name: host-time
  startingDeadlineSeconds: 30
  successfulJobsHistoryLimit: 5
  suspend: false

# 创建 定时删除 ES 历史数据任务
 kubectl apply -f elastic-delete-data.yaml

3、查看创建好的定时任务

# 注意命名空间，若不是当前默认命名空间 记得 指定命名空间
kubectl get cronjobs.batch

4、已成功完成的定时任务

5、通过删除前和删除后的索引情况来核对删除了那些索引

说明：

curl -X DELETE 删除ES索引是没有详细日志的，所以需要在删除前执行 curl -X GET 获取删除前索引信息，一旦出现异常就可以更好判断当次定时任务实际删除了那些内容，实际上是否成功按照保留天数执行了。

三、合并定时任务的例子

1、一个定时任务执行多条命令，在删除ES历史数据前后分别获取一次ES索引情况；

2、高级用法关键要点是：环境变量的互相依赖和引用，一定要注意环境变量的顺序和写法

3、对于初学者，其实我更推荐第一种写法，简单明了，看着舒服，不易出错

4、获取ES索引写法：curl -X GET -u ES用户:ES密码 http://127.0.0.1:9200/_cat/indices

5、删除ES 索引参考: curl -X DELETE -u ES用户:ES密码 http://127.0.0.1:9200/索引名字

6、环境变量相互依赖和引用使用，可以参考官方文档：https://kubernetes.io/zh-cn/docs/tasks/inject-data-application/define-interdependent-environment-variables/https://kubernetes.io/zh-cn/docs/tasks/inject-data-application/define-interdependent-environment-variables/

---
apiVersion: batch/v1beta1
kind: CronJob
metadata:
  annotations: 
    description: "分别输出删除ES历史索引操作前后的索引情况，以及完成删除历史数据操作"
  labels:
    app: delete-elastc-data
  name: delete-elastc-data
spec:
  concurrencyPolicy: Forbid
  failedJobsHistoryLimit: 5
  schedule: "0 1 * * *"
  jobTemplate:
    metadata:
      labels:
        app: delete-elastc-data
    spec:
      activeDeadlineSeconds: 360
      backoffLimit: 3
      completions: 1
      parallelism: 1
      template:
        metadata:
          annotations:
            kubesphere.io/imagepullsecrets: '{}'
        spec:
          containers:
          - command:
            - /bin/sh
            - -c
            - $getes;echo "开始删除史数据:";$deles/*$(date +%Y%m%d -d "30 days ago")*;echo "删除后数据为:";$getes
            env:
            - name: esauth
              value: "elastic:你的ES密码"
            - name: esurl
              value: "http://bk-elastic-elasticsearch-master.blueking:9200"
            - name: getes
              value: "curl -XGET -u $(esauth) $(esurl)/_cat/indices | sort -k 3"
            - name: deles
              value: "curl -XDELETE -u $(esauth) $(esurl)"

            image: centos:7.9.2009
            imagePullPolicy: IfNotPresent
            name: conjob
            resources: {}
            terminationMessagePath: /dev/termination-log
            terminationMessagePolicy: File
            volumeMounts:
            - mountPath: /etc/localtime
              name: host-time
              readOnly: true
          dnsPolicy: ClusterFirst
          restartPolicy: Never
          schedulerName: default-scheduler
          securityContext: {}
          serviceAccount: default
          serviceAccountName: default
          terminationGracePeriodSeconds: 30
          volumes:
          - hostPath:
              path: /etc/localtime
              type: ""
            name: host-time
  startingDeadlineSeconds: 30
  successfulJobsHistoryLimit: 5
  suspend: false
---

本文链接：https://blog.csdn.net/weixin_44770684/article/details/130889815

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

【详细】Spring Boot框架整合Spring Security实现安全访问控制_springboot org.springframework.security.web.access-程序员宅基地

文章浏览阅读3.4w次，点赞39次，收藏191次。一、前言：项目舍弃了原本的SSH框架，改用Spring Boot框架，并且要引入Spring Security为系统提供安全访问控制解决方案，接下来记录一下这两天在Spring Boot中引入Spring Security 的过程。主要参考了以下项目、博客和手册：（目前最新的Spring Security版本为5.0.4，我使用的是5.0.3，前三个链接中用的应该都是Spring Securit..._springboot org.springframework.security.web.access.intercept.filtersecurityi

pack_padded_sequence用法与完整示例-程序员宅基地

文章浏览阅读486次。是 PyTorch 中用于处理变长序列数据的函数。它的主要作用是将一个批次的序列数据打包成适合输入到 RNN（循环神经网络）模型中的形式，以避免对填充部分进行多余的计算。在自然语言处理任务中，例如文本分类、机器翻译等，输入的文本序列长度往往不同，为了方便进行批量处理，需要对较短的序列进行填充（padding）使其与最长序列的长度相同。但是，在某些情况下，填充的部分对模型来说是没有意义的，而且会导致额外的计算开销。因此，函数将填充的部分从计算中移除，以提高模型的效率。下面是一个示例，介绍了如何使用。_pack_padded_sequence

在java中使用oracle绑定变量_java oracle绑定变量-程序员宅基地

文章浏览阅读1.1k次。为什么要使用绑定变量：在JAVA中的SQL 语句的编写方面，没有使用ORACLE 绑定变量，很大程度上降低了数据库的性能，表现在两个方面：1、SQL语句硬分析(Hard Parse)太多，严重消耗CPU资源，延长了SQL语句总的执行时间。SQL语句的执行过程分几个步骤：语法检查、分析、执行、返回结果。其中分析又分为硬分析(Hard Parse)和软分析(Soft P..._java oracle绑定变量

Flutter mixin混入_flutter mixin 混入 mixin-程序员宅基地

文章浏览阅读127次。flutter mixin_flutter mixin 混入 mixin

Windows Terminal美化界面，优雅的办公带来超高的效率_aka terminal美化-程序员宅基地

文章浏览阅读888次。贴个图众所周知，Windows Terminal没有美化后那个傻大蓝，沉默黑简直不忍直视。没有像官方演示的那么美观（所以得自己捯饬捯饬好看的样子）美化开始第一步安装相关的模块和PowerLine主题Install-Module posh-git -Scope CurrentUserInstall-Module oh-my-posh -Scope CurrentUser如果你使用管理员权限打开PowerShell并且想把oh-my-posh安装到所有用户，则输入Install-Module _aka terminal美化

Qt编写控件属性设计器-程序员宅基地

文章浏览阅读435次。一、前言自从研究Qt编写自定义控件以来，一发不可收拾，越多越多人有类似的需求找我定制控件，陆陆续续写了上百个控件，目前已超过150个，于是逐渐衍生了另外一个需求，提供一个控件属性设计器，类似QtDesigner一样，可以方便的拖曳控件，改变属性，立即应用，并导出到文件方便下次直接加载，这个设计器有点像组态中的一个雏形，提供了基本的加载控件，导入导出数据，数据源绑定等。本系列文章将从加..._qt实现属性编辑

随便推点

内核全新优化UI界面影视双端源码_全新ui风格影视网站源码-程序员宅基地

文章浏览阅读154次。简介：Thinkphp内核全新优化UI界面双端源码网盘下载地址：http://kekewangLuo.net/soNTf1nZ2ps0图片：_全新ui风格影视网站源码

【效率提升】maven 转 gradle 实战 | 京东云技术团队_maven转gradle插件-程序员宅基地

文章浏览阅读512次。gradle 是一个打包工具，是一个开源构建自动化工具，足够灵活，可以构建几乎任何类型的软件，高性能、可扩展、能洞察等。其中洞察，可以用于分析构建过程中数据，提供分析参考，方便排查问题和不断优化构建性能，以下一次编译分析报告。_maven转gradle插件

java在线问卷调查系统的设计与实现（springboot+mysql源码+文档）-程序员宅基地

文章浏览阅读979次，点赞21次，收藏9次。基于java的在线问卷调查系统的设计与实现的主要使用者分为：管理员权限操作的功能包括对注册用户信息的管理，对问卷，题目，问卷调查，新闻资讯等信息的管理。用户权限操作的功能包括参与问卷调查，查看新闻，查看问卷调查记录。

几何矩求解椭圆_二阶矩确认椭圆-程序员宅基地

文章浏览阅读974次。勒让德惯性椭圆求解1.matlab利用二阶矩求解椭圆长轴、短轴、离心率、长轴与x轴夹角xbar=stats(k).Centroid(1);%区域的重心坐标ybar = stats(k).Centroid(2); x = list(:,1) - xbar; y = -(list(:,2) - ybar); % This is negative for the % orientation calculation (measured in the % counter-clockwise dire_二阶矩确认椭圆

《Python编程》专栏简介-程序员宅基地

文章浏览阅读155次。在本教程中，我们涵盖了Python编程的主要主题，包括Python基础知识、Python数学、Python网络编程、Python算法和数据结构、Python机器学习、Python Web开发和Python游戏开发。

在Ubuntu 12.04 64 位搭载Android4.4源码编译环境-程序员宅基地

文章浏览阅读67次。在Ubuntu 12.04 64 位搭载Android4.4源码编译环境一、准备工作：（1） VMare Workstation 10（2）Ubuntu12.04 64bit（3） JDK1.6（4）Android 4.4 源码（PS:...