ES第十一天-script_es script-程序员宅基地

技术标签: elasticsearch  

ES Scripts简介

在ES 1.4.X-5.0版本,Groovy是作为ES的脚本语言。
其他支持脚本:
① expression:每个文档的开销较低:表达式的作用更多,可以非常快速地执行,甚至比编写native脚本还要快,支持javascript语法的子集:单个表达式。缺点:只能访问数字,布尔值,日期和geo_point字段,存储的字段不可用
② mustache:提供模板参数化查询
③ java

在ES6之后,更多的是使用Painless作为脚本。
Painless:Painless是一种专门用于Elasticsearch的简单,用于内联和存储脚本,类似于Java,也有注释、关键字、类型、变量、函数等,安全的脚本语言。它是Elasticsearch的默认脚本语言,可以安全地用于内联和存储脚本。 本次将主要针对Painless进行script讲解。

script中的新增

  {
    
        "_index" : "product",
        "_type" : "_doc",
        "_id" : "3",
        "_score" : 1.0,
        "_source" : {
    
          "name" : "nfc phone",
          "desc" : "shouji zhong de hongzhaji",
          "price" : 2999,
          "tags" : [
            "xingjiabi",
            "fashao",
            "menjinka"
          ]
        }
      }

针对上面的文档,对里边的tags进行新增元素:

POST product/_update/3
{
    
  "script": {
    
    "lang": "painless",
    "source": "ctx._source.tags.add('无线充电')"
  }
}

script中的修改

 {
    
    "_index" : "product",
    "_type" : "_doc",
    "_id" : "3",
    "_score" : 1.0,
    "_source" : {
    
      "name" : "nfc phone",
      "desc" : "shouji zhong de hongzhaji",
      "price" : 2999,
      "tags" : [
        "xingjiabi",
        "fashao",
        "menjinka"
      ]
    }
  }

针对上面的文档,对价格进行更新:

POST product/_update/3
{
    
  "script": {
    
     //语法:#ctx._source.<field-name>
    "source": "ctx._source.price-=1"
  }
}

upsert

如果数据存在,执行partial update操作,如果数据不存在,那么执行create操作

POST product2/_update/15
{
    
    //存在执行这个:
  "script": {
    
    "source": "ctx._source.price += params.param1",
    "lang": "painless",
    "params": {
    
      "param1": 100
    }
  },
  //不存在进行插入这个:
  "upsert": {
    
    "name": "小米10",
    "price": 1999
  }
}

script中的删除

POST product/_update/15
{
    
  "script": {
    
    "lang": "painless",
    "source": "ctx.op='delete'"
  }
}

script中的批量操作bulk

POST _bulk
{
     "update" : {
     "_id" : "0", "_index" : "product2", "retry_on_conflict" : 3} }
{
     "script" : {
     "source": "ctx._source.price += params.param1", "lang" : "painless", "params" : {
    "param1" : 100}}, "upsert" : {
    "price" : 1999}}

script中的查询

   {
    
        "_index" : "product",
        "_type" : "_doc",
        "_id" : "4",
        "_score" : 1.0,
        "_source" : {
    
          "name" : "xiaomi erji",
          "desc" : "erji zhong de huangmenji",
          "price" : 999,
          "tags" : [
            "low",
            "bufangshui",
            "yinzhicha"
          ]
        }
      }

针对上面的文档,可以这样使用脚本查询:

GET /product/_search
{
    
  "script_fields": {
    
      //取个展示的名字
    "test_filed": {
    
      "script": {
    
        "lang": "painless",
        //使用doc对象用(点操作符)来得到对应的字段,
        "source": "doc.price.value" 
      }
    }
  }
}

但是对于一些text类型的文本,脚本中必须需要使用它的keyword,此时用点操作符就不行了,其实脚本中访问字段还有另外一种方式:

GET /product/_search
{
    
  "script_fields": {
    
    "test_filed": {
    
      "script": {
    
        "lang": "painless",
        //像这种访问字典的方式
        "source": "doc['name.keyword'].value"
      }
    }
  }
}

同时展示价格的原始价格和100倍后的价格:

GET /product/_search
{
    
  "script_fields": {
    
    "nature_source": {
    
      "script": {
    
        "lang": "painless",
        "source": "doc.price.value"
      }
    },
    "test_filed": {
    
      "script": {
    
        "lang": "painless",
        //script中可以进行计算 并支持参数
        "source": "doc.price.value*params.size",
        "params": {
    
          "size": 100
        }
      }
    }
  }
}

展示原始价格 和 多个打折价格:

GET product2/_search
{
    
  "script_fields": {
    
    "price": {
    
      "script": {
    
        "lang": "painless",
        "source": "doc['price'].value"
      }
    },
    "discount_price": {
    
      "script": {
    
        "lang": "painless",
        //之前看返回结果注意到,这里可以返回一个数组(也就是可以返回多个元素内容):
        "source": "[doc['price'].value * params.discount_8,doc['price'].value * params.discount_7,doc['price'].value * params.discount_6,doc['price'].value * params.discount_5]",
        "params": {
    
          "discount_8": 0.8,
          "discount_7": 0.7,
          "discount_6": 0.6,
          "discount_5": 0.5
        }
      }
    }
  }
}

脚本和参数

上面的脚本我们可以看到有的地方进行了调用参数params中声明的变量。
ES在首次执行脚本时,会对脚本进行编译(编译行为每分钟默认为15次,比较消耗性能),然后将编译好的内容缓存放入内存(可缓存大小有限制,默认为100M),
没有过期时间 可以手工设置过期时间script.cache.expire 通过script.cache.max_size设置缓存大小 脚本最大64MB 通过script.max_size_in_bytes配置
但如果脚本内容发送修改,缓存失效。但通过传入参数的方式,而后续只改变参数的值,这样在后续执行起来都是非常快的。
也就是说:如果需要将变量传递到脚本中,则应以命名形式传递变量params,而不是将值硬编码到脚本本身中。例如,如果你希望能够将字段值乘以不同的乘数,请不要将乘数硬编码到脚本中

Stored scripts

当你有一段脚本逻辑是通用的,你这时候可能想把它抽象成一个模板,让各个地方直接调用,那这个时候就可以用这个,它可以理解为script模板 缓存在集群的cache中,它类似数据库中的存储过程 ,作用域为整个集群

这里以一个折扣计算的脚本为例:

创建脚本

//语法: POST _scripts/名字
POST _scripts/calculate-discount
{
    
  "script": {
    
    "lang": "painless",
    "source": "doc['price'].value * params.discount"
  }
}

查看脚本

GET _scripts/calculate-discount

删除脚本

DELETE _scripts/calculate-discount

引用脚本

GET product/_search
{
    
  "script_fields": {
    
    "discount_price": {
    
      "script": {
    
         //这里不需要再指定source,而是直接指定对应上面存储了的脚本id名即可 
        "id":"calculate-discount",
        "params": {
    
          "discount": 0.8
        }
      }
    }
  }
}

date类型的查询

日期字段实际为ZonedDateTime的一个类,因此它们支持诸如此类的方法:getYear,getDayOfWeek 或例如从历元开始到毫秒getMillis。要在脚本中使用它们,请省略get前缀并继续使用小写的方法名其余部分。

getYear()  //year
getMonth() //month
getDayOfMonth() //dayOfMonth
getDayOfWeek() //dayOfWeek
getDayOfYear() //dayOfYear
getHour() //hour
getMinute() //minute
getSecond() //second
getNano() //nano

例如获取创建时间所属的年:

GET product/_search
{
    
  "script_fields": {
    
    "test_year": {
    
      "script": {
    
          //对应的就是getYear() 
        "source": "doc.createtime.value.year"
      }
    }
  }
}

脚本中的多行语句

当遇到复杂脚本,可能需要写很多行,这个时候上面的那种单行的写起来就太难受了。。。
实际上,ES是支持多行脚本编写的:
只需要source后面的语句的开头和结尾都是三个引号,在两对三引号之间写下多行内容即可,语句和语句直接使用“;”结尾,和java差不多:

POST product2/_update/1
{
    
  "script": {
    
    "lang": "painless",
    "source": """
      ctx._source.name += params.name;
      ctx._source.price -= 1
    """,
    "params": {
    
      "name": "无线充电",
      "price": "1"
    }
  }
}

例子

1、部分匹配,如果对应文档的name字段中包含phone,就把它的name字段加上标识符号:

POST product/_update/1
{
    
  "script": {
    
    "lang": "painless",
    "source": """
        // =~ 部分匹配
      if (ctx._source.name =~ /[\s\S]*phone[\s\S]*/) {
          //加上标识
        ctx._source.name += "***|";
      } else {
         //啥也不做 
        ctx.op = "noop";
      }
    """
  }
}

这里如果没有在elasticsearch.yml文件中设置开启正则,会报错:
在这里插入图片描述

script.painless.regex.enabled: true

2、完全匹配,如果日期完全符合正则的要求,也就是日期格式为 类似 2018-12-31 这种的日期才行,然后加上标识符号:

POST product2/_update/1
{
    
  "script": {
    
    "lang": "painless",
    "source": """
      // ==~ 完全匹配
      if (ctx._source.createtime ==~ /[0-9]{4}-[0-9]{2}-[0-9]{2}/) {
        ctx._source.name += "|***";
      } else {
      //啥也不做 
        ctx.op = "noop";
      }
    """
  }
}

3、针对price小于1000的文档,进行统计出它们tag元素的总数:

每个文档的结构是这样:

{
“_index” : “product”,
“_type” : “_doc”,
“_id” : “5”,
“_score” : 0.0,
“_source” : {
“name” : “hongmi erji”,
“desc” : “erji zhong de kendeji”,
“price” : 399,
“tags” : [
“lowbee”,
“xuhangduan”,
“zhiliangx”
]
}
}

查询:

GET product/_search
{
    
  "query": {
    
    "bool": {
    
      "filter": [
        {
    
          "range": {
    
            "price": {
    

              "lt": 10000
            }
          }
        }
      ]
    }
  },
  "aggs":{
    
    "tag_count_aggs":{
    
      "sum":{
    
        "script":{
    
          "lang":"painless",
          //这里最后的聚合结果,是把每个文档经过这个脚本的结果分别进行累加后得到
          "source":"""
          int total = 0;
          for(int i =0; i<doc['tags.keyword'].length;i++){
            total+=i;
          }
          return total;
          """
        }
      }
    }
  }

doc[‘field’].value和params[’_source’][‘field’]的区别

理解它们之间的区别是很重要的,首先,使用doc关键字,将导致该字段的条件被加载到内存(缓存),这将导致更快的执行,但更多的内存消耗。
此外,doc[…]符号只允许简单类型(不能返回一个复杂类型(JSON对象或者nested类型)),只有在非分析或单个词条的基础上有意义。
但是,doc如果可以使用的情况下(返回非复杂类型),仍然是从文档中进行访问值的推荐方式,因为_source每次使用时都必须加载并解析,因此使用_source非常缓慢。

例子演示:

创建索引:

PUT /test_index2
{
    
  "mappings": {
    
    "properties": {
    
      "ajbh": {
    
        "type": "text",
        "fields": {
    }
      },
      "ajmc": {
    
        "type": "text"
      },
      "lasj": {
    
        "type": "date",
        "format": "yyyy/MM/dd HH:mm:ss"
      },
      "jsbax_sjjh2_xz_ryjbxx_cleaning": {
    
        "properties": {
    
          "XM": {
    
            "type": "text",
            "fields":{
    
              "keyword": {
    
              "type": "keyword",
              "ignore_above": 256
            }
            }
          },
          "NL": {
    
            "type": "integer"
          },
          "SF": {
    
            "type": "keyword"
          }
        }
      }
    }
  }
}

插入数据:

PUT test_index2/_bulk?refresh
{
    "index":{
    "_id":1}}
{
    "ajbh": "12345","ajmc": "立案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
    "XM": "张三","NL": "30","SF": "男"},{
    "XM": "李四","NL": "31","SF": "男"},{
    "XM": "王五","NL": "30","SF": "女"},{
    "XM": "赵六","NL": 23,"SF": "男"}]}
{
    "index":{
    "_id":2}}
{
    "ajbh": "563245","ajmc": "结案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
    "XM": "张三2","NL": "30","SF": "男"},{
    "XM": "李四2","NL": "31","SF": "男"},{
    "XM": "王五2","NL": "30","SF": "女"},{
    "XM": "赵六2","NL": 23,"SF": "女"}]}
{
    "index":{
    "_id":3}}
{
    "ajbh": "12345","ajmc": "立案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
    "XM": "张三3","NL": "30","SF": "男"},{
    "XM": "李四3","NL": "31","SF": "男"},{
    "XM": "王五3","NL": "30","SF": "女"},{
    "XM": "赵六3","NL": 23,"SF": "男"}]}

从所有文档中统计jsbax_sjjh2_xz_ryjbxx_cleaning中一共出现男性的次数:

GET /test_index2/_search
{
    
  "aggs": {
    
    "sum_gender": {
    
      "sum": {
    
        
        "script": {
    
          "lang": "painless",
          "source": """
          
          int total = 0;
          //注意这里写的就是params['_source'],因此返回的是复杂对象
          for(int i =0; i< params['_source']['jsbax_sjjh2_xz_ryjbxx_cleaning'].length; i++){
            if(params['_source']['jsbax_sjjh2_xz_ryjbxx_cleaning'][i]['SF']=='男'){
              total++;
            }
          }
          return total;
          
          """
        }
        
        
      }
    }
  }
}

扩展

ES除了painless语言 ,其实还支持很多语言,比如expression就是一种特点是快速的自定义排名和排序的语言,这个应用的不是很多,但是某些场景性能可能会更好。

GET product2/_search
{
    
  "script_fields": {
    
    "test_field": {
    
      "script": {
    
        "lang":   "expression",
        //和painless相比,这里就不用后面跟写“.value”了
        "source": "doc['price']"
      }
    }
  }
}
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/darkness0604/article/details/107594190

智能推荐

while循环&CPU占用率高问题深入分析与解决方案_main函数使用while(1)循环cpu占用99-程序员宅基地

文章浏览阅读3.8k次,点赞9次,收藏28次。直接上一个工作中碰到的问题,另外一个系统开启多线程调用我这边的接口,然后我这边会开启多线程批量查询第三方接口并且返回给调用方。使用的是两三年前别人遗留下来的方法,放到线上后发现确实是可以正常取到结果,但是一旦调用,CPU占用就直接100%(部署环境是win server服务器)。因此查看了下相关的老代码并使用JProfiler查看发现是在某个while循环的时候有问题。具体项目代码就不贴了,类似于下面这段代码。​​​​​​while(flag) {//your code;}这里的flag._main函数使用while(1)循环cpu占用99

【无标题】jetbrains idea shift f6不生效_idea shift +f6快捷键不生效-程序员宅基地

文章浏览阅读347次。idea shift f6 快捷键无效_idea shift +f6快捷键不生效

node.js学习笔记之Node中的核心模块_node模块中有很多核心模块,以下不属于核心模块,使用时需下载的是-程序员宅基地

文章浏览阅读135次。Ecmacript 中没有DOM 和 BOM核心模块Node为JavaScript提供了很多服务器级别,这些API绝大多数都被包装到了一个具名和核心模块中了,例如文件操作的 fs 核心模块 ,http服务构建的http 模块 path 路径操作模块 os 操作系统信息模块// 用来获取机器信息的var os = require('os')// 用来操作路径的var path = require('path')// 获取当前机器的 CPU 信息console.log(os.cpus._node模块中有很多核心模块,以下不属于核心模块,使用时需下载的是

数学建模【SPSS 下载-安装、方差分析与回归分析的SPSS实现(软件概述、方差分析、回归分析)】_化工数学模型数据回归软件-程序员宅基地

文章浏览阅读10w+次,点赞435次,收藏3.4k次。SPSS 22 下载安装过程7.6 方差分析与回归分析的SPSS实现7.6.1 SPSS软件概述1 SPSS版本与安装2 SPSS界面3 SPSS特点4 SPSS数据7.6.2 SPSS与方差分析1 单因素方差分析2 双因素方差分析7.6.3 SPSS与回归分析SPSS回归分析过程牙膏价格问题的回归分析_化工数学模型数据回归软件

利用hutool实现邮件发送功能_hutool发送邮件-程序员宅基地

文章浏览阅读7.5k次。如何利用hutool工具包实现邮件发送功能呢?1、首先引入hutool依赖<dependency> <groupId>cn.hutool</groupId> <artifactId>hutool-all</artifactId> <version>5.7.19</version></dependency>2、编写邮件发送工具类package com.pc.c..._hutool发送邮件

docker安装elasticsearch,elasticsearch-head,kibana,ik分词器_docker安装kibana连接elasticsearch并且elasticsearch有密码-程序员宅基地

文章浏览阅读867次,点赞2次,收藏2次。docker安装elasticsearch,elasticsearch-head,kibana,ik分词器安装方式基本有两种,一种是pull的方式,一种是Dockerfile的方式,由于pull的方式pull下来后还需配置许多东西且不便于复用,个人比较喜欢使用Dockerfile的方式所有docker支持的镜像基本都在https://hub.docker.com/docker的官网上能找到合..._docker安装kibana连接elasticsearch并且elasticsearch有密码

随便推点

Python 攻克移动开发失败!_beeware-程序员宅基地

文章浏览阅读1.3w次,点赞57次,收藏92次。整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)近年来,随着机器学习的兴起,有一门编程语言逐渐变得火热——Python。得益于其针对机器学习提供了大量开源框架和第三方模块,内置..._beeware

Swift4.0_Timer 的基本使用_swift timer 暂停-程序员宅基地

文章浏览阅读7.9k次。//// ViewController.swift// Day_10_Timer//// Created by dongqiangfei on 2018/10/15.// Copyright 2018年 飞飞. All rights reserved.//import UIKitclass ViewController: UIViewController { ..._swift timer 暂停

元素三大等待-程序员宅基地

文章浏览阅读986次,点赞2次,收藏2次。1.硬性等待让当前线程暂停执行,应用场景:代码执行速度太快了,但是UI元素没有立马加载出来,造成两者不同步,这时候就可以让代码等待一下,再去执行找元素的动作线程休眠,强制等待 Thread.sleep(long mills)package com.example.demo;import org.junit.jupiter.api.Test;import org.openqa.selenium.By;import org.openqa.selenium.firefox.Firefox.._元素三大等待

Java软件工程师职位分析_java岗位分析-程序员宅基地

文章浏览阅读3k次,点赞4次,收藏14次。Java软件工程师职位分析_java岗位分析

Java:Unreachable code的解决方法_java unreachable code-程序员宅基地

文章浏览阅读2k次。Java:Unreachable code的解决方法_java unreachable code

标签data-*自定义属性值和根据data属性值查找对应标签_如何根据data-*属性获取对应的标签对象-程序员宅基地

文章浏览阅读1w次。1、html中设置标签data-*的值 标题 11111 222222、点击获取当前标签的data-url的值$('dd').on('click', function() { var urlVal = $(this).data('ur_如何根据data-*属性获取对应的标签对象

推荐文章

热门文章

相关标签