技术标签: elasticsearch
在ES 1.4.X-5.0版本,Groovy是作为ES的脚本语言。
其他支持脚本:
① expression:每个文档的开销较低:表达式的作用更多,可以非常快速地执行,甚至比编写native脚本还要快,支持javascript语法的子集:单个表达式。缺点:只能访问数字,布尔值,日期和geo_point字段,存储的字段不可用
② mustache:提供模板参数化查询
③ java
在ES6之后,更多的是使用Painless作为脚本。
Painless:Painless是一种专门用于Elasticsearch的简单,用于内联和存储脚本,类似于Java,也有注释、关键字、类型、变量、函数等,安全的脚本语言。它是Elasticsearch的默认脚本语言,可以安全地用于内联和存储脚本。 本次将主要针对Painless进行script讲解。
{
"_index" : "product",
"_type" : "_doc",
"_id" : "3",
"_score" : 1.0,
"_source" : {
"name" : "nfc phone",
"desc" : "shouji zhong de hongzhaji",
"price" : 2999,
"tags" : [
"xingjiabi",
"fashao",
"menjinka"
]
}
}
针对上面的文档,对里边的tags进行新增元素:
POST product/_update/3
{
"script": {
"lang": "painless",
"source": "ctx._source.tags.add('无线充电')"
}
}
{
"_index" : "product",
"_type" : "_doc",
"_id" : "3",
"_score" : 1.0,
"_source" : {
"name" : "nfc phone",
"desc" : "shouji zhong de hongzhaji",
"price" : 2999,
"tags" : [
"xingjiabi",
"fashao",
"menjinka"
]
}
}
针对上面的文档,对价格进行更新:
POST product/_update/3
{
"script": {
//语法:#ctx._source.<field-name>
"source": "ctx._source.price-=1"
}
}
如果数据存在,执行partial update操作,如果数据不存在,那么执行create操作
POST product2/_update/15
{
//存在执行这个:
"script": {
"source": "ctx._source.price += params.param1",
"lang": "painless",
"params": {
"param1": 100
}
},
//不存在进行插入这个:
"upsert": {
"name": "小米10",
"price": 1999
}
}
POST product/_update/15
{
"script": {
"lang": "painless",
"source": "ctx.op='delete'"
}
}
POST _bulk
{
"update" : {
"_id" : "0", "_index" : "product2", "retry_on_conflict" : 3} }
{
"script" : {
"source": "ctx._source.price += params.param1", "lang" : "painless", "params" : {
"param1" : 100}}, "upsert" : {
"price" : 1999}}
{
"_index" : "product",
"_type" : "_doc",
"_id" : "4",
"_score" : 1.0,
"_source" : {
"name" : "xiaomi erji",
"desc" : "erji zhong de huangmenji",
"price" : 999,
"tags" : [
"low",
"bufangshui",
"yinzhicha"
]
}
}
针对上面的文档,可以这样使用脚本查询:
GET /product/_search
{
"script_fields": {
//取个展示的名字
"test_filed": {
"script": {
"lang": "painless",
//使用doc对象用(点操作符)来得到对应的字段,
"source": "doc.price.value"
}
}
}
}
但是对于一些text类型的文本,脚本中必须需要使用它的keyword,此时用点操作符就不行了,其实脚本中访问字段还有另外一种方式:
GET /product/_search
{
"script_fields": {
"test_filed": {
"script": {
"lang": "painless",
//像这种访问字典的方式
"source": "doc['name.keyword'].value"
}
}
}
}
同时展示价格的原始价格和100倍后的价格:
GET /product/_search
{
"script_fields": {
"nature_source": {
"script": {
"lang": "painless",
"source": "doc.price.value"
}
},
"test_filed": {
"script": {
"lang": "painless",
//script中可以进行计算 并支持参数
"source": "doc.price.value*params.size",
"params": {
"size": 100
}
}
}
}
}
展示原始价格 和 多个打折价格:
GET product2/_search
{
"script_fields": {
"price": {
"script": {
"lang": "painless",
"source": "doc['price'].value"
}
},
"discount_price": {
"script": {
"lang": "painless",
//之前看返回结果注意到,这里可以返回一个数组(也就是可以返回多个元素内容):
"source": "[doc['price'].value * params.discount_8,doc['price'].value * params.discount_7,doc['price'].value * params.discount_6,doc['price'].value * params.discount_5]",
"params": {
"discount_8": 0.8,
"discount_7": 0.7,
"discount_6": 0.6,
"discount_5": 0.5
}
}
}
}
}
上面的脚本我们可以看到有的地方进行了调用参数params中声明的变量。
ES在首次执行脚本时,会对脚本进行编译(编译行为每分钟默认为15次,比较消耗性能),然后将编译好的内容缓存放入内存(可缓存大小有限制,默认为100M),
没有过期时间 可以手工设置过期时间script.cache.expire 通过script.cache.max_size设置缓存大小 脚本最大64MB 通过script.max_size_in_bytes配置
但如果脚本内容发送修改,缓存失效。但通过传入参数的方式,而后续只改变参数的值,这样在后续执行起来都是非常快的。
也就是说:如果需要将变量传递到脚本中,则应以命名形式传递变量params,而不是将值硬编码到脚本本身中。例如,如果你希望能够将字段值乘以不同的乘数,请不要将乘数硬编码到脚本中
当你有一段脚本逻辑是通用的,你这时候可能想把它抽象成一个模板,让各个地方直接调用,那这个时候就可以用这个,它可以理解为script模板 缓存在集群的cache中,它类似数据库中的存储过程 ,作用域为整个集群
这里以一个折扣计算的脚本为例:
//语法: POST _scripts/名字
POST _scripts/calculate-discount
{
"script": {
"lang": "painless",
"source": "doc['price'].value * params.discount"
}
}
GET _scripts/calculate-discount
DELETE _scripts/calculate-discount
GET product/_search
{
"script_fields": {
"discount_price": {
"script": {
//这里不需要再指定source,而是直接指定对应上面存储了的脚本id名即可
"id":"calculate-discount",
"params": {
"discount": 0.8
}
}
}
}
}
日期字段实际为ZonedDateTime的一个类,因此它们支持诸如此类的方法:getYear,getDayOfWeek 或例如从历元开始到毫秒getMillis。要在脚本中使用它们,请省略get前缀并继续使用小写的方法名其余部分。
getYear() //year
getMonth() //month
getDayOfMonth() //dayOfMonth
getDayOfWeek() //dayOfWeek
getDayOfYear() //dayOfYear
getHour() //hour
getMinute() //minute
getSecond() //second
getNano() //nano
例如获取创建时间所属的年:
GET product/_search
{
"script_fields": {
"test_year": {
"script": {
//对应的就是getYear()
"source": "doc.createtime.value.year"
}
}
}
}
当遇到复杂脚本,可能需要写很多行,这个时候上面的那种单行的写起来就太难受了。。。
实际上,ES是支持多行脚本编写的:
只需要source后面的语句的开头和结尾都是三个引号,在两对三引号之间写下多行内容即可,语句和语句直接使用“;”结尾,和java差不多:
POST product2/_update/1
{
"script": {
"lang": "painless",
"source": """
ctx._source.name += params.name;
ctx._source.price -= 1
""",
"params": {
"name": "无线充电",
"price": "1"
}
}
}
1、部分匹配,如果对应文档的name字段中包含phone,就把它的name字段加上标识符号:
POST product/_update/1
{
"script": {
"lang": "painless",
"source": """
// =~ 部分匹配
if (ctx._source.name =~ /[\s\S]*phone[\s\S]*/) {
//加上标识
ctx._source.name += "***|";
} else {
//啥也不做
ctx.op = "noop";
}
"""
}
}
这里如果没有在elasticsearch.yml文件中设置开启正则,会报错:
script.painless.regex.enabled: true
2、完全匹配,如果日期完全符合正则的要求,也就是日期格式为 类似 2018-12-31 这种的日期才行,然后加上标识符号:
POST product2/_update/1
{
"script": {
"lang": "painless",
"source": """
// ==~ 完全匹配
if (ctx._source.createtime ==~ /[0-9]{4}-[0-9]{2}-[0-9]{2}/) {
ctx._source.name += "|***";
} else {
//啥也不做
ctx.op = "noop";
}
"""
}
}
3、针对price小于1000的文档,进行统计出它们tag元素的总数:
每个文档的结构是这样:
{
“_index” : “product”,
“_type” : “_doc”,
“_id” : “5”,
“_score” : 0.0,
“_source” : {
“name” : “hongmi erji”,
“desc” : “erji zhong de kendeji”,
“price” : 399,
“tags” : [
“lowbee”,
“xuhangduan”,
“zhiliangx”
]
}
}
查询:
GET product/_search
{
"query": {
"bool": {
"filter": [
{
"range": {
"price": {
"lt": 10000
}
}
}
]
}
},
"aggs":{
"tag_count_aggs":{
"sum":{
"script":{
"lang":"painless",
//这里最后的聚合结果,是把每个文档经过这个脚本的结果分别进行累加后得到
"source":"""
int total = 0;
for(int i =0; i<doc['tags.keyword'].length;i++){
total+=i;
}
return total;
"""
}
}
}
}
理解它们之间的区别是很重要的,首先,使用doc关键字,将导致该字段的条件被加载到内存(缓存),这将导致更快的执行,但更多的内存消耗。
此外,doc[…]符号只允许简单类型(不能返回一个复杂类型(JSON对象或者nested类型)),只有在非分析或单个词条的基础上有意义。
但是,doc如果可以使用的情况下(返回非复杂类型),仍然是从文档中进行访问值的推荐方式,因为_source每次使用时都必须加载并解析,因此使用_source非常缓慢。
例子演示:
创建索引:
PUT /test_index2
{
"mappings": {
"properties": {
"ajbh": {
"type": "text",
"fields": {
}
},
"ajmc": {
"type": "text"
},
"lasj": {
"type": "date",
"format": "yyyy/MM/dd HH:mm:ss"
},
"jsbax_sjjh2_xz_ryjbxx_cleaning": {
"properties": {
"XM": {
"type": "text",
"fields":{
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
},
"NL": {
"type": "integer"
},
"SF": {
"type": "keyword"
}
}
}
}
}
}
插入数据:
PUT test_index2/_bulk?refresh
{
"index":{
"_id":1}}
{
"ajbh": "12345","ajmc": "立案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
"XM": "张三","NL": "30","SF": "男"},{
"XM": "李四","NL": "31","SF": "男"},{
"XM": "王五","NL": "30","SF": "女"},{
"XM": "赵六","NL": 23,"SF": "男"}]}
{
"index":{
"_id":2}}
{
"ajbh": "563245","ajmc": "结案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
"XM": "张三2","NL": "30","SF": "男"},{
"XM": "李四2","NL": "31","SF": "男"},{
"XM": "王五2","NL": "30","SF": "女"},{
"XM": "赵六2","NL": 23,"SF": "女"}]}
{
"index":{
"_id":3}}
{
"ajbh": "12345","ajmc": "立案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
"XM": "张三3","NL": "30","SF": "男"},{
"XM": "李四3","NL": "31","SF": "男"},{
"XM": "王五3","NL": "30","SF": "女"},{
"XM": "赵六3","NL": 23,"SF": "男"}]}
从所有文档中统计jsbax_sjjh2_xz_ryjbxx_cleaning中一共出现男性的次数:
GET /test_index2/_search
{
"aggs": {
"sum_gender": {
"sum": {
"script": {
"lang": "painless",
"source": """
int total = 0;
//注意这里写的就是params['_source'],因此返回的是复杂对象
for(int i =0; i< params['_source']['jsbax_sjjh2_xz_ryjbxx_cleaning'].length; i++){
if(params['_source']['jsbax_sjjh2_xz_ryjbxx_cleaning'][i]['SF']=='男'){
total++;
}
}
return total;
"""
}
}
}
}
}
ES除了painless语言 ,其实还支持很多语言,比如expression就是一种特点是快速的自定义排名和排序的语言,这个应用的不是很多,但是某些场景性能可能会更好。
GET product2/_search
{
"script_fields": {
"test_field": {
"script": {
"lang": "expression",
//和painless相比,这里就不用后面跟写“.value”了
"source": "doc['price']"
}
}
}
}
文章浏览阅读1k次。通过使用ajax方法跨域请求是浏览器所不允许的,浏览器出于安全考虑是禁止的。警告信息如下:不过jQuery对跨域问题也有解决方案,使用jsonp的方式解决,方法如下:$.ajax({ async:false, url: 'http://www.mysite.com/demo.do', // 跨域URL ty..._nginx不停的xhr
文章浏览阅读2k次。关于在 Oracle 中配置 extproc 以访问 ST_Geometry,也就是我们所说的 使用空间SQL 的方法,官方文档链接如下。http://desktop.arcgis.com/zh-cn/arcmap/latest/manage-data/gdbs-in-oracle/configure-oracle-extproc.htm其实简单总结一下,主要就分为以下几个步骤。..._extproc
文章浏览阅读1.5w次。linux下没有上面的两个函数,需要使用函数 mbstowcs和wcstombsmbstowcs将多字节编码转换为宽字节编码wcstombs将宽字节编码转换为多字节编码这两个函数,转换过程中受到系统编码类型的影响,需要通过设置来设定转换前和转换后的编码类型。通过函数setlocale进行系统编码的设置。linux下输入命名locale -a查看系统支持的编码_linux c++ gbk->utf8
文章浏览阅读750次。今天准备从生产库向测试库进行数据导入,结果在imp导入的时候遇到“ IMP-00009:导出文件异常结束” 错误,google一下,发现可能有如下原因导致imp的数据太大,没有写buffer和commit两个数据库字符集不同从低版本exp的dmp文件,向高版本imp导出的dmp文件出错传输dmp文件时,文件损坏解决办法:imp时指定..._imp-00009导出文件异常结束
文章浏览阅读143次。当下是一个大数据的时代,各个行业都离不开数据的支持。因此,网络爬虫就应运而生。网络爬虫当下最为火热的是Python,Python开发爬虫相对简单,而且功能库相当完善,力压众多开发语言。本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术。首先在谷歌浏览器打开前程无忧的首页,按F12打开浏览器的开发者工具。浏览器开发者工具是用于捕捉网站的请求信息,通过分析请求信息可以了解请..._初级python程序员能力要求
文章浏览阅读7.6k次,点赞2次,收藏6次。@Service标注的bean,类名:ABDemoService查看源码后发现,原来是经过一个特殊处理:当类的名字是以两个或以上的大写字母开头的话,bean的名字会与类名保持一致public class AnnotationBeanNameGenerator implements BeanNameGenerator { private static final String C..._@service beanname
文章浏览阅读6.9w次,点赞73次,收藏463次。1.前序创建#include<stdio.h>#include<string.h>#include<stdlib.h>#include<malloc.h>#include<iostream>#include<stack>#include<queue>using namespace std;typed_二叉树的建立
文章浏览阅读7.1k次。在Asp.net上使用Excel导出功能,如果文件名出现中文,便会以乱码视之。 解决方法: fileName = HttpUtility.UrlEncode(fileName, System.Text.Encoding.UTF8);_asp.net utf8 导出中文字符乱码
文章浏览阅读2.1k次,点赞4次,收藏23次。第一次实验 词法分析实验报告设计思想词法分析的主要任务是根据文法的词汇表以及对应约定的编码进行一定的识别,找出文件中所有的合法的单词,并给出一定的信息作为最后的结果,用于后续语法分析程序的使用;本实验针对 PL/0 语言 的文法、词汇表编写一个词法分析程序,对于每个单词根据词汇表输出: (单词种类, 单词的值) 二元对。词汇表:种别编码单词符号助记符0beginb..._对pl/0作以下修改扩充。增加单词
文章浏览阅读773次。我在使用adb.exe时遇到了麻烦.我想使用与bash相同的adb.exe shell提示符,所以我决定更改默认的bash二进制文件(当然二进制文件是交叉编译的,一切都很完美)更改bash二进制文件遵循以下顺序> adb remount> adb push bash / system / bin /> adb shell> cd / system / bin> chm..._adb shell mv 权限
文章浏览阅读6.8k次,点赞12次,收藏125次。1. 单目相机标定引言相机标定已经研究多年,标定的算法可以分为基于摄影测量的标定和自标定。其中,应用最为广泛的还是张正友标定法。这是一种简单灵活、高鲁棒性、低成本的相机标定算法。仅需要一台相机和一块平面标定板构建相机标定系统,在标定过程中,相机拍摄多个角度下(至少两个角度,推荐10~20个角度)的标定板图像(相机和标定板都可以移动),即可对相机的内外参数进行标定。下面介绍张氏标定法(以下也这么称呼)的原理。原理相机模型和单应矩阵相机标定,就是对相机的内外参数进行计算的过程,从而得到物体到图像的投影_相机-投影仪标定
文章浏览阅读2.2k次。文章目录Wayland 架构Wayland 渲染Wayland的 硬件支持简 述: 翻译一篇关于和 wayland 有关的技术文章, 其英文标题为Wayland Architecture .Wayland 架构若是想要更好的理解 Wayland 架构及其与 X (X11 or X Window System) 结构;一种很好的方法是将事件从输入设备就开始跟踪, 查看期间所有的屏幕上出现的变化。这就是我们现在对 X 的理解。 内核是从一个输入设备中获取一个事件,并通过 evdev 输入_wayland