搜索引擎之ElasticSearch(es)入门学习、ELK 和 beats_essearch 教程-程序员宅基地

技术标签: 学习  java  elasticsearch  后端  搜索引擎  

好记星不如烂笔头,这里记录平时工作中用到的东西,不喜可以留言。

一、ElasticSearch为啥要用

ElasticSearch简称es是一个ElasticSearch是一个分布式,高性能、高可用、可伸缩的搜索和分析系统 。可以当做一个上层数据库来使用和关系数据库和Nosql有一定区别和相似性。其他搜索引擎,Lucene(Es底层)、Apache Solr (底层Lucene)。使用es的几个原因:

  1. 关系型数据库模糊搜索不足索引,会全表扫描非常慢。%关键词%这种搜索会非常慢。主:关系型数据库支持的是%关键词,搜索非常快。
  2. 关系型数据库不支持全文搜索分词
  • eg 我想baidu搜索电影碟中谍-全面瓦解的时候,不小心打错了,打成了全瓦解,es就可以根据分词搜索出来这个电影。
  • eg 企查查网站搜索的时候, 打成了 千穆 上海,es也能搜索出来所有的千穆相关的公司。
  • eg 启信宝,搜索的时候 深圳特斯拉, es能搜索出来 几十个包含 深圳 和 特斯拉 相关的公司

在比如:搜索 上海千穆计算机xxx, 打成了 千穆 上海,es也能搜索出来的。
3. 数据分析、日志分析, PB级别可以毫秒级搜索,自带分析能力
4. mongo不支持restful api, 底层使用BSON放数据,es使用json
5. 看看阿里云上面大数据里面就是 ElasticSearch
6. ELKB是什么?ELK(ElasticSearch, logstash, kibana)技术栈的版本统一,免的给用户带来混乱。kibana是一个可视化的形式工具,用来检索和图形化es。
7. beats 是一个专门的数据采集工具,是 logstash的轻量级版本

数据采集程序:beats
可视化工具:grafana
监控:promethues

引用1:大白话ElasticSearch是什么以及应用场景
引用2:Springboot + ElasticSearch 构建博客检索系统 [慕课网]
引用3:ElasticSearch入门 [慕课网 瓦力]
引用4 ELK和beats ELK和beats

1 Es简单介绍

  • java开发,生产使用es6,jdk8+, 提供统一的restful接口访问能力
  • elasticSearch配套工具,kibana(web界面操作es)、logstash同步中间件 mysql和es数据、elasticsearch head插件 类似kibaba 非官网插件。
  • 关系型数据库和es对比
    Elasticsearch vs MySQL
    Mysql: Select * from user.user_info where name = ‘张三’;
    ES: Get /user/user_info/_searchq=name:张三
    ES7: 重大特点,去掉了Type

2 ES数据同步中间件

  • 数据同步分为两种,全量和后期增量(新增、修改)
  • 同步有:代码层在修改mysql的时候,同步更新es(缺点耦合,模块多很难维护);数据库层利用mysql binlog订阅,把es当做一个客户端; 使用 logstash配置mysql和es数据源并制定表格进行复制,支持多表。
  • logstash-input-jdbc同时同步多个表 https://www.cnblogs.com/xuwenjin/p/8989043.html

3 springboot集成Es

  • springboot增加es starter, 增加es 地址和端口9200

4 es分词插件

  • es默认分词对中文支持非常差,我们一般会安装第三方中文分词插件,比如“我是中国人”,看分词插件如何分词

5 es免费资源课程

二.Es安装

es使用java开发,目前主流5+都可以,目前推荐使用6,最新的已经到7了。java使用java8+

2.1 es单实例安装、kibana安装

elaticsearch官方下载,到Download页面,下载老版本,请在该页面搜索"past releases"。
目前我们使用6.x版本,太新的版本资料和生态(springboot2.0)不完善,我们按照6.8.6版本。
2.1.1 找到下载地址&安装es

官网历史版本下载地址:elasticsearch-6-8-3,当然官网下载慢到死的,下载要么通过香港服务器下载==》下载到本地、或者网上搜索 Elasticsearch 国内镜像下载站

#1: Download and unzip Elasticsearch
# yum list | grep -i elasticsearch # linux centos7 使用,但不推荐,我们自己下载安装把。
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.8.3.zip  #下载zip版本、.tar.gz、.msi等
wget https://elasticsearch.thans.cn/downloads/elasticsearch/elasticsearch-6.8.3.tar.gz # 下载国内地址
# 说明 zip版本、tar.gz版,其实都一样,类似 tomcat, 平台通用的。这里进行解压
unzip elasticsearch-6.8.3.zip #解压zip文件
tar -vxf elasticsearch-6.8.3.tar.gz #解压 tar.gz文件

2: Run bin/elasticsearch (or binelasticsearch.bat on Windows)
3: Run curl http://localhost:9200/ or Invoke-RestMethod http://localhost:9200 with PowerShell,运行之后发现只是一个是json, 可以使用 postman 调用 restful接口。如何判断启动成功:打印 started 并且打印 对外监听端口9200。说明:9300是多个节点nodes之前的通讯接口。
4: 下载kibana进行进行图形界面化操作。kibana版本最好和es一致,至少大版本一致的。
elasticsearch docs guide cn

2.1.2 安装kibana(web应用,图像化操作es)
kibana一个图像化操作工具,是一个web程序。
Elasticsearch是一个基于JSON的分布式搜索和分析引擎。
Kibana可以让您的数据变的有型有样,是一个可扩展的用户界面。

kibana国内下载地址 , elaticsearch国外站点巨慢。下载可以用迅雷,可能快很多。使用5601进行访问。kibana官方下载地址最后推荐使用华为的mirrors ,搜索kibana选择版本进行下载。

# Download and unzip Kibana 
wget https://artifacts.elastic.co/downloads/kibana/kibana-6.8.3-windows-x86_64.zip #windows
wget https://repo.huaweicloud.com/kibana/6.8.3/kibana-6.8.3-darwin-x86_64.tar.gz # mac os 
wget https://repo.huaweicloud.com/kibana/6.8.3/kibana-6.8.3-linux-x86_64.tar.gz # linux 64 

2 Open config/kibana.yml in an editor,Set elasticsearch.hosts to point at your Elasticsearch instance
3 Run bin/kibana (or binkibana.bat on Windows)
4 Point your browser at http://localhost:5601
所有kibana配置看

三.http restful和es进行交互

这里演示用postman 或者 curl 和 elastcisearch进行交互


## 查看索引,所有 索引,增加前缀;工具,直接可以提示 所有的索引
## 查看索引,所有 索引,增加前缀;工具,直接可以提示 所有的索引
##nuc_delivery
#nuc_location
#nuc_person_conn
#nuc_sys_dept
#sys_dict_data
#vfic_vaccinate_process


### 查询关键字,"" 会提示api关键词

#{
#        "_index" : "nuc_positive_person",
#        "_type" : "_doc",
#        "_id" : "1474694263478657024",
#        "_score" : 4.3594446,
#        "_source" : {
#        "person_id" : null,
#        "person_name" : "刘xx",
#        "id_card" : "61272619XX07070010",
#        "person_phone" : "135XXXX8166",
#        "collect_org_name" : "西安市曲江新区新型冠状病毒感染的肺炎疫情防控指挥部",
#        "collect_location_name" : null,
#        "collect_time" : "2021-12-25T08:02:15+08:00",
#        "check_org_name" : "西安金域医学检验所有限公司",
#        "check_time" : "2021-12-25T18:43:07+08:00",
#        "swab_result" : "阳性",
#        "igg_result" : null,
#        "igm_result" : null,
#        "progress" : "0",
#        "create_time" : "2021-12-25T18:51:26+08:00",
#        "audit_time" : null,
#        "audit_user_id" : null,
#        "publish_time" : null,
#        "publish_user_id" : null,
#        "repeal_time" : null,
#        "repeal_user_id" : null,
#        "tube_code" : "-",
#        "collect_limit" : 1,
#        "collect_location_type" : null,
#        "add_time" : null
# }

### 1、查看所有的索引【表】名称
GET /_cat/indices?format=json


### 2、查看集群监控状态
### kibana Dev Tools常用命令 https://www.cnblogs.com/bigfacecat-h/p/14500466.html
GET /_cat/health?format=json

### 3、查看指定索引(表)中的一条数据document(column)详细数据
### 3、 查看索引【nuc_sys_dept】中文档id【id】 = 100的文档
GET nuc_sys_dept/_doc/100


### 4、查看指定所有的总条数
### Elasticsearch查询文档总数 https://www.cnblogs.com/jamh/p/14975903.html
#### 官方文档:https://www.elastic.co/guide/en/elasticsearch/reference/current/cat-count.html
### GET /_cat/count/<target>
### v=true: 是否包含列
### 查看索引[表] 总条数
GET /_cat/count/nuc_positive_person?v=true


### 查看指定文件的的详情数据
GET /nuc_positive_person/_doc/1462095480748158976  

### 按照搜索
### 查询条件
### 2.x 中文(Elasticsearch: 权威指南 ? 基础入门 ? 请求体查询 ? 最重要的查询)(https://www.elastic.co/guide/cn/elasticsearch/guide/current/_most_important_queries.html#_match_all_查询) 
### 7.x 英文 (Elasticsearch Guide [7.16] ? Query DSL ? Full text queries)(https://www.elastic.co/guide/en/elasticsearch/reference/current/full-text-queries.html)  
GET /_cat/count/nuc_positive_person?v=true
{
    "query": {
        "match": {
            "id_card": "610632199010202035"
        }
    }
}


###### 5、查询语句
###### 5.1 query/match 【匹配】
###### id_card 是文档中的字段
GET /nuc_positive_person/_search
{
   "query": {
        "match": {
            "id_card": "610632199010202035"
        }
    }
}

###### 5.2 query/match/(query|fuzziness[中文:模糊性])  【类似like匹配】
### person_name:需要like的字段
### query: person_name的查询条件,如:姓`张`(query)的用户, auto自动模糊fuzziness
GET /nuc_positive_person/_search
{
  "query": {
    "match": {
      "person_name": {
        "query": "军",
        "fuzziness": "auto"
      }
    }
  }
}

###### 5.3 范围(range)查询,日期、数字或字符串字
## https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-query-string-query.html#_ranges
### 范围查询 https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-range-query.html

### 查询 采样上线 collect_limit >= 5 and collect_limit <= 10
# query: 查询, range:执行范围查询
# sort: 指定排序规则
# from: 指定分页start
# from: 指定分页size
# aggs: 聚合函数 
# aggs: avg: 指定字段平均数
# ElasticSearch - 聚合 aggs https://blog.csdn.net/weixin_40341116/article/details/81173016
# ES之五:关于Elasticsearch查找相关的问题汇总(match、match_phrase、query_string和term) https://www.cnblogs.com/duanxz/p/3508338.html 


GET /nuc_positive_person/_search
{
  "query": {
    "range": {
      "collect_limit": {
        "gte": 5,
        "lte": 10,
        "boost": 2.0
      }
    }
  },
  "sort": [
    {
      "collect_time": {
        "order": "desc"
      }
    }
  ],
  "aggs": {
    "my_avg_collect_limit": {
      "avg": {
        "field": "collect_limit"
      }
    }
  }, 
  "from": 0,
  "size": 2
}


###### 5.4 范围(range)查询,日期
## 采样时间:collect_time >gte and <= now
GET  /_cat/count/nuc_positive_person?v=true
{
  "query": {
    "range": {
      "collect_time": {
        "time_zone": "+08:00",        
        "gte": "2021-12-31T00:00:00", 
        "lte": "now"                  
      }
    }
  }
}

############################################################
### 6.核算检测系统,数据量查询
### nuc_person_query #人员信息索引(nuc_person)
### nuc_tube_person 已经废弃xxx
### nuc_tube ## 试管 db(nuc_tube)
### nuc_tube_person_conn_new 

################################################
GET /_cat/count/nuc_tube?v=true
{
  "query": {
    "range": {
      "collect_time": {
        "time_zone": "+08:00",        
        "gte": "2021-12-29T00:00:00+08:00", 
        "lte": "2021-12-31T00:00:00+08:00"                  
      }
    }
  }
}


### 7.聚合查询 - 分组 
## ES 24 - 通过 Elasticsearch 实现聚合检索 (分组统计)
### https://www.cnblogs.com/shoufeng/p/11290669.html

## Elasticsearch 5.4.3 聚合分组  https://www.cnblogs.com/shoufeng/p/11290669.html

### 查询一条信息
GET /vfic_project/_search 
{
    "from": 0,
    "size": 1
}

### 查询总条数
GET /_cat/count/vfic_project?v=true

### field 字段,必须是指定的字段,否则报错。
### 使用 部门进行分组
GET /vfic_project/_search
{
  "from": 0,
  "size": 1, 
  "aggs": {
    "group_by_tags—deptId": {
       "terms": {
             "field": "dept_id"
         }
    }
  }
}


### 8、删除疫苗无效的数据
##ES 16 - 增删改查Elasticsearch中的索引数据 (CRUD) 
## https://www.cnblogs.com/shoufeng/p/10701141.html#4--删除document

GET /_cat/count/vfic_vaccinate_process?v=true  #26558256
GET /_cat/count/vfic_vaccinate_processnew?v=true  #0


GET /vfic_vaccinate_process/_search 
{
   "from": 0,
   "size": 10,
    "query": {
       "match": {
            "person_id_card": "61100220120503XXXX"
        }
    }
}

### 根据文档id进行查询
GET vfic_vaccinate_process/_doc/2186576

## 根据文档document的id 进行删除
## 语法:DELETE index/type/id
DELETE vfic_vaccinate_process/_doc/2043053

  elastic search dev_tools 开发工具 console

1、Elasticsearch: 权威指南 ? 基础入门 ? 请求体查询 ? 最重要的查询
2、Elasticsearch Guide [7.16] ? Query DSL ? Full text queries

  • 1:GET 查看所有的索引

    curl -XGET http://localhost:9200/_all #查询所有的索引

  • 2:PUT 创建一个索引-person

    curl -XPUT http://localhost:9200/person #创建一个索引 person 人类

  • 3:DELETE 删除一个索引

    curl -XDELETE http://localhost:9200/person #删除一个索引

  • 4:PUT 新增数据

    新增一条 userid = 1 的用户

    curl -H “Content-Type: application/json” -XPUT http://localhost:9200/person/_doc/1 -d ‘{“first_name”:“John”,“last_name”:“Smith”,“age”:25,“about”:“I love to go rock climbing”,“interests”:[“sports”,“music”]}’

    json格式化如下

    {
    “first_name”:“John”,
    “last_name”:“Smith”,
    “age”:25,
    “about”:“I love to go rock climbing”,
    “interests”: [“sports”, “music”],
    }

    新版本6.0x, 目前一个索引person【类似一个数据库】,只有一个type【类似一个表】,我们用官网推荐的_doc【目前一个索引里面只有一个type,我们统一用_doc】,或者自定义一个 user 来代表。1:是id=1的数据。

    https://www.cnblogs.com/gshao/p/11010642.html

  • 5:搜索数据

    我们尝试搜索一条数据,搜索 person索引中 默认类型_doc中id=1的数据

    person_id

    curl -XGET http://localhost:9200/person/_doc/1

    person_name (进阶搜索)

    curl -XGET http://localhost:9200/person/_doc/_search?q=first_name:john #_search系统搜索关键词

四.使用Kibana Dev Tools 操作es

这里演示用Kibana 和 elastcisearch进行交互, 其实和直接使用 curl 或者 postman都是一样的。
这里提供了,智能的提示。

Dev Tools

#搜索所有
GET _all 

# 搜索 person, es6.0之后,官方推荐_doc可以不写
GET /person/_doc/1

# 在演示一个【结构化查询】DSL 语句写法
# 这里,我们es6+,只有一个type,直接省略_doc
# 查询语句是json
# query 是查询,全文检索
# book 需要返回bool类型
# 【should】: 应该要做什么,类似sql 【or】
# 【should】变成 【must】: 必须要,类似 sql 【and】
# match 匹配,做具体的字段搜索, 可以是多个匹配条件。
# last_name: 姓名是 Smith, about 爱好是: basketball
# 
POST /person/_search
{
  "query": {
    "bool": {
      "should": [
        {
         "match": {
           "last_name": "Smith"
         }
        },
        {
          "match": {
           "about": "basketball"
         }
        }
      ]
    }
  }
}

其他更多演示,进阶演示,见 【ES】ElasticSearch 结构化查询和过滤

五、数据同步Beats vs Canal

beats: 定时同步
Canal: 实时同步

参加:Canal数据库日志解析消费

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/m0_67393593/article/details/126579199

智能推荐

稀疏编码的数学基础与理论分析-程序员宅基地

文章浏览阅读290次,点赞8次,收藏10次。1.背景介绍稀疏编码是一种用于处理稀疏数据的编码技术,其主要应用于信息传输、存储和处理等领域。稀疏数据是指数据中大部分元素为零或近似于零的数据,例如文本、图像、音频、视频等。稀疏编码的核心思想是将稀疏数据表示为非零元素和它们对应的位置信息,从而减少存储空间和计算复杂度。稀疏编码的研究起源于1990年代,随着大数据时代的到来,稀疏编码技术的应用范围和影响力不断扩大。目前,稀疏编码已经成为计算...

EasyGBS国标流媒体服务器GB28181国标方案安装使用文档-程序员宅基地

文章浏览阅读217次。EasyGBS - GB28181 国标方案安装使用文档下载安装包下载,正式使用需商业授权, 功能一致在线演示在线API架构图EasySIPCMSSIP 中心信令服务, 单节点, 自带一个 Redis Server, 随 EasySIPCMS 自启动, 不需要手动运行EasySIPSMSSIP 流媒体服务, 根..._easygbs-windows-2.6.0-23042316使用文档

【Web】记录巅峰极客2023 BabyURL题目复现——Jackson原生链_原生jackson 反序列化链子-程序员宅基地

文章浏览阅读1.2k次,点赞27次,收藏7次。2023巅峰极客 BabyURL之前AliyunCTF Bypassit I这题考查了这样一条链子:其实就是Jackson的原生反序列化利用今天复现的这题也是大同小异,一起来整一下。_原生jackson 反序列化链子

一文搞懂SpringCloud,详解干货,做好笔记_spring cloud-程序员宅基地

文章浏览阅读734次,点赞9次,收藏7次。微服务架构简单的说就是将单体应用进一步拆分,拆分成更小的服务,每个服务都是一个可以独立运行的项目。这么多小服务,如何管理他们?(服务治理 注册中心[服务注册 发现 剔除])这么多小服务,他们之间如何通讯?这么多小服务,客户端怎么访问他们?(网关)这么多小服务,一旦出现问题了,应该如何自处理?(容错)这么多小服务,一旦出现问题了,应该如何排错?(链路追踪)对于上面的问题,是任何一个微服务设计者都不能绕过去的,因此大部分的微服务产品都针对每一个问题提供了相应的组件来解决它们。_spring cloud

Js实现图片点击切换与轮播-程序员宅基地

文章浏览阅读5.9k次,点赞6次,收藏20次。Js实现图片点击切换与轮播图片点击切换<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title></title> <script type="text/ja..._点击图片进行轮播图切换

tensorflow-gpu版本安装教程(过程详细)_tensorflow gpu版本安装-程序员宅基地

文章浏览阅读10w+次,点赞245次,收藏1.5k次。在开始安装前,如果你的电脑装过tensorflow,请先把他们卸载干净,包括依赖的包(tensorflow-estimator、tensorboard、tensorflow、keras-applications、keras-preprocessing),不然后续安装了tensorflow-gpu可能会出现找不到cuda的问题。cuda、cudnn。..._tensorflow gpu版本安装

随便推点

物联网时代 权限滥用漏洞的攻击及防御-程序员宅基地

文章浏览阅读243次。0x00 简介权限滥用漏洞一般归类于逻辑问题,是指服务端功能开放过多或权限限制不严格,导致攻击者可以通过直接或间接调用的方式达到攻击效果。随着物联网时代的到来,这种漏洞已经屡见不鲜,各种漏洞组合利用也是千奇百怪、五花八门,这里总结漏洞是为了更好地应对和预防,如有不妥之处还请业内人士多多指教。0x01 背景2014年4月,在比特币飞涨的时代某网站曾经..._使用物联网漏洞的使用者

Visual Odometry and Depth Calculation--Epipolar Geometry--Direct Method--PnP_normalized plane coordinates-程序员宅基地

文章浏览阅读786次。A. Epipolar geometry and triangulationThe epipolar geometry mainly adopts the feature point method, such as SIFT, SURF and ORB, etc. to obtain the feature points corresponding to two frames of images. As shown in Figure 1, let the first image be ​ and th_normalized plane coordinates

开放信息抽取(OIE)系统(三)-- 第二代开放信息抽取系统(人工规则, rule-based, 先抽取关系)_语义角色增强的关系抽取-程序员宅基地

文章浏览阅读708次,点赞2次,收藏3次。开放信息抽取(OIE)系统(三)-- 第二代开放信息抽取系统(人工规则, rule-based, 先关系再实体)一.第二代开放信息抽取系统背景​ 第一代开放信息抽取系统(Open Information Extraction, OIE, learning-based, 自学习, 先抽取实体)通常抽取大量冗余信息,为了消除这些冗余信息,诞生了第二代开放信息抽取系统。二.第二代开放信息抽取系统历史第二代开放信息抽取系统着眼于解决第一代系统的三大问题: 大量非信息性提取(即省略关键信息的提取)、_语义角色增强的关系抽取

10个顶尖响应式HTML5网页_html欢迎页面-程序员宅基地

文章浏览阅读1.1w次,点赞6次,收藏51次。快速完成网页设计,10个顶尖响应式HTML5网页模板助你一臂之力为了寻找一个优质的网页模板,网页设计师和开发者往往可能会花上大半天的时间。不过幸运的是,现在的网页设计师和开发人员已经开始共享HTML5,Bootstrap和CSS3中的免费网页模板资源。鉴于网站模板的灵活性和强大的功能,现在广大设计师和开发者对html5网站的实际需求日益增长。为了造福大众,Mockplus的小伙伴整理了2018年最..._html欢迎页面

计算机二级 考试科目,2018全国计算机等级考试调整,一、二级都增加了考试科目...-程序员宅基地

文章浏览阅读282次。原标题:2018全国计算机等级考试调整,一、二级都增加了考试科目全国计算机等级考试将于9月15-17日举行。在备考的最后冲刺阶段,小编为大家整理了今年新公布的全国计算机等级考试调整方案,希望对备考的小伙伴有所帮助,快随小编往下看吧!从2018年3月开始,全国计算机等级考试实施2018版考试大纲,并按新体系开考各个考试级别。具体调整内容如下:一、考试级别及科目1.一级新增“网络安全素质教育”科目(代..._计算机二级增报科目什么意思

conan简单使用_apt install conan-程序员宅基地

文章浏览阅读240次。conan简单使用。_apt install conan