分类 ElasticSearch 下的文章

起先,是出于了解我的网站逐步前行STEP的访问情况而做一个Nginx日志统计分析的功能,首选的就是ELK,但是,由于Logstash占用内存和CPU占有率都不是我的小服务器能承受的,转而将logstash换成filebeat,因为filebeat足够轻量级,我所需要的功能却都能满足:

  1. 收集日志发送到ES
  2. 按指定格式解析日志

我的个人博客逐步前行STEP

第1点是filebeat基本的功能,只要正确安装配置就能生效,在我的实践中,我不想要所有的日志都发送到ES,只要访问我的网站的请求,示例请求:

39.179.50.187 - - [05/Feb/2020:16:10:42 +0800] "GET /csdn_article-98609482 HTTP/1.1" 499 0 "http://www.hezehua.net/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"

这是标准的nginx日志格式,其中有一个我的网站逐步前行STEP域名http://www.hezehua.net,所以只要匹配这个域名即是我需要的日志,filebeat的include_lines配置可以满足我的需求,将该配置项设置如下:

include_lines: ["hezehua.net"]

即匹配了包含hezehua.net的行。

我的个人博客逐步前行STEP

要注意的是,第2点需求,只有Elasticsearch5.x才能实现,因为elasticsearch5.x开始引入了Ingest Node,使其具有预处理能力,即对存储在 Elasticsearch 里的数据在存储之前进行加工处理,之前的版本没有提供这一功能,在数据存储前做处理只能依赖于logstash,而官方将预处理功能集成到elasticsearch5.x这个功能就命名为Ingest,具有预处理功能的节点称为Ingest Node,要使用预处理功能,先要了解:Pipeline(管道)、Processors(处理器)。

1、pipeline
管道这个概念并不陌生,一般被命名于设计用来在拦截、处理、输出数据的功能,在这里也是一样,pipeline会用于处理通过它的所有数据,输出后就直接入elasticsearch。

2、processor
处理器是用于管道的,pipeline本身不具备处理能力,需要配置processor才能发挥特定的作用,常用的处理器有:

  • append 追加字段或者已有字段追加值
  • convert 转换字段类型
  • date 日期处理
  • foreach 遍历数组对数组元素使用处理器
  • grok 通过正则匹配将文本解析成指定格式
  • join 将数组转化成字符串
  • json 处理成json
  • kv 将k:v型数据解析成一个个字段
  • remove 删除字段
  • rename 重命名
  • set 设置或者新增
  • split 分割字符串
  • sort 数组元素排序
  • trim 消除两端空格
  • lowercase 转小写
  • uppercase 转大写

以上列举的处理器主要是数组、字符串的常用处理,加上字段增、减等,其中最重要的Grok处理器,这个处理器基本可以替代logstash处理日志格式的功能,语法和logstash一样。

要使用elasticsearch的预处理功能,首先需要在es中创建管道,指定的URL为:_ingest/pipelinePUT方式:

curl XPUT http://127.0.0.1:9200/_ingest/pipeline/pipeline-test

{
    "description": "describe pipeline",
    "processors": [
        {
            "grok": {
                "field": "message",
                "patterns": [
                    "%{IP:ip} - %{DATA:user} \\[%{HTTPDATE:date}\\] %{WORD:method} %{DATA:path} (?<http>HTTP/%{NUMBER}) %{NUMBER:code} %{NUMBER:length} %{DATA:referer} %{DATA:user_agent} %{DATA:x_forwarded_for}"
                ]
            }
        }
    ]
}

description字段是一个描述,processors定义了一组应用于该管道的处理器,这样就定义好了一个简单的pipeline了。

我的个人博客逐步前行STEP

将filebeat.yml中,output.elasticsearch下的配置项pipeline设置为上面新建的管道'pipeline-test'即可:

output.elasticsearch:
  # Array of hosts to connect to.
  hosts: ["localhost:9200"]
  pipeline: "pipeline-test"

最后,删除registry文件,和filebeat之前生成的索引,再启动filebeat,就可以在es中看到解析成指定字段的日志文档了:

{
    _index: "filebeat-2020.02.04",
    _type: "doc",
    _id: "AXAQe35OpxWsiKaUFgtz",
    _score: 1,
    _source: {
        date: "04/Feb/2020:21:53:54 +0800",
        referer: "http://www.hezehua.net/",
        code: "200",
        offset: 437,
        method: "GET",
        ip: "39.179.50.187",
        input_type: "log",
        length: "169909",
        source: "/usr/logs/blog.access.log",
        message: "39.179.50.187 - - [04/Feb/2020:21:53:54 +0800] "GET /favicon.ico HTTP/1.1" 200 169909 "http://www.hezehua.net/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"",
        type: "log",
        path: "/favicon.ico",
        @timestamp: "2020-02-04T13:54:48.214Z",
        beat: {
            hostname: "novalocal",
            name: "novalocal",
            version: "5.5.3"
        },
        http: "HTTP/1.1",
        user-agent: "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
    }
},

我的个人博客逐步前行STEP

我的个人博客:逐步前行STEP

搜索引擎结构

文本预处理

分词

    文本分词一般是先将文本分成独立的单词,然后取出标点符号,去除停止词,停止词就是一些使用频率高但是没有实际意义的词,比如:a、an、the、are等等

语言处理

对于英文来说,先是统一大小写,再对单词进行缩减,缩减过程主要有两种,一种是词干提取,即抽取词的词干或者词根,如:tional 缩减为 tion (去除形容词后缀)二是词形还原,即把词汇还原成一般形式,如:books 缩减为 book。

建立索引

经过文本预处理之后,得到的结果为词(Term),将得到的词创建成字典,然后对字典按字母顺序排序,最后合并相同的词,形成文档倒排表(Posting List),因为这个表中,是根据词来查找文档的,所以称为文档倒排表或者倒排索引。

搜索

根据用户的输入,进行词法分析、语法分析、语言处理然后从文档倒排表中获取结果,为了将最相关的结果显示在最前面,需要对搜索结果做相关性排序。

相关性排序

把查询语句也视为一个文档,查询语句与文档的相关性就转变成了文档之间的相关性问你题,而一个文档中的每个词对于表达一个主题的重要性不一样,不同权重的词共同表达了这个主题。
有两个元素会影响一个词在文档中的重要性:一是词频率(Term Frequency,tf),表示一个词在此文档中出现的次数,它的值越大说明这个词越重要;二是文档频率(Document Frequency,df),表示多少文档中包含这个词,它的值越大,说明这个词越不重要。

以下公式用于计算一个词的权重:
在这里插入图片描述

而衡量两个文档相似度可以将两个文档当成向量,向量夹角越小越靠近,也就是说文档向量夹角越小,相似度越高,即相关性可以用以下公式来描述:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20191217004018414.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2hoaHp1YQ==,size_16,color_FFFFFF,t_70)

我的个人博客:逐步前行STEP

1、搜索 数组字段 tags 中同时存在元素 str_astr_b

{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "tags": "str_a"
          }
        },
        {
          "term": {
            "tags": "str_b"
          }
        }
      ]
    }
  }
}

2、搜索 数组字段 tags 中存在元素 str_astr_b

{
  "query": {
    "bool": {
      "filter": [
        {
          "terms": {
            "tags": [
              "str_a",
              "str_b"
            ]
          }
        }
      ]
    }
  }
}

我的个人博客:逐步前行STEP

Es 实现类似于mysql的模糊搜索:
比如:对字段 keywords 进行 模糊搜索 带“愉”字的文档:

{
  "query": {
    "bool": {
      "filter": [
        {
          "wildcard": {
            "keywords": "*愉*"
          }
        }
      ]
    }
  }
}

注:

    1、当搜索字段是text类型时:由于它会分词,在执行wildcard、regexp、prefix时和es会检查字段中的每个词条,而不是整个字段。
    2、当搜索字段是keyword类型时:在执行wildcard、regexp、prefix时和es会检查字段中整个文本。
    3、适用于 数组字段

我的个人博客:逐步前行STEP

首先,es不支持直接更改mappinng,所以,更改 mapping 实质上是重建索引。
操作步骤如下:
1、为当前这个索引old_index设置一个别名my_index

curl -XPOST localhost:9200/_aliases -d '  
{  
    "actions": [  
        { "add": {  
            "alias": "my_index",  
            "index": "old_index"  
        }}  
    ]  
}  '

2、通过别名my_inndex访问索引old_index
3、重建一个新的索引new_index,在此时使用需要的字段属性;

curl -XPUT localhost:9200/new_index
{
    "mappings": {
        "doc": {
            "properties": {
                "id": {
                    "type": "long"
                },
                "user_id": {
                    "type": "long"
                }
            }
        }
    },
    "settings": {
        "index": {
            "number_of_shards": "5",
            "number_of_replicas": "1"
        }
    }
}

4、迁移旧的索引old_index数据到新的索引new_index上;

curl -XPOST localhost:9200/_reindex
{
    "source":{
        "index":"old_index"
    },
    "dest":{
        "index":"new_index"
    }
}

5、为索引new_index设置一个别名为my_index ,同时删除该别名对旧索引old_index的指向:

curl -XPOST localhost:9200/_aliases -d '  
{  
    "actions": [  
        { "remove": {  
            "alias": "my_index",  
            "index": "old_index"  
        }},  
        { "add": {  
            "alias": "my_index",  
            "index": "new_index"  
        }}  
    ]  
}  '

6、删除索引old_index

curl -XDELETE localhost:9200/old_index