企业🤖AI Agent构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
[TOC] # logstash * * * * * ### 1. 安装 安装deb就行 安装插件:无论是elasticsearch还是kibana,安装插件都有两种方法:离线,在线命令安装 > 1. 离线下载插件解压后,放到对应的elasticsearch或者kibana的plugins目录下,重启服务即可, > 例如在安装 x-pack,需要在elasticsearch安装,也需要在kibana安装,在kibana用命令安装特别慢,所以用下载好的压缩文件,解压后直接放入/usr/share/kibana/plugins(kibana安装目录)下,重启即可,重启第一次需要登录名密码elastic/changeme ### 2.使用 #### 2.1 filebeat、logstash、elasticsearch 1. 开启服务 ~~~ bin/logstash –f apache.config --config.reload.automatic # --config.reload.automatic:自动读取配置文件,并重启 ~~~ > 如果启动时没有加入自动读取配置文件选项,输入一下命令,发送信号量让logstash读取配置文件,并且重启pipeline(管道) ~~~ kill -1 14175 # 给这个进程id14175,发送信号量 ~~~ 2. 配置logstash文件 ~~~ input { beats { port => "5043" # 指定从filebeat获取数据,并监听5043端口 } } filter { grok { # 将日志按列分开 match => { "message" => "%{COMBINEDAPACHELOG}"} } geoip { # 会根据IP得到这个IP的所在地理位置信息 source => "clientip" } } output { stdout { codec => rubydebug } elasticsearch { # 定义输出到elasticsearch中 hosts => [ "192.168.56.131:9200" ] } } ~~~ 2. 配置filebeat * 安装deb就行 ~~~ vim /etc/filebeat/filebeat.yml # 做以下修改 - input_type: log # Paths that should be crawled and fetched. Glob based paths. paths: - /home/tuna/test/logstash-tutorial-dataset #指定logstash监控的文件 output.logstash: # 监控结果发送到logstash # Array of hosts to connect to. hosts: ["192.168.56.131:5043"] # 指定logstash的地址和规定filebeat监听的端口 ~~~ > 开启filebeat ~~~ sudo ./filebeat -e -c filebeat.yml -d "publish" ~~~ > 如果想要filebeat重新读一遍所监听的文件或者目录需要: > 1. 关闭filebeat > 2. 删除data目录下的registry文件 > 3. 启动filebeat #### 2.2 logstash 直接监控本地文件 * logstash会监控文件的变化,并且把读取文件的位置信息记录在目录 `/usr/share/logstash/data/plugins/inputs/file` 默认记录文件时隐藏的。详细信息在elasticsearch-logstash-inputplugin中找 想要重新读,停止logsstash,并删除file目录下的记录(ll一下,默认是隐藏的),然后在重启logstash ~~~ input { file { path => ["/home/tuna/test/test.txt","/var/log/redis/redis6379.log"] type => "system" start_position => "beginning" } } filter { grok { match => { "message" => "%{COMBINEDAPACHELOG}"} } } output { stdout { codec => rubydebug } elasticsearch { hosts => [ "192.168.56.131:9200" ] } } ~~~ > * 启动 ~~~ ./logstash -f ../conf/filebeat.conf --config.reload.automatic --path.settings /etc/logstash/logstash.yml ~~~ ### 3. input ### 4. filter #### 4.1 grok > * grok 建立在正则表达式上的,所以任何的复合规则的正则表达式在grok中也是可用的。 > * logstash在手机日志数据后,都是一条条的记录,grok可以根据预定义的规则对这些一条条的数据进行切割,形成一个个的类似于键值对,这样利于elasticsearch的收集以及后续的检索和分析。 822/5000 重新使用Grok模式的语法有三种形式:%{SYNTAX:SEMANTIC},%{SYNTAX},%{SYNTAX:SEMANTIC:TYPE}。 > SYNTAX是与文本匹配的模式的名称。 例如,3.44将匹配NUMBER模式,55.3.244.1将被IP模式匹配。 语法是如何匹配的。 NUMBER和IP都是默认模式集中提供的模式。 > SEMANTIC是给匹配文本的标识符。 例如,3.44可以是事件的持续时间,所以你可以简单地称之为持续时间。 此外,字符串55.3.244.1可能会标识发出请求的客户端。 > TYPE是您要投射命名字段的类型。 int和float目前是强制支持的唯一类型。 这些类似于正则匹配的规则都有已经logstash预先定义好的用于切割Nginx,Apached,tomcat的日志,在目录 ~~~ /usr/share/logstash/vendor/bundle/jruby/1.9/gems/logstash-patterns-core-4.1.1/patterns/grok-patterns ~~~ 这是一个分割Apachelog的filter组件,会根据grok-patterns中定义的规则去匹配日志并切分,例如访问用户,ip,浏览器类型 ~~~ filter { grok { match => { "message" => "%{COMBINEDAPACHELOG}"} } } ~~~ 1. nginx logstash自带的grok正则中有Apache的标准日志格式: ~~~ COMMONAPACHELOG %{IPORHOST:clientip} %{HTTPDUSER:ident} %{USER:auth} \[%{HTTPDATE:timestamp}\] "(?:%{WORD:verb} %{NOTSPACE:request}(?: HTTP/%{NUMBER:httpversion})?|%{DATA:rawrequest})" %{NUMBER:response} (?:%{NUMBER:bytes}|-) COMBINEDAPACHELOG %{COMMONAPACHELOG} %{QS:referrer} %{QS:agent} ~~~ * nginx grok结构化规则 ~~~ NGINXLOG %{IP:clientIP}\s*-\s*-\s*\[%{HTTPDATE:timestamp}\]\s*"%{WORD:method}\s*%{URIPATHPARAM:request}\s*HTTP/%{NUMBER:vresion}"\s*(?:%{NUMBER:state}|-)\s*%{NUMBER:size}\s*"-"\s* ~~~ 对于nginx标准日志格式,可以发现只是最后多了一个 $http_x_forwarded_for 变量。则nginx标准日志的grok正则定义为: `MAINNGINXLOG %{COMBINEDAPACHELOG} %{QS:x_forwarded_for}` * logstash收集并且发送给elasticsearch ~~~ input { file { path => ["/var/log/nginx/access.log"] type => "nginx" start_position => "beginning" } } filter { grok { match => {"message"=> "%{NGINXLOG}"} # 这里引用gork预先定义的 } } output { stdout { codec => rubydebug } elasticsearch { hosts => [ "192.168.56.130:9200" ] user => "elastic用户" password => "elasticsearch密码" index => "nginx-%{+YYYY.MM.dd}" } } ~~~ #### 4.2 使用kibana自定义grok匹配规则 * 使用kibana的开发工具,就像java的RegEx工具一样 `%{IP:clientIP} `:IP是预定义的匹配规则,clientIP是匹配后分配的field ~~~ %{IP:clientIP}\s*-\s*-\s*\[%{HTTPDATE:timestamp}\]\s*"%{WORD:method}\s*%{URIPATHPARAM:request}\s*HTTP/%{NUMBER:vresion}"\s*(?:%{NUMBER:state}|-)\s*%{NUMBER:size}\s*"-"\s* ~~~ ![](https://box.kancloud.cn/4876ceb2a2c24c7d3a6b07b152c0315a_1571x605.png) ### 5.output