使用 Kibana 查看节点日志信息

Klustron大约 6 分钟

使用 Kibana 查看节点日志信息

前言

Klustron 支持图形化一站式统一查看和检索系统各节点的日志，这比登录每个服务器查看和检索日志文件要便利很多。具体来说，Klustron 通过ElasticSearch的FileBeat收集各节点的日志文件更新，存储到用户独立安装的ElasticSearch集群中，这样就可以通过Kibana 实时查看和检索集群中所有类型的节点，包括clustmgr、nodemgr、存储节点和计算节点的日志。

对于存储节点，除了可以检索错误日志外，还可以查看执行过的SQL语句日志general_log和慢查询日志slow_log；对于计算节点，还可以启动SQL日志，这是计算节点发送给存储节点的所有SQL语句, 启用的方法是set enable_sql_log=on 。不过SQL日志对性能损耗较大而且占据大量磁盘空间。

日志扩展说明

Klustron的每一条日志（包括错误日志，general_log, slow log）在原有内容基础上，还增加了下述3个字段以便把集群所有的计算节点和存储节点打印的日志，关联到每个客户端会话以及每一个SQL语句。其中重要的新增字段包括：

comp_node_id

这是每个计算节点在集群中的唯一的不变的ID。存储节点打印的所有日志都有此字段，以便跟踪这条日志对应哪个计算节点中的客户端连接。

global_conn_id

这是每个计算节点中的会话ID，也是计算节点进程组中处理一个用户连接的工作进程的ID。global_conn_id与comp_node_id一起标识了集群中每一个客户端会话。这两个字段相同的日志，对应的就是同一个会话中的行为。不过要注意的是，一个进程结束后，其进程号有可能被未来启动的进程使用，并且通常不会立刻重用而是经过较长时间（通常至少几个小时）才会回绕。因此，长期运行的Klustron集群的日志中，具有相同的global_conn_id与comp_node_id的日志，未必一定由同一个用户会话中的行为产生。但是在时间上面接近的通常是同一个会话的行为。并且连接断开（即会话结束）也会打印日志，因此仔细辨析可以准确地区分出不同的会话。

cluster_stmt_id

Klustron集群会给每个计算节点的每个连接中执行的每一个语句分配一个从1开始自增的编号，标识此连接中的语句。cluster_stmt_id，global_conn_id与comp_node_id 这3个字段可以唯一标识每个SQL语句。这样可以在日志中看到执行来自客户端的每个SQL语句，集群内各个节点各自的操作和日志。

在日志中可以搜索上述字段名称和值来找到一个特定连接中的系列操作，以及集群相关节点执行一个特定语句的具体操作。

使用Kibana的预备条件

安装 clustmgr、nodemgr、存储节点、计算节点时，需要提前以下两个包:
- wget http://zettatech.tpddns.cn:14000/thirdparty/efk/elasticsearch-7.10.1.tar.gz
- wget http://zettatech.tpddns.cn:14000/thirdparty/efk/kibana-7.10.1.tar.gz
同时，cluster_and_node_mgr.json中增加以下配置，与cluster_manager、node_manager同级。