DBLOG
» WTF
Toggle navigation
DBLOG
主页
OCM
1、概览
2、数据导入导出
3、GaussDB(DWS)数据库管理
4、数据库调优与开发实践
5、湖仓一体
6、开发应用
7、集群管理
8、巡检和维运维
About Me
归档
标签
2.、集群监控管理
无
2025-05-22 15:09:07
0
0
0
admin
# 监控系统 ## 节点监控 (1) **性能监控** 实时查询节点的资源使用情况提供了关于当前 GaussDB(DWS) 中所有节点的详细信息,包括: - **概览**:提供节点资源使用的整体视图。 - **资源池监控**: - CPU 使用率 - 内存使用率 - 数据盘的平均资源使用率 - 磁盘 IO - TCP 协议重传率 - 网络 IO - **磁盘分页**:提供细粒度的磁盘使用情况,显示各个磁盘及其对应功能(数据盘、日志盘、系统盘)。 - 磁盘容量 - 读速率 - 写速率 - 磁盘 IO 等待时间 - 磁盘 IO 服务时间 - 磁盘 IOPS 指标 - **网络分页**:显示节点网卡的详细信息,包括名称、网卡状态、接收丢包数、接收速率和发送速率。 节点所有页面都可以通过“监控”列查看过去 1 小时、3 小时、12 小时、24 小时、7 天、15 天的各指标变化趋势。 ## 节点监控 (2) **概览,节点监控**  ## 节点监控 (3)  ## 节点监控视图清单 进入集群的“监控面板”,点击“监控”下的“节点监控”,每个监控项的“监控”列的小图标可查看对应的指标监控视图。  --- ## 性能监控 性能监控提供了集群、数据库和节点三个维度相关指标过去一个月的变化趋势,并提供监控面板供指标集中展示。 - **集群维度的监控指标**: - CPU - 内存 - 磁盘 IO - 网络 IO - 集群状态 - 集群中异常 CN 数量 - SQL 堆积数量 - **数据库维度**: - 活跃会话数 - 插入行数 - 删除行数 - 修改行数 - **节点维度**:提供所有节点相关资源使用情况,并支持对比不同节点的变化趋势。 ## 性能监控 - 集群 性能监控默认面板,GaussDB(DWS) 默认提供的监控面板包含 CPU、内存、磁盘 IO 和网络 IO 的相关监控。  ## 性能监控 - 节点 (1)  ## 性能监控 - 节点 (2) 主机维度数据对比,对于主机相关指标,提供主机维度的对比能力。  ## 性能监控 - 数据库  ## 性能监控视图清单 进入集群的“监控面板”,点击“监控”下的“性能监控”,可查看对应的指标监控视图。  进入集群的“监控面板”,点击“监控”下的“数据库监控”,可查看对应的指标监控视图。  --- ## 实时查询 实时查询提供了当前系统中的会话和 SQL 执行情况,并支持会话和查询的查杀功能。 - **实时会话**:支持查看会话的执行时间、对应的应用名称、接入 CN、锁持有状态和锁定对象,以便排查系统中的长会话或锁争抢问题。 - **资源使用情况**:提供细粒度的查询相关资源使用情况,如 CPU、内存、IO 和查询的排队状态。 - 会话和查询都支持根据某一条件查杀问题会话或查询。 ## 实时查询 - 会话 实时会话可以根据多条件过滤查看当前系统中存在的锁持有的会话,锁争抢时可根据锁定对象快速排查相关的执行 SQL。 - 实时会话主要是根据 `pg_stat_activity` 和 `pg_locks` 信息汇聚上报获取。 - 实时会话默认是启用状态。  ## 实时查询 - 查询 实时查询当前仅支持 8.1.2 以上集群使用,默认不做打开,打开需配置 GUC 参数: - `enable_resource_track` 需要配置为 on。 - `resource_track_cost` 需要根据需要配置,如果配置为 0,对所有语句进行监控。 实时查询主要是根据 `pg_session_wlmstat` 和 `gs_wlm_session_statistics` 信息汇聚上报获取。  ## 资源池监控 资源池监控主要反映集群资源池信息,包括 CPU 使用率、磁盘使用率、内存和语句并发等,可以实时反映集群资源池运行情况。  --- # 监控工具 ## SQL 诊断 (1) SQL 诊断针对已经执行完成的查询中,存在告警信息的 SQL 进行集中展示。主要显示如下几类告警信息以及 SQL 自诊断调优相关告警: - 多列/单列统计信息未收集 - SQL 未下推 - 索引设置不合理 - Hash Join 中大表做内表 - 下盘量过大或过早下盘 - 大表 Broadcast - 代价估算不准确 - 数据倾斜 SQL 诊断对于异常的查询会同步提供 SQL 语句和执行计划,以及语句的资源使用情况。 ## SQL 诊断 (2) **配置名称描述取值范围默认值**: - **监控数据展示**:控制是否开启 FusionInsightManager 数据库监控功能,展示数据监控信息。开/关,默认关。 - **集群资源管理**:GUC 参数 `use_workload_manager`,控制是否开启资源管理功能。开/关,默认开。 - **资源实时监控**:GUC 参数 `enable_resource_track`,控制是否开启资源实时监控功能。开/关,默认开。 - **resource_track_cost**:设置对当前会话的语句进行资源监控的最小执行代价。该参数只有当 `enable_resource_track` 为 on 时才有效,取值范围 0~2147483647,默认值 0。 - **resource_track_level**:设置当前会话的资源监控等级。该参数只有在 `enable_resource_track` 为 on 时才有效,取值为 `query`、`operator`、`none`,默认值 `query`。 - **resource_track_duration**:设置资源监控实时视图中记录的语句执行结束后进行历史信息转存的最小执行时间。取值范围 0~2147483647,默认值 60s。 ## SQL 诊断 (3) **配置名称描述取值范围默认值**: - **instr_unique_sql_count**:unique sql 允许保存的最大行数,该参数在 `enable_resource_track` 为 on 时有效,取值范围 0~2147483647,默认值 0。 - **track_sql_count**:控制对每个会话中当前正在执行的 SELECT、INSERT、UPDATE、DELETE、MERGE INTO 语句进行计数的统计数据。开/关,默认开。 - **topsql_retention_time**:视图 `pgxc_wlm_session_info` 数据老化时间,单位(天)。取值范围 0~3650,默认值 0。 - **enable_resource_record**:是否开启资源监控记录归档功能。开启时,对于历史视图(GS_WLM_SESSION_HISTORY 和 GS_WLM_OPERATOR_HISTORY)中的记录,每隔 3 分钟会被归档到相应的 info 视图(GS_WLM_SESSION_INFO 和 GS_WLM_OPERATOR_INFO)。 ## SQL 诊断 (4) SQL 诊断依赖历史查询功能,默认不打开,打开需要配置 GUC 参数: - `enable_resource_track`,控制是否开启资源实时监控功能,需要配置为 on,默认开启。 - `resource_track_cost`,设置对当前会话的语句进行资源监控的最小执行代价,建议配置为 0,默认为 0。 - `resource_track_duration`,设置资源监控实时视图中记录的语句执行结束后进行历史信息转存的最小执行时间,默认 60s。 - `enable_resource_record`,开启资源监控记录归档功能,需要配置为 on,默认开启。 历史查询功能主要是根据 `PGXC_WLM_SESSION_INFO` 信息采集上报获取。 --- ## SQL 探针 (1) SQL 探针工具,支持一键执行和定时执行探针任务等功能,并可以针对超时的探针 SQL 提供告警上报功能。 - 一键执行/定时执行 SQL 探针 - SQL 执行情况趋势 - 探针 SQL 超过阈值时间支持上报告警  ## SQL 探针界面  --- ## 表诊断 表诊断提供了集群中数据表关键运行状态的统计数据与诊断工具。包括: - **表倾斜率**:监控分析数据表统计信息,展示倾斜率高于 5% 且表大小 TOP 50 的表信息。 - **表脏页率**:监控分析数据表统计信息,展示脏页率高于 50% 且表大小 TOP 50 的表信息。 - **DDL 审核**:对 DDL 元数据进行规范性检测,避免不合理的 DDL 设计影响实际业务运行,为用户提供潜在的表定义问题的预警。 ## 表诊断 - 表倾斜率 造成表倾斜率高的原因通常是不合理的分布列选择,会引发算子计算/数据下盘倾斜,导致不同 DN 的处理压力不同,影响业务性能。用户可通过查询表倾斜率,根据表的大小和倾斜率,对倾斜严重的表重新选择分布列。  ## 表诊断 - 脏页率 对于数据表的 DML 操作会导致存在无用的脏数据,过多的脏数据将占据磁盘空间,影响集群可用容量。用户可通过查询表的脏页率,根据表的大小和脏页率,对较大表和脏页率过高的表进行处理。 - 对于脏页率高的表,可以通过手动执行 `vacuum full` 操作回收表空间,或通过“智能运维”操作定时执行 `vacuum full` 操作。  ## 表诊断 - DDL 审核 DDL 审核对于审核不通过的数据表可以通过详情页面查看问题。当前支持以下审核内容: - 分布键数量 - 索引列数/PCK 列数 - 无效的 PCK 列 - 复制表大小 - Numeric 使用规范性 - 索引列宽度 - 单分布列下倾斜识别 - 分布列规范性 - 序列的缓存个数 - 可优化索引  --- # 监控告警 ## 告警管理 (1) 告警管理包含查看告警规则、告警规则配置与告警信息订阅功能: - 告警规则可以提供过去一周的告警信息统计与告警信息明细,方便用户查看租户下的告警。该特性除了以默认值的形式提供一套 GaussDB(DWS) 的告警最佳实践外,还允许用户根据业务特点个性化修改告警阈值。 - 告警管理通过消息通知服务(SMN)发送 GaussDB(DWS) 告警通知,用户可订阅告警启用通知。 登录 GaussDB(DWS) 管理控制台,在左侧导航栏中单击“告警管理”,进入告警管理页面。 ## 告警管理 (2) **告警管理统计信息**: - 通过柱状图可查看过去 7 天的告警产生情况 - 支持查看当前的告警数量 - 展示告警的具体信息  ## 告警规则 - 配置 告警规则配置支持 11 种告警规则的配置,告警支持启停,且只对部分集群生效,当前告警规则是诊断整个租户的告警规则生效。 - 资源类:CPU、磁盘 inode、磁盘使用率、磁盘 I/O 延迟 - 业务类:语句堆积告警、语句下盘量过大告警、vacuum full 执行过长告警、资源池队列阻塞告警 - 工具类:SQL 探针执行耗时超阈值 ## 告警规则 – 示例图  ## 告警规则 - 修改 可以对告警规则进行修改。  --- ## GaussDB(DWS) 监控系统使用典型场景 (1) - **磁盘使用率高**: - 配置节点数据盘使用率告警,根据实际需要配置阈值。如果发现该告警上报,则进一步排查系统的磁盘使用情况。 - **查看磁盘使用率**: - 登录 GaussDB(DWS) 管理控制台,左侧单击“集群管理”,在集群列表中单击指定集群所在行右侧的“监控面板”进入 DMS 监控界面。 - 选择“监控 > 节点监控 > 磁盘”,单击“磁盘使用率”右侧进行排序,查看当前集群各个节点的磁盘使用率。 ## GaussDB(DWS) 监控系统使用典型场景 (2)  ## GaussDB(DWS) 监控系统使用典型场景 (3) - **磁盘只读问题**: - 当发现数据盘使用率高时,首先查看“工具/表诊断/表脏页率”,对于脏页率较高的表数据,可以通过 `vacuum full` 进行清理。 - 如果清理后仍然存在问题,则需要重新评估当前系统的规格是否符合业务要求。 
上一篇:
1、集群创建与删除
下一篇:
2、GDS
0
赞
1 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网