DBLOG
» WTF
Toggle navigation
DBLOG
主页
OCM
1、概览
2、数据导入导出
3、GaussDB(DWS)数据库管理
4、数据库调优与开发实践
5、湖仓一体
6、开发应用
7、集群管理
8、巡检和维运维
About Me
归档
标签
3、 运维监控
无
2025-05-22 15:09:09
0
0
0
admin
## 华为云Stack DWS 云服务运维架构  ### 华为云Stack DWS 微服务组件 - **Controller**:整个 DWS 的后台组件,负责管理和调度各个服务。 - **Monitor**:ECF 公共组件,主要用于集群实例的状态监控以及告警/事件的上报。 - **Event**:ECF 公共组件,负责事件/告警管理中心,支持向 SMN、OC、CTS 发送事件和告警。 - **ECFAgent**:部署在集群节点上的代理,接收告警和事件,同时监控集群状态。 - **DMSAgent**:部署在集群节点上的代理,负责采集数据库的资源监控信息和数据库所在节点的系统资源信息。 --- # 告警 ## 告警配置 GaussDB(DWS) 提供告警配置功能,用于提前发现集群潜在问题和故障。告警内容涵盖集群故障、资源过载、性能降级等多种故障场景。建议客户根据业务场景配置合理的告警阈值和规则,建议将紧急告警配置为短信和电话通知,以便及时关注集群告警。  --- ## 告警查看 ### (1) 告警管理 在 HCS 运维平台,选择“集中监控” -> “告警管理” -> “当前告警”。左上角的“过滤”可以通过过滤附加信息“CloudService=DWS”,将 DWS 相关告警筛选出来。  ### (2) 告警详情 在 HCS 运维平台,通过点击告警列表中最左边的箭头,进入告警详情界面,查看详细的告警信息。  ### (3) 告警帮助 进入告警详情界面,左侧是告警帮助。点击告警帮助地址,可以跳转到运维帮助中心,根据指导对告警进行进一步处理。  --- ## 告警 SOP 示例:磁盘不可用 ### 告警解释 系统每五分钟检查一次当前主机的磁盘是否可用。只检查数据盘,在对应的挂载目录下执行创建、写入和删除文件的操作。如果能够成功则认为磁盘可用,并发送恢复告警;如果不能成功,则发送故障告警。 ### 处理步骤 1. 检查磁盘挂载目录权限是否正常: - 打开 FusionInsight Manager 页面,在告警列表中,单击此告警所在行的箭头,查看该告警的主机地址和磁盘名称 DiskName。 - 以 root 用户登录告警所在主机。 - 执行命令 `df -h | grep DiskName` 获取对应的挂载点,查看挂载目录的权限,是否存在不可写或不可读。 - 如果是,执行步骤 4。 - 如果否,执行步骤 8。 2. 修改目录权限为合适的目录权限。 3. 等待一小时,查看告警是否恢复: - 如果是,操作结束。 - 如果否,执行步骤 6。 4. 联系硬件工程师,修复磁盘故障。 5. 等待一小时,查看告警是否恢复: - 如果是,操作结束。 - 如果否,执行步骤 8。 6. 收集故障信息: - 在 FusionInsight Manager 界面,选择“运维 > 日志 > 下载”。 - 在“服务”中勾选“NodeAgent”,单击“确定”。 - 设置日志收集的“开始时间”和“结束时间”为告警产生时间的前后 10 分钟,单击“下载”。 - 请联系技术支持人员,并发送已收集的故障日志信息。 ### 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 --- # 监控 ## 监控列表 ### 集群侧监控指标 - 缓存命中率 - 内存中排序比率 - 文件读取次数 - 文件写入次数 - 每秒文件读取次数 - 每秒文件写入次数 - 数据量大小 - 活跃 SQL 数 - 会话数 ### 节点侧监控指标 - CPU 使用率 - 内存使用率 - IOPS - 网络输入吞吐量 - 网络输出吞吐量 - 磁盘利用率 - 磁盘总大小 - 磁盘使用量 - 磁盘读吞吐量 - 磁盘写吞吐量 - 磁盘读耗时 - 磁盘写耗时 - 磁盘平均队列长度 --- ## 监控上报 - 集群侧节点上有定时任务采集,数据仓库服务节点监控信息每隔 1 分钟采集一次,数据仓库整集群监控信息每隔 4 分钟采集一次。 - 监控数据会在目录 `/uploadtocessrc` 下生成 `*.json` 文件,上报成功后将监控文件存放到 `uploadtocesbak` 进行备份,文件备份周期为 2 天。 - 异步的数据 XX 进程会将数据给 CES 服务,OC 运维监控平台从 CES 获取数据进行处理展示。 - 监控主要用于性能问题维护的异步上报监控。 - 当监控指标超过阈值时会上报告警。 - 通过监控趋势提前了解集群是否需要扩容,以及潜在的性能问题风险。 - 当前 DWS 已有的性能监控指标粒度比较粗,无法精确到节点的具体性能指标监控详情;新开发的 DMS 功能将提供更细粒度的监控。 - 后续的监控功能将以新开发的 DMS 为主,进一步完善并丰富 DMS 的监控功能,DWS 在现有性能监控上不会有大的需求改动。 --- ## 监控查看 ### (1) 监控信息查看 在 HCS 运营平台查看,只能查看集群的监控信息。在数据仓库服务的集群列表中,选择一个集群,在“更多”中选择“查看监控指标”,可打开云监控管理平台。  ### (2) 集群监控详情 用户可以查看集群的监控详情。  ### (3) 监控指标时间段调整 集群监控中,点击每个监控指标窗口的右上角的大图模式,可以进入弹出界面,在该界面调整监控指标的时间段。  ### (4) 云资源监控查看 在 HCS 运维平台,可以查看集群和节点的监控信息。在“集中监控”->“资源监控”->“云资源”中,进入数据仓库服务列表。  ### (5) 性能监控界面 点击数据仓库服务列表中任一集群的右侧“性能详情”可进入集群的性能监控界面,节点实例监控界面相同方法进入。 
上一篇:
3、 基于Flink构建实时数仓
下一篇:
3、SQL调优
0
赞
1 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网