DBLOG
» WTF
Toggle navigation
DBLOG
主页
OCM
1、概览
2、数据导入导出
3、GaussDB(DWS)数据库管理
4、数据库调优与开发实践
5、湖仓一体
6、开发应用
7、集群管理
8、巡检和维运维
About Me
归档
标签
分类 - 5、湖仓一体
1、湖仓融合介绍
2025-05-22 15:09:04
0
0
0
什么是数据湖 数据湖理解 云厂商:基于对象存储(如 S3、OSS、OBS 等)构建数据底座,实现统一存储。 大数据互联网:以数据湖三剑客为主——Iceberg、Hudi、Delta Lake。它们支持比 Hive 更高层的 Upsert、Delete、事务操作等高级特性,能基于 Hive 进行升级,解决准实时性的问题。 传统用户:主要以 Hadoop 集群为基础,支持所有结构化、半结构化和无结构化的数据存储。 数据湖的优势 更低的存储成本,更高的可靠性: 使用对象存储相比于本地磁盘、SSD 存储或云盘存储,大幅降低存储成本。 通过编码技术降低副本数据量,同时保
2、湖格式——Hudi
2025-05-22 15:09:04
0
0
0
Hudi 简介 Hudi 是一个功能丰富的存储管理平台,支持构建具有增量数据管道的流式数据湖,针对处理引擎和常规批处理进行了优化;针对数据探索、BI 场景的交互式分析能力进行了优化。 Hudi 存储结构 Hudi 表类型 1. COW(Copy On Write) 描述:写入操作时进行复制,每次写入操作都会创建新的 COW 表,并将原表覆盖。COW 表的主要优点在于可以减少内存占用和提高写入性能,适合频繁进行写入操作的场景,例如批量更新、数据批量插入等。 优点: 减少内存占用:每次操作都会创建新的 COW 表,而不是修改原表,可以
3、元数据服务对接
2025-05-22 15:09:04
0
0
0
元数据打通——从湖仓两层架构走向湖仓一体,统一元数据共享数据 元数据打通——统一元数据,简化数据共享 什么是 HiveMetaStore HiveMetaStore 是 Apache Hive 的一个关键组件,是一个元数据存储库,用于管理 Hive/Spark 表的元数据信息。HiveMetaStore 存储了 Hive 表的结构信息,包括表名、列名、数据类型、分区信息等。它还存储了表的位置信息,即表数据存储何处。HiveMetaStore 的主要作用是提供元数据服务,使得 Hive/Spark 可以对数据进行查询和分析。它还提供了一些 API,可以让