DBLOG
» WTF
Toggle navigation
DBLOG
主页
OCM
1、概览
2、数据导入导出
3、GaussDB(DWS)数据库管理
4、数据库调优与开发实践
5、湖仓一体
6、开发应用
7、集群管理
8、巡检和维运维
About Me
归档
标签
1、湖仓融合介绍
无
2025-05-22 15:09:04
0
0
0
admin
# 什么是数据湖 ## 数据湖理解 - **云厂商**:基于对象存储(如 S3、OSS、OBS 等)构建数据底座,实现统一存储。 - **大数据互联网**:以数据湖三剑客为主——Iceberg、Hudi、Delta Lake。它们支持比 Hive 更高层的 Upsert、Delete、事务操作等高级特性,能基于 Hive 进行升级,解决准实时性的问题。 - **传统用户**:主要以 Hadoop 集群为基础,支持所有结构化、半结构化和无结构化的数据存储。 ## 数据湖的优势 1. **更低的存储成本,更高的可靠性**: - 使用对象存储相比于本地磁盘、SSD 存储或云盘存储,大幅降低存储成本。 - 通过编码技术降低副本数据量,同时保证高可靠性,用户无需担心底层数据的丢失,从而获得低成本的存储。 2. **更好的 Table format**: - 支持 ACID 事务和 Schema evolution,为用户提供更好的表格式。 3. **更好的 File format**: - 数据湖支持越来越多的半结构化数据类型(如 Map、Struct、Json),并逐渐支持更多的索引,从而提高文件的查询和存储效率。 - 基于列式存储的基础上,支持更多复杂的嵌套结构。 4. **统一的 Catalog**: - 通过统一的 Catalog 实现统一的元数据管理、权限管理、统计信息管理和入湖管理等。 --- # 为什么要湖仓融合 1. **数仓加速**: - 基于数据湖的远程 IO 成本较高,且缺少一系列数仓加速手段。早期的数据湖格式多样且不成熟,索引支持不完善,查询性能有待提升,主要针对吞吐量的优化,关注低成本和高可靠,不适用于高性能需求。 2. **实时分析**: - 传统数据湖实时性不足,虽然在 Iceberg 或 Hudi 的支持下可解决分钟级时效性,但无法满足秒级时效性需求。 3. **高并发查询**: - 对于高并发查询,数仓更擅长处理点查和聚合类查询,例如进行分桶处理、精细裁剪,降低扫描的数据量,并通过物化视图或 CUBE 等预聚合手段提升聚合查询性能。 4. **降本增效**: - 简化技术架构,增强整体架构的可靠性,降低运维成本。 5. **更完善的数据治理**: - 湖仓融合的数据底座统一了主数据和元数据,基于此可以实现上层统一的数据治理。 --- # 数据格式支持 - **文本类型**: - 支持 TEXT、CSV 格式,具备高性能导入导出功能,支持指定分隔符(delimiter)、换行符(eol)、编码(encoding)等多种容错处理方式,包括错误表。 - **列存存储格式**: - 高性能列式存储格式,适用于大数据环境中的高效存储和查询,支持多种压缩算法和编码方式,兼容多种引擎。 - **Parquet/ORC**:支持融合查询和复杂类型查询,支持多种压缩算法和多种写出方式。 - **湖格式**: - **Hudi** 是一个功能丰富的存储管理平台,支持构建具有增量数据管道的流式数据湖,针对处理引擎和常规批处理进行了优化,针对数据探索和 BI 场景的交互式分析能力进行了优化。 - 支持 COW(Copy-On-Write)、MOR(Merge-On-Read) 的导入查询和增量同步导入。 - **后续持续扩展**: - 支持 Iceberg、Paimon 等格式。
上一篇:
1、基本运维动作
下一篇:
1、集群创建与删除
0
赞
1 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网