1、湖仓融合介绍

# 什么是数据湖

## 数据湖理解

- **云厂商**：基于对象存储（如 S3、OSS、OBS 等）构建数据底座，实现统一存储。
- **大数据互联网**：以数据湖三剑客为主——Iceberg、Hudi、Delta Lake。它们支持比 Hive 更高层的 Upsert、Delete、事务操作等高级特性，能基于 Hive 进行升级，解决准实时性的问题。
- **传统用户**：主要以 Hadoop 集群为基础，支持所有结构化、半结构化和无结构化的数据存储。

## 数据湖的优势

1. **更低的存储成本，更高的可靠性**：
   - 使用对象存储相比于本地磁盘、SSD 存储或云盘存储，大幅降低存储成本。
   - 通过编码技术降低副本数据量，同时保证高可靠性，用户无需担心底层数据的丢失，从而获得低成本的存储。
  
2. **更好的 Table format**：
   - 支持 ACID 事务和 Schema evolution，为用户提供更好的表格式。
  
3. **更好的 File format**：
   - 数据湖支持越来越多的半结构化数据类型（如 Map、Struct、Json），并逐渐支持更多的索引，从而提高文件的查询和存储效率。
   - 基于列式存储的基础上，支持更多复杂的嵌套结构。
  
4. **统一的 Catalog**：
   - 通过统一的 Catalog 实现统一的元数据管理、权限管理、统计信息管理和入湖管理等。

---

# 为什么要湖仓融合

1. **数仓加速**：
   - 基于数据湖的远程 IO 成本较高，且缺少一系列数仓加速手段。早期的数据湖格式多样且不成熟，索引支持不完善，查询性能有待提升，主要针对吞吐量的优化，关注低成本和高可靠，不适用于高性能需求。

2. **实时分析**：
   - 传统数据湖实时性不足，虽然在 Iceberg 或 Hudi 的支持下可解决分钟级时效性，但无法满足秒级时效性需求。

3. **高并发查询**：
   - 对于高并发查询，数仓更擅长处理点查和聚合类查询，例如进行分桶处理、精细裁剪，降低扫描的数据量，并通过物化视图或 CUBE 等预聚合手段提升聚合查询性能。

4. **降本增效**：
   - 简化技术架构，增强整体架构的可靠性，降低运维成本。

5. **更完善的数据治理**：
   - 湖仓融合的数据底座统一了主数据和元数据，基于此可以实现上层统一的数据治理。

---

# 数据格式支持

- **文本类型**：
  - 支持 TEXT、CSV 格式，具备高性能导入导出功能，支持指定分隔符（delimiter）、换行符（eol）、编码（encoding）等多种容错处理方式，包括错误表。

- **列存存储格式**：
  - 高性能列式存储格式，适用于大数据环境中的高效存储和查询，支持多种压缩算法和编码方式，兼容多种引擎。
  - **Parquet/ORC**：支持融合查询和复杂类型查询，支持多种压缩算法和多种写出方式。

- **湖格式**：
  - **Hudi** 是一个功能丰富的存储管理平台，支持构建具有增量数据管道的流式数据湖，针对处理引擎和常规批处理进行了优化，针对数据探索和 BI 场景的交互式分析能力进行了优化。
  - 支持 COW（Copy-On-Write）、MOR（Merge-On-Read） 的导入查询和增量同步导入。

- **后续持续扩展**：
  - 支持 Iceberg、Paimon 等格式。

DBLOG

导航1234

最近发表

友情链接