尚硅谷Java培训

数据湖Hudi

视频介绍

Apache Hudi是新一代的流式数据湖平台,其将数据库和数据仓库的核心功能直接引入数据湖,并提供了表、事务、高效的增删改、高级索引、流式摄取、数据集群、压缩优化和并发控制等服务。Hudi在任何云平台都能够便携地使用,高级的性能优化可以对接Spark、Flink、Hive等任一款主流查询引擎,并使工作更加高效。

尚硅谷大数据教研团队与Apache Hudi开发团队共同合作,联手推出了本套视频教程。教程延续了尚硅谷一贯风格:保姆式讲解,由浅入深,由点及面,娓娓道来,细致讲解了Hudi的内部架构和核心概念;败家式赠送,视频、代码、笔记、资料……帮助初学者轻松入门,快速上手。

教程还详细讲解了Hudi与三大大数据计算引擎:Spark、Flink和Hive的对接过程,内容包括环境准备、多种对接方式、重点配置参数分析、进阶调优手段讲解等,从入门到精通,可快速投入实际生产使用。

视频目录 选集

  • 01.尚硅谷_数据湖-Hudi课程简介
  • 02.尚硅谷_数据湖-Hudi概述-简介
  • 03.尚硅谷_数据湖-Hudi概述-发展历史&特性
  • 04.尚硅谷_数据湖-Hudi概述-使用场景
  • 05.尚硅谷_数据湖-Hudi编译-版本兼容&Maven安装配置
  • 06.尚硅谷_数据湖-Hudi编译-解决与hadoop3.x的兼容问题
  • 07.尚硅谷_数据湖-Hudi编译-手动安装需要的kafka依赖
  • 08.尚硅谷_数据湖-Hudi编译-解决Spark写入Hudi的兼容性问题
  • 09.尚硅谷_数据湖-Hudi编译-执行编译命令&jar包位置
  • 10.尚硅谷_数据湖-Hudi基本概念-时间轴TimeLine
  • 11.尚硅谷_数据湖-Hudi基本概念-文件布局-存储方式
  • 12.尚硅谷_数据湖-Hudi基本概念-文件布局-文件管理
  • 13.尚硅谷_数据湖-Hudi基本概念-索引-原理
  • 14.尚硅谷_数据湖-Hudi基本概念-索引-索引选项
  • 15.尚硅谷_数据湖-Hudi基本概念-索引-全局索引与非全局索引
  • 16.尚硅谷_数据湖-Hudi基本概念-索引-索引选择策略
  • 17.尚硅谷_数据湖-Hudi基本概念-表类型-COW表
  • 18.尚硅谷_数据湖-Hudi基本概念-表类型-MOR表
  • 19.尚硅谷_数据湖-Hudi基本概念-表类型-两种表的区别
  • 20.尚硅谷_数据湖-Hudi基本概念-查询类型
  • 21.尚硅谷_数据湖-Hudi基本概念-不同表的查询类型
  • 22.尚硅谷_数据湖-Hudi数据写-写操作&Upsert流程
  • 23.尚硅谷_数据湖-Hudi数据写-Insert&Overwrite流程
  • 24.尚硅谷_数据湖-Hudi数据写-Key生成策略&删除策略
  • 25.尚硅谷_数据湖-Hudi数据读与Compaction
  • 26.尚硅谷_数据湖-Hudi集成Spark-环境准备&启动Shell
  • 27.尚硅谷_数据湖-Hudi集成Spark-Shell方式-准备及插入数据
  • 28.尚硅谷_数据湖-Hudi集成Spark-Shell方式-查询数据&文件命名源码
  • 29.尚硅谷_数据湖-Hudi集成Spark-Shell方式-更新数据&时间旅行查询
  • 30.尚硅谷_数据湖-Hudi集成Spark-Shell方式-增量查询&指定时间点查询
  • 31.尚硅谷_数据湖-Hudi集成Spark-Shell方式-删除数据&覆盖数据
  • 32.尚硅谷_数据湖-Hudi集成Spark-SQL方式-环境准备&创建表
  • 33.尚硅谷_数据湖-Hudi集成Spark-SQL方式-插入&查询
  • 34.尚硅谷_数据湖-Hudi集成Spark-SQL方式-更新数据-Update
  • 35.尚硅谷_数据湖-Hudi集成Spark-SQL方式-更新数据-MergeInto
  • 36.尚硅谷_数据湖-Hudi集成Spark-SQL方式-删除&覆盖数据
  • 37.尚硅谷_数据湖-Hudi集成Spark-SQL方式-修改表结构、分区&存储过程
  • 38.尚硅谷_数据湖-Hudi集成Spark-IDEA编码方式
  • 39.尚硅谷_数据湖-Hudi集成Spark-DeltaStreamer-工具介绍
  • 40.尚硅谷_数据湖-Hudi集成Spark-DeltaStreamer-准备Kafka数据&配置文件
  • 41.尚硅谷_数据湖-Hudi集成Spark-DeltaStreamer-执行导入&查询结果
  • 42.尚硅谷_数据湖-Hudi集成Spark-并发控制说明
  • 43.尚硅谷_数据湖-Hudi集成Spark-并发控制-DF写入演示
  • 44.尚硅谷_数据湖-Hudi集成Spark-并发控制-DeltaStreamer写入演示
  • 45.尚硅谷_数据湖-Hudi集成Spark-官方调优指南
  • 46.尚硅谷_数据湖-Hudi集成Flink-环境准备
  • 47.尚硅谷_数据湖-Hudi集成Flink-sql-client-local集群方式
  • 48.尚硅谷_数据湖-Hudi集成Flink-sql-client-yarn-session集群方式
  • 49.尚硅谷_数据湖-Hudi集成Flink-sql-client-插入&查询&更新
  • 50.尚硅谷_数据湖-Hudi集成Flink-sql-client-流式插入
  • 51.尚硅谷_数据湖-Hudi集成Flink-IDEA编码方式-手动安装依赖
  • 52.尚硅谷_数据湖-Hudi集成Flink-IDEA编码方式-提交运行
  • 53.尚硅谷_数据湖-Hudi集成Flink-类型映射
  • 54.尚硅谷_数据湖-Hudi集成Flink-核心参数-去重参数
  • 55.尚硅谷_数据湖-Hudi集成Flink-核心参数-并发参数&Hints用法
  • 56.尚硅谷_数据湖-Hudi集成Flink-核心参数-Compation参数
  • 57.尚硅谷_数据湖-Hudi集成Flink-核心参数-Compation演示&hadoop依赖冲突解决
  • 58.尚硅谷_数据湖-Hudi集成Flink-核心参数-文件大小&Hadoop参数
  • 59.尚硅谷_数据湖-Hudi集成Flink-核心参数-内存参数&优化建议
  • 60.尚硅谷_数据湖-Hudi集成Flink-读取方式-流读&增量读&限流
  • 61.尚硅谷_数据湖-Hudi集成Flink-写入方式-CDC入湖
  • 62.尚硅谷_数据湖-Hudi集成Flink-写入方式-离线批量导入
  • 63.尚硅谷_数据湖-Hudi集成Flink-写入方式-全量接增量
  • 64.尚硅谷_数据湖-Hudi集成Flink-Changelog模式
  • 65.尚硅谷_数据湖-Hudi集成Flink-Clustering&Bucket索引
  • 66.尚硅谷_数据湖-Hudi集成Flink-Hudi Catalog
  • 67.尚硅谷_数据湖-Hudi集成Flink-离线Compaction
  • 68.尚硅谷_数据湖-Hudi集成Flink-离线Clustering
  • 69.尚硅谷_数据湖-Hudi集成Flink-常见基础问题
  • 70.尚硅谷_数据湖-Hudi集成Flink-核心原理简要回顾
  • 71.尚硅谷_数据湖-Hudi集成Hive-集成步骤
  • 72.尚硅谷_数据湖-Hudi集成Hive-Flink同步Hive
  • 73.尚硅谷_数据湖-Hudi集成Hive-Spark同步Hive
  • 74.尚硅谷_数据湖-Hudi集成Hive-使用HiveCatalog&使用Hive自带函数
  • 75.尚硅谷_数据湖-Hudi集成Hive-Hive外表创建&查询方式
  • 76.尚硅谷_数据湖-Hudi集成Hive-hive sync tool使用说明
  • 77.尚硅谷_数据湖-Hudi集成Hive-解决依赖问题&JDBC方式同步
  • 78.尚硅谷_数据湖-Hudi集成Hive-hive同步工具-HMS方式