尚硅谷Java培训

Hive on Spark调优

视频介绍

本套视频教程是基于Hive on Spark版本的离线数仓调优指南,通过对Yarn配置、Spark配置、Hive SQL中聚合优化、分组优化和并行度优化等方式,结合代码和具体参数详细介绍如何进行离线数仓的调优。

教程特色:
一、真实,采用阿里云服务器,配置拉满;
二、数据体量大,以电商表为模板,单表数据量达160G;
三、调优手段多,从聚合、Join等多方面着手,调优效果明显。

学习前置知识:Hive、Spark、离线数仓。

视频目录 选集

  • 01.课程介绍
  • 02.基础情况说明
  • 03.集群的配置和规划
  • 04.Yarn的配置
  • 05.Spark的配置的说明
  • 06.Spark中Executor的配置
  • 07.Spark中Executor的个数配置
  • 08.Spark中driver的配置
  • 09.Spark配置的案例实操
  • 10.Hive的执行计划
  • 11.启动进程
  • 12.分组聚合优化的原理
  • 13.分组聚合优化的实操
  • 14.Join优化的说明
  • 15.MapJoin的优化实操
  • 16.Sort_Bucket_Join实操
  • 17.数据倾斜的优化说明
  • 18.分组聚合优化的方案
  • 19.分组聚合优化的实操
  • 20.Join倾斜的说明
  • 21.Join倾斜实操1
  • 22.Join倾斜实操2
  • 23.并行度说明
  • 24.Map端并行度的说明
  • 25.Reduce端并行度的说明
  • 26.小文件和其他优化