尚硅谷Java培训

Spark

视频介绍

Spark是专为大规模数据处理而设计的分析计算引擎。

技术上,Spark是基于Hadoop MapReduce设计的通用并行框架,拥有其所具备的优点,并采用内存的方式优化了中间计算过程,大幅提高了计算效率,从而使Spark可以更好地应用在数据挖掘与机器学习等迭代式计算场景。

应用上,Spark可以满足大部分的离线数据分析场景和部分的实时数据分析场景,从而使Spark技术框架成为企业大数据离线处理技术的上选。

本套教程基于Spark 3.3版本,使用Java语言,详解了Spark技术生态的三个核心模块:Spark Core核心模块,讲解Spark运行环境,以及分布式数据模型RDD的使用和原理;Spark SQL模块,讲解Spark在结构化数据场景中的使用方式,包括SQL语法、DSL语法、UDF函数、UDAF函数等;Spark Streaming模块,讲解Spark在流式数据处理中的使用方式,包括无界数据流的处理、Kafka系统的对接和数据窗口的应用等。

授课方式上,还是一贯的将图形、文字、源码相结合的保姆式讲解;配套资料上,还是一样的败家式赠送,视频、课件、代码、资料,全部送送送!力求让学习者对分布式计算的原理、框架的使用建立深刻的理解,从而将Spark应用于企业的项目中。
 

视频目录 选集

  • 001.Spark - 课程介绍
  • 002.Spark - 文件结构 - 介绍
  • 003.Spark - 基础概念 - 介绍 - 分布式
  • 004.Spark - 基础概念 - 介绍 - 计算
  • 005.Spark - 基础概念 - 介绍 - 分布式基础架构
  • 006.Spark - 基础概念 - 介绍 - 框架
  • 007.Spark - 基础概念 - 介绍 - Spark和MR的关系
  • 008.Spark - 介绍
  • 009.Spark - 部署方式 - 介绍
  • 010.Spark - 解压后的文件结构
  • 011.Spark - 部署环境 - Local
  • 012.Spark - 部署环境 - Local - 演示
  • 013.Spark - 部署环境 - Yarn - 演示
  • 014.Spark - 部署环境 - Yarn - 历史服务
  • 015.Spark - 部署环境 - Yarn - 2种执行方式Cluster和Client
  • 016.Spark - 部署环境 - 几种模式的对比
  • 017.Spark - 数据结构 - 说明
  • 018.Spark - RDD - 介绍
  • 019.Spark - RDD - 数据处理流程简介
  • 020.Spark - RDD - 计算原理
  • 021.Spark - RDD - 计算原理 - 补充
  • 022.Spark - RDD - 代码 - 环境的准备
  • 023.Spark - RDD - 代码 - 对接内存数据源构建RDD对象
  • 024.Spark - RDD - 代码 - 对接磁盘数据源构建RDD对象
  • 025.Spark - RDD - 代码 - RDD的理解
  • 026.Spark - RDD - 代码 - RDD的分区
  • 027.Spark - RDD - 代码 - 内存数据源 - 分区数量的设定
  • 028.Spark - RDD - 代码 - 磁盘文件数据源 - 分区数量的设定
  • 029.Spark - RDD - 代码 - 内存数据源 - 分区数据的分配
  • 030.Spark - RDD - 代码 - 磁盘文件数据源 - 分区数据的分配
  • 031.Spark - RDD - 代码 - 磁盘文件数据源 - 分区数据的分配 - 演示
  • 032 .Spark - RDD - 课件梳理
  • 033.Spark - RDD - 方法 - 介绍
  • 034.Spark - RDD - 方法 - 方法的2大类 - 转换和行动
  • 035.Spark - RDD - 方法 - 数据处理的2大类 - 单值和键值
  • 036.Spark - RDD - 方法 - 转换 - map
  • 037.Spark - RDD - 方法 - 转换 - map - 1
  • 038.Spark - RDD - 方法 - 转换 - map - 2
  • 039.Spark - RDD - 方法 - 转换 - map - 3
  • 040.Spark - RDD - 方法 - 转换 - map - 4
  • 041.Spark - RDD - 方法 - 转换 - filter
  • 042.Spark - RDD - 方法 - 转换 - flatMap
  • 043.Spark - RDD - 方法 - 转换 - flatMap - 1
  • 044.Spark - RDD - 方法 - 转换 - groupBy
  • 045.Spark - RDD - 回顾 - 原理
  • 046.Spark - RDD - 回顾 - 方法
  • 047.Spark - RDD - Shuffle
  • 048.Spark - RDD - Shuffle - 原理
  • 049.Spark - RDD - Shuffle - 原理 - 补充
  • 050.Spark - RDD - Shuffle - 演示
  • 051.Spark - RDD - 方法 - distinct
  • 052.Spark - RDD - 方法 - sortBy
  • 053.Spark - RDD - 方法 - KV类型数据介绍
  • 054.Spark - RDD - 方法 - KV类型数据补充
  • 055.Spark - RDD - 方法 - KV - mapValues
  • 056.Spark - RDD - 方法 - KV - wordCount
  • 057.Spark - RDD - 方法 - KV - groupByKey
  • 058.Spark - RDD - 方法 - KV - reduceByKey
  • 059.Spark - RDD - 方法 - KV - sortByKey
  • 060.Spark - RDD - 方法 - KV - reduceByKey和groupByKey的区别
  • 061.Spark - RDD - WordCount程序在环境中运行
  • 062.Spark - RDD - 转换方法的回顾
  • 063.Spark - RDD - 行动算子 - 介绍
  • 064.Spark - RDD - 行动算子 - collect
  • 065.Spark - RDD - 行动算子 - collect - 补充
  • 066.Spark - RDD - 行动算子 - 其他方法 - 1
  • 067.Spark - RDD - 行动算子 - 其他方法 - 2
  • 068.Spark - RDD - 行动算子 - 其他方法 - 3
  • 069.Spark - RDD - 行动算子 - Driver端和Executor端数据传输
  • 070.Spark - RDD - 序列化 - 1
  • 071.Spark - RDD - 序列化 - 2
  • 072.Spark - 案例 - 数据格式说明
  • 073.Spark - 案例 - 需求介绍
  • 074.Spark - 案例 - 需求分析
  • 075.Spark - 案例 - 需求设计
  • 076.Spark - 案例 - 开发原则
  • 077.Spark - 案例 - 代码实现 - 1
  • 078.Spark - 案例 - 代码实现 - 2
  • 079.Spark - 案例 - 代码实现 - 3
  • 080.Spark - 案例 - 代码实现 - 4
  • 081.Spark - RDD - KRYO序列化框架
  • 082.Spark - RDD - 依赖关系 - 介绍
  • 083.Spark - RDD - 依赖关系 - 原理
  • 084.Spark - RDD - 依赖关系 - 血缘关系
  • 085.Spark - RDD - 依赖关系 - 依赖关系
  • 086.Spark - RDD - 依赖关系 - 宽窄依赖关系
  • 087.Spark - RDD - 依赖关系 - 作业,阶段和任务的关系
  • 088.Spark - RDD - 依赖关系 - 任务的数量
  • 089.Spark - RDD - 依赖关系 - 分区的数量
  • 090Spark - RDD - 持久化和序列化的关系
  • 091.Spark - RDD - 持久化 - cache
  • 092.Spark - RDD - 持久化 - persist
  • 093.Spark - RDD - 持久化 - checkpoint
  • 094.Spark - RDD - 持久化 - shuffle算子的持久化
  • 095.Spark - RDD - 分区器
  • 096.Spark - RDD - 自定义分区器
  • 097.Spark - 两个案例
  • 098.Spark - 第一个案例问题原因
  • 099.Spark - 广播变量
  • 100.Spark - RDD的局限性
  • 101.SparkSQL - 介绍
  • 102.SparkSQL - 环境对象的封装
  • 103.SparkSQL - 模型对象的封装
  • 104.SparkSQL - SQL的操作
  • 105.SparkSQL - 不同场景下环境对象的转换
  • 106.SparkSQL - 不同场景下模型数据对象的转换
  • 107.SparkSQL - 使用SQL的方式来访问数据模型
  • 108.SparkSQL - 使用DSL的方式来访问数据模型
  • 109.SparkSQL - 自定义udf函数对象
  • 110.SparkSQL - 自定义udf函数的底层实现原理
  • 111.SparkSQL - 自定义udaf函数的底层实现原理
  • 112.SparkSQL - 自定义udaf函数的实现步骤 - 1
  • 113.SparkSQL - 自定义udaf函数的实现步骤 - 2
  • 114.SparkSQL - 自定义udaf函数的实现步骤 - 回顾
  • 115.SparkSQL - 数据源 - CSV
  • 116.SparkSQL - 数据源 - JSON
  • 117.SparkSQL - 数据源 - Parquet
  • 118.SparkSQL - 数据源 - JDBC
  • 119.SparkSQL - 数据源 - Hive
  • 120.SparkSQL - 案例 - 数据准备
  • 121.SparkSQL - 案例 - 数据准备 - 补充
  • 122.SparkSQL - 案例 - 需求分析
  • 123.SparkSQL - 案例 - 需求设计
  • 124.SparkSQL - 案例 - SQL实现 - 1
  • 125.SparkSQL - 案例 - SQL实现 - 2
  • 126.SparkSQL - 案例 - SQL实现 - 3
  • 127.SparkSQL - 案例 - SQL实现 - 4
  • 128.SparkSQL - 案例 - SQL实现 - 5
  • 129.SparkSQL - 案例 - SQL实现 - 6
  • 130.SparkSQL - 案例 - SQL实现 - 7
  • 131.SparkSQL - 案例 - SQL实现 - 8
  • 132.SparkSQL - 案例 - SQL实现 - 9
  • 133.SparkStreaming - 介绍
  • 134.SparkStreaming - 原理
  • 135.SparkStreaming - 原理 - 补充
  • 136.SparkStreaming - 课件梳理
  • 137.SparkStreaming - 环境准备
  • 138.SparkStreaming - 网络(Socket)数据流处理演示
  • 139.SparkStreaming - Kafka数据流处理演示
  • 140.SparkStreaming - DStream方法介绍
  • 141.SparkStreaming - DStream输出方法介绍
  • 142.SparkStreaming - 窗口操作
  • 143.SparkStreaming - 回顾 - 1
  • 144.SparkStreaming - 回顾 - 2
  • 145.SparkStreaming - 关闭 - 1
  • 146.SparkStreaming - 关闭 - 2
  • 147.SparkStreaming - 关闭 - 3
  • 148.Spark - 内核 - 运行流程 - 1
  • 149.Spark - 内核 - 运行流程 - 2
  • 150.Spark - 内核 - 运行流程 - 3
  • 151.Spark - 内核 - 核心对象
  • 152.Spark - 内核 - 核心对象通信流程 - Netty
  • 153.Spark - 内核 - Task任务的调度执行
  • 154.Spark - 内核 - Shuffle底层的实现原理 - 1
  • 155.Spark - 内核 - Shuffle底层的实现原理 - 2
  • 156.Spark - 内核 - 内存管理
  • 157.Spark - 内核 - 内存管理 - 补充