尚硅谷Java培训

Hadoop2.x视频教程

视频介绍

Hadoop框架主要用来解决海量数据的存储和分析计算问题。是大数据开发工程师所需技术之一。
课程特点:
1、全程案例贯穿始终,几乎每个知识点都有配套的案例;
2、整个框架深入源码讲解;
3、优化措施来源于企业开发;
本课程中你将学习到,Hadoop完全分布式集群搭建、Hadoop源码编译、HDFS的Shell操作、HDFS的API操作、HDFS的IO流操作、HDFS读写数据流程、NameNode和SecondaryNameNode工作机制、DataNode工作机制、集群节点动态服役和退役、HDFS2.x新特性、MapReduce编程规范、自定义序列化、自定义InputFormat、自定义OutputFormat、分区、排序、合并、分组、ReduceJoin、MapJoin、数据清洗、计数器、TopN案例、倒排索引案例、MapTask工作机制、ReduceTask工作机制、Shuffle工作机制、MapReduce工作流程、Job提交流程源码、MapReduce源码、数据压缩、Yarn工作机制、作业提交流程、YARN资源调度器、MapReduce企业优化、HDFS小文件企业优化、数据倾斜优化等。

视频目录 选集

  • 01.课程简介_大数据课程
  • 02.课程简介_Hadoop课程
  • 03.入门_大数据概念
  • 04.入门_大数据特点(4V)
  • 05.入门_大数据应用场景
  • 06.入门_大数据发展前景
  • 07.入门_大数据部门业务流程分析
  • 08.入门_大数据部门组织结构(重点)
  • 09.是什么
  • 10.发展历史
  • 11.三大发行版本
  • 12.优势(4高)
  • 13.1.x和2.x区别
  • 14.组成
  • 15.大数据技术生态体系
  • 16.推荐系统框架图
  • 17.环境搭建_虚拟机准备
  • 18.环境搭建_JDK安装
  • 19.环境搭建_Hadoop安装
  • 20.环境搭建_Hadoop目录结构
  • 21.环境搭建_Hadoop官网手册
  • 22.本地模式_Grep官方案例
  • 23.本地模式_WordCount官方案例
  • 24.伪分布式_启动HDFS并运行MR程序
  • 25.伪分布式_Log日志查看和NN格式化前强调
  • 26.伪分布式_NameNode格式化注意事项
  • 27.伪分布式_启动YARN并运行MR程序
  • 28.伪分布式_配置历史服务器
  • 29.伪分布式_配置日志聚集
  • 30.伪分布式_配置文件说明
  • 31.完全分布式_虚拟机环境准备
  • 32.完全分布式_scp案例
  • 33.完全分布式_rsync案例
  • 34.完全分布式_集群分发脚本xsync
  • 35.完全分布式_集群配置
  • 36.完全分布式_集群单节点启动
  • 37.完全分布式_集群ssh配置
  • 38.完全分布式_集群群起
  • 39.完全分布式_集群文件存储路径说明
  • 40.完全分布式_集群启动停止方式总结
  • 41.每日回顾
  • 42.完全分布式_RM启动注意事项
  • 43.完全分布式_Crondtab定时任务调度
  • 44.完全分布式_集群时间同步
  • 45.源码编译_意义
  • 46.源码编译_说明
  • 47.源码编译_具体流程
  • 48.HDFS_课程介绍
  • 49.HDFS_产生背景及定义
  • 50.HDFS_优缺点
  • 51.HDFS_组成架构
  • 52.HDFS_块的大小设置
  • 53.HDFS_Shell命令(开发重点)
  • 54.HDFS_副本数设置
  • 55.HDFS_客户端环境准备
  • 56.HDFS_客户端环境测试
  • 57.每日回顾
  • 58.HDFS_文件上传_案例
  • 59.HDFS_参数优先级说明_案例
  • 60.HDFS_文件下载_案例
  • 61.HDFS_文件夹删除_案例
  • 62.HDFS_修改文件的名称_案例
  • 63.HDFS_查看文件的详情_案例
  • 64.HDFS_判断是文件还是文件夹_案例
  • 65.HDFS_文件IO流上传_案例
  • 66.HDFS_文件IO流下载操作_案例
  • 67.HDFS_定位读取文件_案例
  • 68.HDFS_写数据流程(面试重点)
  • 69.HDFS_网络拓扑-节点距离计算
  • 70.HDFS_机架感知-副本存储节点选择
  • 71.HDFS_读数据流程(面试重点)
  • 72.HDFS_NN和2NN工作机制(面试重点)
  • 73.HDFS_Fsimage和Edits解析
  • 74.HDFS_CheckPoint时间设置
  • 75.HDFS_NN故障处理_案例
  • 76.HDFS_安全模式
  • 77.HDFS_集群安全模式_案例
  • 78.HDFS_NN多目录配置_案例
  • 79.每日回顾
  • 80.HDFS_DN工作机制(面试重点)
  • 81.HDFS_数据完整性
  • 82.HDFS_掉线时限参数设置
  • 83.HDFS_服役新节点_案例
  • 84.HDFS_添加白名单_案例
  • 85.HDFS_黑名单退役_案例
  • 86.HDFS_DN多目录配置_案例
  • 87.HDFS新特性_集群间数据拷贝
  • 88.HDFS新特性_小文件归档案例
  • 89.HDFS新特性_回收站案例
  • 90.HDFS新特性_快照管理
  • 91.MapReduce_课程介绍
  • 92.MapReduce_概述
  • 93.MapReduce_优缺点
  • 94.MapReduce_核心思想
  • 95.MapReduce_进程
  • 96.MapReduce_官方案例源码解析和数据类型
  • 97.MapReduce_编程规范
  • 98.MapReduce_WordCount案例分析
  • 99.MapReduce_WordCount案例Mapper
  • 100.MapReduce_WordCount案例Reducer
  • 101.MapReduce_WordCount案例Driver
  • 102.MapReduce_WordCount案例测试
  • 103.MapReduce_WordCount案例Debug调试
  • 104.MapReduce_WordCount案例在集群上运行
  • 105.每日回顾
  • 106.MapReduce_序列化概述
  • 107.MapReduce_序列化自定义步骤
  • 108.MapReduce_序列化案例分析
  • 109.MapReduce_序列化案例FlowBean
  • 110.MapReduce_序列化案例Mapper
  • 111.MapReduce_序列化案例Reducer
  • 112.MapReduce_序列化案例Driver
  • 113.MapReduce_序列化案例Debug调试
  • 114.MapReduce_切片和MapTask并行度决定机制
  • 115.MapReduce_Job提交流程源码解析
  • 116.MapReduce_Job切片机制源码解析
  • 117.MapReduce_FileInputFormat切片机制和配置参数
  • 118.MapReduce_CombineTextInputFormat理论
  • 119.MapReduce_CombineTextInputFormat案例
  • 120.MapReduce_FileInputFormat实现类
  • 121.MapReduce_TextInputFormat实现类
  • 122.每日回顾
  • 123.MapReduce_KeyValueTextInputFormat案例分析
  • 124.MapReduce_KeyValueTextInputFormat案例实现
  • 125.MapReduce_NLineInputFormat案例分析
  • 126.MapReduce_NLineInputFormat案例实现
  • 127.MapReduce_自定义InputFormat步骤
  • 128.MapReduce_自定义InputFormat案例
  • 129.MapReduce_自定义InputFormat案例Debug
  • 130.MapReduce_InputFormat实现类总结
  • 131.MapReduce_工作流程(面试重点)
  • 132.MapReduce_Shuffle机制(面试重点)
  • 133.MapReduce_HashPartition默认分区
  • 134.MapReduce_Partition分区案例
  • 135.MapReduce_Partition分区案例总结
  • 136.每日回顾
  • 137.MapReduce_回顾分区
  • 138.MapReduce_排序概述
  • 139.MapReduce_排序分类
  • 140.MapReduce_全排序案例分析
  • 141.MapReduce_全排序案例FlowBean
  • 142.MapReduce_全排序案例Mapper
  • 143.MapReduce_全排序案例Mapper_已处理
  • 144.MapReduce_全排序案例实现及测试
  • 145.MapReduce_分区排序案例实现及测试
  • 146.MapReduce_Debug调试思想
  • 147.MapReduce_Combiner理论
  • 148.MapReduce_Combiner案例实现
  • 149.MapReduce_分组排序案例分析
  • 150.MapReduce_分组排序案例OrderBean
  • 151.MapReduce_分组排序案例Mapper
  • 152.MapReduce_分组排序案例Driver
  • 153.MapReduce_分组排序案例排序类
  • 154.MapReduce_分组排序案例调试
  • 155.MapReduce_分组排序案例扩展
  • 156.MapReduce_MapTask工作机制(面试重点)
  • 157.MapReduce_ReduceTask工作机制(面试重点)
  • 158.MapReduce_ReduceTask个数设置
  • 159.MapReduce_Shuffle机制(面试重点)
  • 160.MapReduce_工作流程源码分析
  • 161.MapReduce_OutPutFormat接口实现类
  • 162.MapReduce_自定义OutputFormat案例分析
  • 163.MapReduce_自定义OutputFormat案例实现
  • 164.MapReduce_ReduceJoin理论
  • 165.MapReduce_ReduceJoin案例分析
  • 166.MapReduce_ReduceJoin案例TableBean
  • 167.MapReduce_ReduceJoin案例Mapper
  • 168.MapReduce_ReduceJoin案例Reduce
  • 169.MapReduce_ReduceJoin案例Driver
  • 170.MapReduce_ReduceJoin案例Debug和总结
  • 171.MapReduce_MapJoin案例分析
  • 172.MapReduce_MapJoin案例缓存文件处理
  • 173.MapReduce_MapJoin案例测试
  • 174.MapReduce_计数器应用
  • 175.MapReduce_数据清洗案例
  • 176.MapReduce_开发总结
  • 177.压缩_概述
  • 178.压缩_MR支持的压缩编码
  • 179.压缩_方式选择
  • 180.压缩_位置选择
  • 181.压缩_参数设置
  • 182.压缩_Hadoop_压缩案例
  • 183.压缩_解压缩案例
  • 184.压缩_Map和Reduce启用压缩案例
  • 185.YARN_基本架构
  • 186.YARN_工作机制
  • 187.YARN_作业提交全流程
  • 188.YARN_资源调度器
  • 189.YARN_任务推测执行
  • 190.企业调优_MR跑的慢的原因
  • 191.企业调优_MR优化方法
  • 192.企业调优_Hadoop_HDFS小文件处理
  • 193.扩展案例_多Job串联案例分析
  • 194.扩展案例_多Job串联案例第一个Job
  • 195.扩展案例_多Job串联案例完成
  • 196.扩展案例_TopN案例
  • 197.扩展案例_找共同粉丝(学生版1)
  • 198.扩展案例_找共同粉丝(学生版2)
  • 199.总结_企业真实面试题讲解
  • 200.总结_开发重点