尚硅谷Java培训

在线教育项目

视频介绍

尚硅谷经过长期的精心打磨,仔细推演,隆重推出在线教育大数据项目!本套教程堪称在线教育行业大数据处理领域的重磅之作,项目借助真实在线教育行业的海量业务数据和用户日志数据,构建了完整的数据采集、分析、处理、展示通道,严格遵循主流数据仓库建模理论,搭建了高效率、高组织性、高可实施性的数仓架构体系。

教程共分三大部分:采集系统、离线数仓、实时数仓。项目拥有完善的离线指标体系和实时指标体系,各指标体系均进行了完整的指标拆解与分析,形成了庞大的指标网络。涵盖40多个Shell脚本,5大类用户行为日志数据,30多张业务数据原始表格,100多张数仓分层表,分析展示了上百个离线指标、几十个实时指标。

项目采用MaxWell和DataX作为数据采集工具,灵活设计数据采集策略,将采集来的数据同时服务于离线数仓和实时数仓。结合阿里巴巴成熟的数仓构建实践,总结出一套数仓建模理论体系,并梳理出通用的数仓建模步骤。分别使用Hive和Flink构建离线数仓和实时数仓,采用了流行的任务流调度系统DolphinScheduler。

还是尚硅谷一贯的风格,保姆式讲解,败家式赠送,项目以细致入微的教学方式,手把手带你轻松掌握在线教育大数据处理的要领,更好地应对行业挑战和变革!

视频目录 选集

  • 001.项目概述
  • 002.项目立项-项目概述
  • 003.项目立项-项目技术方案
  • 004.项目立项-项目计划及预算
  • 005.数仓概念-数仓简介
  • 006.数仓概念-数据分类
  • 007.数仓概念-数仓总体介绍
  • 008.数仓概念-数仓配套设施
  • 009.数仓概念-项目需求分析
  • 010.数仓概念-技术选型
  • 011.数仓概念-系统数据流程
  • 012.数仓概念-框架版本的选择
  • 013.数仓概念-服务器选型
  • 014.数仓概念-集群规模
  • 015.数仓概念-集群资源规划
  • 016.用户行为数据模拟-埋点日志格式
  • 017.用户行为数据模拟-埋点简介
  • 018.用户行为数据模拟-阿里云准备(备选)
  • 019.用户行为数据模拟-虚拟机环境准备
  • 020.用户行为数据模拟-克隆三台服务器
  • 021.用户行为数据模拟-集群同步脚本
  • 022.用户行为数据模拟-免密登录配置
  • 023.用户行为数据模拟-安装JDK
  • 024.用户行为数据模拟-Linux环境变量说明
  • 025.用户行为数据模拟-模拟数据
  • 026.用户行为数据模拟-模拟数据启停脚本
  • 027.用户行为数据采集-hadoop安装
  • 028.用户行为数据采集-2NN的Bug解决
  • 029.用户行为数据采集-Hadoop项目经验
  • 030.用户行为数据采集-Kafka安装
  • 031.用户行为数据采集-Zookeeper安装
  • 032.用户行为数据采集-Flume安装
  • 033.用户行为数据采集-采集Flume配置
  • 034.用户行为数据采集-采集Flume拦截器配置
  • 035.用户行为数据采集-采集Flume启停脚本
  • 036.用户行为数据采集-采集Flume配置
  • 037.离线数仓数据同步-用户行为数据同步flume小文件和数据漂移问题分析
  • 038.离线数仓数据同步-用户行为数据同步flume小文件和数据漂移问题解决
  • 039.离线数仓数据同步-用户行为数据同步flume启停脚本
  • 040.业务数据采集-在线教育业务简介
  • 041.业务数据采集-EZDML建模工具
  • 042.离线数仓数据同步-业务数据同步策略
  • 043.业务数据采集-DataX简介
  • 044.业务数据采集-DataX部署
  • 045.业务数据采集-同步MySQL数据到HDFS(案例一)
  • 046.业务数据采集-同步MySQL数据到HDFS(案例二)
  • 047.业务数据采集-DataX传参
  • 048.业务数据采集-同步HDFS数据到MySQL
  • 049.业务数据采集-SplitPK切割原理
  • 050.业务数据采集-DataX的HdfsWriter的Null值存储问题
  • 051.业务数据采集-DataX参数调优
  • 052.业务数据采集-Maxwell简介
  • 053.业务数据采集-Maxwell原理
  • 054.业务数据采集-启用MySQL Binlog
  • 055.业务数据采集-创建Maxwell所需数据库和用户
  • 056.业务数据采集-配置Maxwell
  • 057.业务数据采集-Maxwell启停脚本
  • 058.业务数据采集-Maxwell全量同步
  • 059.业务数据采集-全量同步通道
  • 060.业务数据采集-全量同步流程分析
  • 061.业务数据采集-全量同步一键生成JSON模板
  • 062.业务数据采集-全量同步一键生成JSON测试
  • 063.业务数据采集-全量同步一键生成所有JSON文件的脚本
  • 064.业务数据采集-全量表数据同步脚本
  • 065.业务数据采集-增量同步通道
  • 066.业务数据采集-增量同步Maxwell配置
  • 067.业务数据采集-增量同步Flume配置
  • 068.业务数据采集-增量同步Flume拦截器配置
  • 069.业务数据采集-增量同步Flume测试
  • 070.业务数据采集-增量同步Maxwell时间戳问题
  • 071.业务数据采集-增量同步Flume启停脚本
  • 072.业务数据采集-增量同步首日全量同步
  • 073.数仓环境准备-Hive安装
  • 074.在线教育离线数仓项目课程介绍
  • 075.离线数仓模块内容介绍
  • 076.数据仓库搭建的意义
  • 077.数仓核心架构介绍
  • 078.数仓建模ER模型提出
  • 079.数仓建模第一范式
  • 080.数仓建模第二范式
  • 081.数仓建模第三范式
  • 082.ER模型在mysql业务表中的具体应用
  • 083.维度模型概念介绍
  • 084.事务型事实表的设计流程
  • 085.周期型快照和累积型快照事实表介绍
  • 086.维度表设计流程
  • 087.维度表设计的规范化和反规范化
  • 088.维度表设计维度变化
  • 089.维度表的多值维度问题
  • 090.维度表的多值维度解决方案
  • 091.数仓设计之分层计算
  • 092.数仓设计之构建的整体流程
  • 093.数仓设计之数据调研
  • 094.数仓设计之明确数据域
  • 095.数仓设计之构建业务总线矩阵
  • 096.数仓设计之结合事实表流程构建
  • 097.数仓设计之汇总模型设计
  • 098.数仓环境搭建_部署spark引擎
  • 099.数仓环境搭建spark引擎使用展示
  • 100.数仓环境搭建AM资源比例调节
  • 101.数仓环境搭建_开发环境介绍
  • 102.模拟数据生成_业务数据全量表采集
  • 103.模拟数据生成_业务数据增量表采集
  • 104.模拟数据生成_用户行为日志采集
  • 105.ods_使用get_json_object处理json格式数据
  • 106.ods_使用serde处理json数据
  • 107.ods_用户行为日志的创建和导入
  • 108.ods_日志表使用方法介绍
  • 109.ods_业务表全量表格导入展示
  • 110.ods_业务表增量表导入展示
  • 111.ods_脚本完成所有表格数据装载
  • 112.dim_章节维度表
  • 113.dim_课程维度表
  • 114.dim_视频维度表
  • 115.dim_试卷表
  • 116.dim_来源
  • 问题和地区维度表
  • 117.dim_时间维度表
  • 118.dim_用户拉链表介绍
  • 119.dim_用户拉链表首日装载
  • 120.dim_用户拉链表每日装载
  • 121.dim_脚本装载
  • 122.dwd_加购事务事实表
  • 123.dwd_加购周期快照事实表
  • 124.dwd_试听下单累积快照事实表分析介绍
  • 125.dwd_试听下单首日数据过滤判断
  • 126.dwd_试听下单首日数据装载
  • 127.dwd_试听下单每日装载数据
  • 128.dwd_下单事务事实表首日装载
  • 129.dwd_下单事务事实表每日装载
  • 130.dwd_支付成功事务事实表
  • 131.dwd_支付成功事实表每日装载
  • 132.dwd_页面浏览事实表
  • 133.dwd_启动日志事实表
  • 134.dwd_动作曝光和错误事实表
  • 135.dwd_收藏事务事实表
  • 136.dwd_章节评价表和课程评价表
  • 137.dwd_考试域表格装载
  • 138.dwd_学习域周期快照事实表首日装载
  • 139.dwd_学习域周期快照每日装载
  • 140.dwd_学习播放表装载
  • 141.dwd_用户注册事务事实表
  • 142.dwd_用户登录事实表
  • 143.dwd_脚本装载介绍
  • 144.dws_分层介绍
  • 145.dws_交易域加购和支付最近1日汇总表
  • 146.dws_交易域会话粒度最近1日汇总表
  • 147.dws_考试域试卷粒度最近1日汇总表
  • 148.dws_考试域区间粒度汇总表
  • 149.dws_试域题目粒度考试汇总表
  • 150.dws_会话粒度最近1日汇总表
  • 151.dws_最近1日脚本装载
  • 152.dws_最近n天加购和支付汇总表
  • 153.dws_最近n天考试试卷粒度汇总表
  • 154.dws_最近n天考试域试卷和题目汇总表
  • 155.dws_最近n天表格导入
  • 156.dws_用户下单至今汇总表
  • 157.dws_用户支付至今汇总表
  • 158.dws_登录历史至今汇总表
  • 159.dws_历史至今表格脚本装载
  • 160.ads_流量域各渠道流量统计
  • 161.ads_流量域_路径分析表格
  • 162.ads_各来源下单统计
  • 163.ads_用户变动统计
  • 164.ads_用户留存统计
  • 165.ads_用户新增活跃统计
  • 166.ads_漏斗分析
  • 167.ads_新增交易用户统计
  • 168.ads_各年龄段下单统计
  • 169.ads_各学科各课程交易统计
  • 170.ads_各课程交易统计
  • 171.ads_各课程评价统计
  • 172.ads_各分类课程留存率
  • 173.ads_各学科各课程试听留存率
  • 174.ads_交易主题统计
  • 175.ads_各试卷指标统计
  • 176.ads_各课程考试指标
  • 177.ads_各试卷成绩分布
  • 178.ads_各题目正确率统计
  • 179.ads_各章节播放次数
  • 180.ads_各课程播放统计
  • 181.ads_各课程完课人数统计
  • 182.ads_完课指标统计
  • 183.ads_各课程人均完成章节数
  • 184.ads_脚本数据装载
  • 185.数据导出datax演示
  • 186.datax脚本导出数据
  • 187.海豚调度器简介及核心架构
  • 188.海豚调度器的安装部署
  • 189.海豚调度器安全中心配置
  • 190.海豚调度器任务执行演示
  • 191.海豚调度器工作流传参
  • 192.海豚调度器添加资源及告警演示
  • 193.调度数仓准备数据
  • 194.完成数仓调度
  • 195.在线教育数仓开发回顾
  • 196.superset环境部署
  • 197.superset的安装部署和启动
  • 198.superset脚本启动停止
  • 199.superset添加数据展示表格中国地图(1)
  • 200.superset桑基图和柱状图展示
  • 201.superset仪表盘编辑
  • 202.在线教育离线数仓课程回顾
  • 203.在线教育实时数仓课程介绍
  • 204.实时数仓整体架构介绍
  • 205.实时数仓分层具体介绍
  • 206.实时数仓建模理论
  • 207.数仓设计理念
  • 208.数仓开发idea准备
  • 209.flink的集群部署
  • 210.hbase的安装部署
  • 211.hbase的高可用及phoenix的安装
  • 212.idea添加hbase设置
  • 213.redis的安装部署
  • 214.修改redis提供外部访问
  • 215.clickhouse安装部署
  • 216.模拟数据生成展示
  • 217.dim_需求流程分析
  • 218.dim_flinkCDC介绍及配置表创建
  • 219.dim_创建flink环境及设置状态后端
  • 220.dim_读取kafka主流数据
  • 221.dim_对kafka主流数据进行清洗转换
  • 222.dim_使用flinkCDC读取配置表数据
  • 223.dim_连接两个数据流确认处理方法
  • 224.dim_处理连接流格式及流程
  • 225.dim_初始化方法解决数据丢失问题
  • 226.dim_处理配置表数据
  • 227.dim_检查phoenix创建维度表
  • 228.dim_执行建表语句
  • 229.dim_配置流方法测试创建表格
  • 230.dim_处理主流数据
  • 231.dim_写出到phoenix
  • 232.dim_测试数据及总结
  • 233.dwd_日志数据预处理
  • 234.dwd_日志预处理过滤清洗数据
  • 235.dwd_脏数据写出到kafka
  • 236.dwd_新旧访客修改逻辑介绍
  • 237.dwd_新旧访客修复代码编写
  • 238.dwd_日志数据分流
  • 239.dwd_日志预处理输出到kafka及演示
  • 240.dwd_独立访客需求分析
  • 241.dwd_独立访客代码编写
  • 242.dwd_独立访客运行测试以及kafka生产者事务bug介绍
  • 243.dwd_跳出数据需求介绍
  • 244.dwd_跳出数据读取和转换
  • 245.dwd_使用flinkCEP提取跳出数据
  • 246.dwd_跳出数据运行演示
  • 247.dwd_播放事务事实表的需求分析
  • 248.dwd_播放事务事实表数据预处理
  • 249.dwd_播放事务事实表聚合日志
  • 250.dwd_播放事务事实表运行测试
  • 251.dwd_用户登录事务事实表
  • 252.dwd_登录事务事实表数据处理
  • 253.dwd_登录事务事实表状态修改会话第一条数据
  • 254.dwd_登录事务事实表演示
  • 255.dwd_注册事务事实表需求分析
  • 256.dwd_使用flinkSQL读取kafka数据
  • 257.dwd_使用flinkSQL过滤两张表格信息
  • 258.dwd_注册事实表合并两张表
  • 259.dwd_用户注册事实表测试
  • 260.dwd_下单事务事实表需求分析
  • 261.dwd_下单事务读取表格数据
  • 262.dwd_下单事务事实表关联表格运行写出数据
  • 263.dwd_支付成功事务事实表需求分析
  • 264.dwd_支付成功事务事实表代码编写及测试
  • 265.dwd_事实表基础表格动态分流
  • 266.dwd_过滤事实表基础表格
  • 267.dwd_事实表基础表格写出到不同的kafka主题演示
  • 268.dws_关键词粒度汇总需求介绍
  • 269.dws_IK拆词工具类设计
  • 270.dws_关键词过滤及拆分
  • 271.dws_关键词过滤拆词数据测试
  • 272.dws_关键词统计分组开窗聚合计算
  • 273.dws_关键词数据写出到kafka演示
  • 274.dws_关键词数据使用注解跳过字段写出
  • 275.dws_不同粒度页面浏览窗口汇总需求分析
  • 276.dws_读取3条流数据完成合并
  • 277.dws_聚合处理3条流数据并演示
  • 278.dws_维度查询工具类方法介绍
  • 279.dws_维度查询工具类方法编写
  • 280.dws_基础维度关联内容编写
  • 281.dws_旁路缓存使用原理介绍
  • 282.dws_旁路缓存查询使用编写
  • 283.dws_旁路缓存删除缓存编写
  • 284.dws_异步IO关联维度信息代码编写
  • 285.dws_写出到clickHouse演示
  • 286.dws_页面浏览窗口汇总需求介绍
  • 287.dws_读取数据转换结构
  • 288.dws_浏览窗口汇总代码编写及演示
  • 289.dws_播放窗口汇总表需求介绍
  • 290.dws_章节播放独立用户修正
  • 291.dws_章节播放聚合及演示
  • 292.dws_登录窗口统计需求介绍
  • 293.dws_登录窗口统计判断独立回流用户
  • 294.dws_登录窗口开窗聚合写出数据及演示
  • 295.dws_注册窗口需求介绍
  • 296.dws_使用状态和定时器完成回撤流的数据去重
  • 297.dws_注册窗口需求统计及演示
  • 298.dws_加购窗口统计代码编写
  • 299.dws_加购窗口独立用户统计演示
  • 300.dws_下单窗口独立用户及新增用户需求介绍
  • 301.dws_下单窗口代码编写
  • 302.dws_下单窗口需求演示
  • 303.dws_支付窗口独立及新增用户需求介绍
  • 304.dws_支付窗口独立及新增用户代码编写
  • 305.dws_支付窗口独立及新增用户数据演示
  • 306.dws_各课程下单聚合窗口需求介绍
  • 307.dws_各课程下单窗口累计代码编写
  • 308.dws_各课程下单窗口聚合演示
  • 309.dws_各来源订单数及独立用户数统计编写
  • 310.dws_各来源订单数及独立用户窗口聚合
  • 311.dws_各省份订单及独立用户需求介绍
  • 312.dws_各省份订单数及独立用户需求实现
  • 313.dws_各课程评价窗口汇总需求介绍
  • 314.dws_各课程评价窗口汇总需求编写
  • 315.dws_各试卷窗口统计需求介绍
  • 316.dws_各试卷窗口统计需求实现
  • 317.dws_各分数段窗口聚合需求介绍
  • 318.dws_各试卷不同分数区间人数需求实现
  • 319.dws_各题目答题统计窗口需求介绍
  • 320.dws_各题目答题统计需求实现
  • 321.测试问题介绍
  • 322.ads_可视化大屏介绍
  • 323.ads_suger环境准备
  • 324.ads_数据接口代码展示
  • 325.ads_内网穿透展示
  • 326.ads_3D词云可视化展示
  • 327.ads_表格展示用户新增活跃统计
  • 328.ads_中国省份地图可视化展示
  • 329.在线教育实时数仓总结