尚硅谷Java培训

线上问诊离线数仓项目

视频介绍

本套项目教程以线上问诊为基础业务,真实还原了线上问诊平台对于用户数据的分析和统计,并以大屏展示的方法呈现数据分析的结果。

线上问诊离线数仓项目共分四大部分:数仓建模原理介绍、数仓模型搭建、DolphinScheduler全流程调度、SuperSet可视化大屏展示。项目以线上问诊采集项目为前置基础,使用线上问诊采集项目的基础架构,将数据导入数仓中,对数据进行系统化的分析计算,得到指标需求结果。

项目中使用的框架包括:Hadoop、Hive、Spark、Kafka、Flume、Flink-CDC、Datax、DolphinScheduler、SuperSet等。通过本套视频教程的学习,你将彻底了解数仓建模理论体系,深入认识线上问诊平台的业务理论体系。

视频目录 选集

  • 001.数据采集课程内容介绍
  • 002.数据仓库的概念
  • 003.数据仓库的架构
  • 004.项目需求分析
  • 005.技术选型
  • 006.系统数据流程设计
  • 007.框架版本的选择
  • 008.服务器的选型
  • 009.集群规模
  • 010.集群规模设计
  • 011.业务数据说明
  • 012.虚拟机安装配置
  • 013.集群分发脚本
  • 014.安装JDK
  • 015.环境变量配置说明
  • 016.查看进程脚本
  • 017.安装Hadoop-配置集群
  • 018.安装Hadoop-配置历史服务器
  • 019.Hadoop群起脚本
  • 020.HDFS存储多目录
  • 021.集群数据均衡
  • 022.Hadoop参数调优
  • 023.安装ZooKeeper
  • 024.ZooKeeper启动脚本
  • 025.ZooKeeper常用指令
  • 026.安装Kafka
  • 027.Kafka群起脚本
  • 028.Kafka常用指令-topic相关
  • 029.Kafka常用指令-生产者和消费者相关
  • 030.Flume安装与项目经验
  • 031.安装MySQL
  • 032.模拟生成数据
  • 033.客户端连接异常问题
  • 034.Maxwell简介
  • 035.MySQL原理
  • 036.安装Maxwell
  • 037.Maxwell启动脚本
  • 038.Maxwell数据同步
  • 039.同步策略
  • 040.数据同步工具
  • 041.DataX简介和框架设计
  • 042.DataX运行流程
  • 043.DataX调度思路
  • 044.DataX与Sqoop的对比
  • 045.DataX安装
  • 046.将数据从MySQL导入到HDFS-TableMode模式
  • 047.将数据从MySQL导入到HDFS-QuerySQL模式
  • 048.DataX传参
  • 049.将数据从HDFS导入到MySQL
  • 050.DataX优化
  • 051.DataX配置文件生成
  • 052.全量表数据同步脚本
  • 053.Flume配置01
  • 054.Flume配置02
  • 055.增量表首日同步
  • 056.Flume启动停止脚本
  • 057.安装Hive
  • 058.在线就诊数仓项目简介
  • 059.数仓的概念
  • 060.数仓架构
  • 061.建模的意义
  • 062.ER模型
  • 063.维度模型
  • 064.事实表介绍
  • 065.事务型事实表概述
  • 066.事务型事实表的设计流程
  • 067.事务型事实表的不足
  • 068.事务型事实表的不足
  • 069.周期型快照事实表的概念
  • 070.周期型快照事实表设计与事实类型
  • 071.累积型快照事实表
  • 072.维度表设计
  • 073.规范化与反规范化
  • 074.全量快照维度表
  • 075.拉链表
  • 076.多值维度
  • 077.多值属性
  • 078.数据仓库的分层
  • 079.数仓的构建流程
  • 080.数据调研
  • 081.明确数据域
  • 082.业务总线矩阵
  • 083.明确统计指标
  • 084.维度模型与汇总模型设计
  • 085.Hive引擎简介
  • 086.Hive on Spark兼容性说明
  • 087.搭建Hive on Spark
  • 088.ApplicationMaster资源比例调整
  • 089.DataGrip使用
  • 090.模拟产生数据
  • 091.Hive常见问题和解决方案
  • 092.ODS层设计要点
  • 093.全量表建表
  • 094.复杂数据类型回顾
  • 095.Json数据建表
  • 096.增量表建表
  • 097.ODS数据加载脚本
  • 098.维度表建模理论回顾
  • 099.DIM层设计要点
  • 100.医生维度表建表
  • 101.医生维度表数据加载
  • 102.医院维度表建表和数据加载
  • 103.药品维度表建表和数据加载
  • 104.患者维度表建表和数据加载
  • 105.用户维度表建表和数据加载
  • 106.DIM层数据加载脚本
  • 107.事实表建模理论回顾
  • 108.DWD层设计要点
  • 109.问诊事务型事实表建表
  • 110.问诊事实表首日数据加载
  • 111.问诊事实表每日数据加载
  • 112.问诊支付成功事实表建表和首日加载
  • 113.问诊支付成功事实表每日数据加载
  • 114.处方开单事实表建表和首日数据加载
  • 115.处方开单事实表每日数据加载
  • 116.处方支付成功事实表建表和首日数据加载
  • 117.处方支付成功事实表每日数据加载
  • 118.医生注册事实表建表和首日数据加载
  • 119.医生注册事实表每日数据加载
  • 120.用户注册事实表建表和数据加载
  • 121.患者登记事实表建表和数据加载
  • 122.用户评价事实表建表和数据加载
  • 123.DWD首日数据加载脚本
  • 124.DWD每日数据加载脚本
  • 125.DWS设计要点
  • 126.医院患者性别年龄段问诊最近1日汇总表
  • 127.医院患者性别年龄段问诊支付成功最近1日汇总表
  • 128.医院患者性别年龄段处方开单最近1日汇总表
  • 129.医院患者性别年龄段处方开单支付成功最近1日汇总表
  • 130.医生粒度问诊最近1日汇总表
  • 131.DWS 1d首日数据加载脚本
  • 132.DWS 1d每日数据加载脚本
  • 133.交易域医院患者性别年龄段粒度问诊最近n日汇总表
  • 134.交易域医院患者性别年龄段粒度问诊支付成功最近n日汇总表
  • 135.交易域医院患者性别年龄段粒度处方开单最近n日汇总表
  • 136.交易域医院患者性别年龄段粒度处方开单支付成功最近n日汇总表
  • 137.交易域医生粒度问诊最近n日汇总表
  • 138.DWS nd数据加载脚本
  • 139.交易域医生粒度问诊历史至今汇总表
  • 140.互动域医院用户粒度用户评价历史至今汇总表
  • 141.互动域医院粒度用户评价历史至今汇总表
  • 142.DWS td首日数据加载脚本
  • 143.DWS td每日数据加载脚本
  • 144.ADS层设计要点
  • 145.交易综合统计
  • 146.各医院交易统计
  • 147.各性别患者交易统计
  • 148.各年龄段患者交易统计
  • 149.医生变动统计
  • 150.用户变动统计
  • 151.评价综合统计
  • 152.各医院评价统计
  • 153.ADS数据加载脚本
  • 154.MySQL建库建表
  • 155.将数据从HDFS导入到MySQL演示
  • 156.生成DataX配置文件
  • 157.ADS导数据到MySQL脚本
  • 158.DolphinScheduler简介
  • 159.DolphinScheduler部署说明
  • 160.安装DolphinScheduler
  • 161.安全中心配置
  • 162.定义工作流与执行工作流
  • 163.定时调度
  • 164.局部参数
  • 165.全局参数
  • 166.参数传递
  • 167.参数的优先级
  • 168.内置参数
  • 169.引用依赖资源
  • 170.告警通知
  • 171.失败重试
  • 172.生成新数据
  • 173.数仓工作流调度
  • 174.Superset简介
  • 175.安装Superset
  • 176.Superset启动脚本
  • 177.Superset可视化
  • 178.总结