尚硅谷Java培训

物流数仓项目

视频介绍

尚硅谷经过长期的精心打磨,仔细推演,隆重推出物流大数据项目!本套教程堪称物流行业大数据处理领域的重磅之作,项目借助真实物流行业的海量业务数据,构建了完整的数据采集、分析、处理、展示通道,严格遵循主流数据仓库建模理论,搭建了高效率、高组织性、高可实施性的数仓架构体系。

教程共分三大部分:采集系统、离线数仓、实时数仓。项目拥有完善的离线指标体系和实时指标体系,各指标体系均进行了完整的指标拆解与分析,形成了庞大的指标网络。涵盖30多个Shell脚本,30多张业务数据原始表格,100多张数仓分层表,分析展示了上百个离线指标、几十个实时指标。

项目采用FlinkCDC和DataX作为数据采集工具,灵活设计数据采集策略,将采集来的数据同时服务于离线数仓和实时数仓。结合阿里巴巴成熟的数仓构建实践,总结出一套数仓建模理论体系,并梳理出通用的数仓建模步骤。分别使用Hive和Flink构建离线数仓和实时数仓,采用了流行的任务流调度系统DolphinScheduler。

还是尚硅谷一贯的风格,保姆式讲解,败家式赠送,项目以细致入微的教学方式,手把手带你轻松掌握物流大数据处理的要领,更好地应对行业挑战和变革!
 

视频目录 选集

  • 001.项目概述
  • 002.数仓概念-数仓简介
  • 003.数仓概念-数仓总体介绍
  • 004.数仓概念-项目需求分析
  • 005.数仓概念-技术选型考虑因素
  • 006.具体功能选型
  • 007.数仓概念-系统数据流程
  • 008.数仓概念-框架版本的选择
  • 009.数仓概念-具体版本号选择
  • 010.数仓概念-服务器选型
  • 011.数仓概念-集群规模
  • 012.数仓概念-集群资源规划
  • 013.业务数据采集-物流业务简介
  • 014.业务数据采集-物流业务数据
  • 015.业务数据采集-阿里云准备(备选)
  • 016.业务数据采集-虚拟机环境准备
  • 017.业务数据采集-克隆三台服务器
  • 018.业务数据采集-集群同步脚本
  • 019.业务数据采集-免密登录配置
  • 020.业务数据采集-安装JDK
  • 021.业务数据采集-Linux环境变量说明
  • 022.业务数据采集-查看集群所有进程脚本
  • 023.业务数据采集-Zookeeper安装
  • 024.业务数据采集-Zookeeper启停脚本
  • 025.业务数据采集-Hadoop-HA安装(上)
  • 026.业务数据采集-Hadoop-HA安装(中)
  • 027.业务数据采集-Hadoop-HA安装(下)
  • 028.业务数据采集-Hadoop-HA启停脚本
  • 029.业务数据采集-Hadoop项目经验
  • 030.业务数据采集-Kafka安装
  • 031.用户行为数据采集-Kafka启停脚本
  • 032.业务数据采集-Flume安装
  • 033.业务数据采集-MySQL安装
  • 034.业务数据采集-模拟数据
  • 035.业务数据采集-EZDML建模工具
  • 036.业务数据采集-数据同步策略概述
  • 037.业务数据采集-数据同步策略选择
  • 038.业务数据采集-数据同步策略选择
  • 039.业务数据采集-DataX简介
  • 040.业务数据采集-DataX调度决策思路
  • 041.业务数据采集-DataX与Sqoop对比
  • 042.业务数据采集-DataX部署
  • 043.业务数据采集-同步MySQL数据到HDFS(案例一)
  • 044.业务数据采集-同步MySQL数据到HDFS(案例二)
  • 045.业务数据采集-同步HDFS数据到MySQL(案例三)
  • 046.业务数据采集-DataX传参
  • 047.业务数据采集-Datax的SplitPK切割原理
  • 048.业务数据采集-DataX的HdfsWriter的Null值存储问题
  • 049.业务数据采集-DataX参数调优
  • 050.业务数据采集-Flink-CDC简介
  • 051.业务数据采集-启用MySQL Binlog
  • 052.业务数据采集-DataStreamAPI实现FlinkCDC
  • 053.业务数据采集-FlinkCDC集群提交
  • 054.业务数据采集-FlinkSQL实现FlinkCDC
  • 055.业务数据采集-Datax配置一键生成
  • 056.业务数据采集-全量表数据同步脚本
  • 057.业务数据采集-增量同步Flink-CDC配置
  • 058.业务数据采集-增量同步Flink-CDC集群模式提交
  • 059.业务数据采集-增量同步Flume通道分析
  • 060.业务数据采集-增量同步Flume配置
  • 061.业务数据采集-增量同步Flume拦截器配置
  • 062.业务数据采集-增量同步Flume启停脚本
  • 063.业务数据采集-Hive安装
  • 064.物流数仓项目课程介绍
  • 065.数仓课程内容介绍
  • 066.数仓的概念
  • 067.数仓架构01
  • 068.数仓架构02
  • 069.数据仓库建模的意义
  • 070.ER模型介绍01
  • 071.ER模型介绍02
  • 072.维度模型介绍
  • 073.事实表介绍
  • 074.事务型事实表设计流程
  • 075.事务型事实表不足01
  • 076.事务型事实表不足02
  • 077.周期快照事实表
  • 078.事实类型
  • 079.累积快照事实表
  • 080.维度表介绍与设计
  • 081.规范化与反规范化
  • 082.全量快照维度表
  • 083.拉链表
  • 084.多值维度
  • 085.多值属性
  • 086.数据仓库的分层规划
  • 087.数仓的构建流程
  • 088.数据调研
  • 089.明确数据域
  • 090.构建业务总线矩阵
  • 091.明确统计指标
  • 092.维度模型设计
  • 093.汇总模型设计
  • 094.hive引擎简介
  • 095.hive on spark兼容性说明
  • 096.hive on spark搭建
  • 097.调整ApplicationMaster资源比例
  • 098.hive中文乱码问题
  • 099.datagrip使用
  • 100.模拟生成数据
  • 101.ods层设计要点
  • 102.全量表建表
  • 103.json数据第一种建表方式
  • 104.hive复杂数据类型回顾
  • 105.json数据第二种建表方式
  • 106.ods层部分表字段不显示问题
  • 107.增量表建表
  • 108.ods层数据加载脚本
  • 109.dim层设计要点
  • 110.小区维度表建表
  • 111.小区维度表数据加载
  • 112.机构维度表建表和数据加载
  • 113.地区维度表建表和数据加载
  • 114.快递员维度表建表
  • 115.快递员维度表数据加载
  • 116.班次维度表建表和数据加载
  • 117.司机维度表建表和数据加载
  • 118.卡车维度表建表和数据加载
  • 119.用户维度表建表和首日数据加载
  • 120.用户维度表每日数据加载
  • 121.用户地址维度表建表和首日加载
  • 122.用户地址表每日数据加载
  • 123.dim层首日数据加载脚本
  • 124.dim层每日数据加载脚本
  • 125.dwd层设计要点
  • 126.下单事实建表
  • 127.下单事实表数据加载逻辑
  • 128.下单事实表首日数据加载
  • 129.下单事实表每日数据加载
  • 130.交易域运单累积快照事实表建表和首日加载
  • 131.运单累积快照事实表每日数据加载
  • 132.取消运单事实表建表和首日数据加载
  • 133.取消运单事实表每日数据加载
  • 134.支付成功事实表建表和首日数据加载
  • 135.支付成功事实表每日数据加载
  • 136.揽收事实表建表和首日数据加载
  • 137.揽收事实表每日数据加载
  • 138.发单事实表建表和首日数据加载
  • 139.发单事实表每日数据加载
  • 140.转运完成事实表建表和首日加载
  • 141.转运完成事实表每日数据加载
  • 142.派送成功事实表建表和首日加载
  • 143.派送成功事实表每日数据加载
  • 144.签收事实表建表和首日加载
  • 145.签收事实表每日数据加载
  • 146.运输完成事实表建表和首日加载
  • 147.运输完成事实表每日数据加载
  • 148.入库事实表建表和首日加载
  • 149.入库事实表每日数据加载
  • 150.分拣事实表建表和数据加载
  • 151.出库事实表建表和数据加载
  • 152.dwd首日数据加载脚本
  • 153.dwd每日数据加载脚本
  • 154.指标体系回顾
  • 155.dws建表逻辑
  • 156.机构货物类型下单最近1日汇总表
  • 157.转运站粒度揽收最近1日汇总表首日数据加载
  • 158.转运站粒度揽收最近1日汇总表每日数据加载
  • 159.发单最近1日汇总表
  • 160.机构卡车类别运输最近1日汇总表
  • 161.转运站粒度派生成功最近1日汇总表
  • 162.机构粒度分拣最近1日汇总表
  • 163.dws 1d表首日数据加载脚本
  • 164.dws 1d表每日数据加载脚本
  • 165.机构货物类型粒度下单最近N日汇总表
  • 166.转运站粒度揽收最近N日汇总表
  • 167.发单最近N日汇总表
  • 168.班次粒度运输最近N日汇总表
  • 169.班次粒度运输最近N日汇总表城市获取问题
  • 170.转运站粒度派生成功最近N日汇总表
  • 171.转运站粒度分拣最近N日汇总表
  • 172.dws nd表数据加载脚本
  • 173.发单历史至今汇总表
  • 174.转运完成历史至今汇总表
  • 175.dws td表首日数据加载脚本
  • 176.dws td表每日数据加载脚本
  • 177.运单相关统计
  • 178.运输相关统计
  • 179.历史至今运单统计
  • 180.运单综合统计
  • 181.各类型货物运单统计
  • 182.城市分析
  • 183.机构分析
  • 184.班次分析
  • 185.线路分析
  • 186.司机分析
  • 187.卡车分析
  • 188.快递综合统计
  • 189.各省份快递统计
  • 190.各城市快递统计
  • 191.各机构快递统计
  • 192.ads数据加载脚本
  • 193.mysql建表
  • 194.hdfs导数据到Mysql案例
  • 195.datax导数据配置文件模板
  • 196.datax导ads数据到mysql
  • 197.dolphinscheduler简介
  • 198.dolphinscheduler部署说明
  • 199.dolphinscheduler安装
  • 200.dolphinscheduler启动停止脚本说明
  • 201.安全中心配置
  • 202.配置工作流
  • 203.工作流调度
  • 204.参数
  • 205.参数优先级
  • 206.引用依赖资源
  • 207.告警
  • 208.恢复失败
  • 209.生成数据
  • 210.上传脚本到资源中心
  • 211.数仓工作流调度执行
  • 212.superset安装
  • 213.superset启动停止脚本
  • 214.可视化
  • 215.项目总结
  • 216.课程介绍
  • 217.基础_数仓相关概念
  • 218.基础_实时架构以及和离线架构的对比
  • 219.基础_建模理论
  • 220.基础_数仓构建流程
  • 221.基础_前置组件准备
  • 222.ODS_IDEA开发环境搭建
  • 223.ODS_开发思路分析
  • 224.ODS_环境准备以及检查点设置
  • 225.ODS_使用FlinkCDC读取MySQL数据基本实现
  • 226.ODS_封装获取执行环境的方法
  • 227.ODS_封装获取MySqlSource的方法
  • 228.ODS_读取数据并进行ETL操作
  • 229.ODS_将流的数据写到kafka主题中
  • 230.ODS_在ODS主类中抽取流程实现方法
  • 231.ODS_ODS整体测试以及问题解决
  • 232.DIM_DIM层基本实现思路分析
  • 233.DIM_配置表的准备
  • 234.DIM_开发思路分析
  • 235.DIM_从kafka主题中读取数据
  • 236.DIM_类型转换以及属性过滤
  • 237.DIM_使用FlinkCDC读取配置表数据
  • 238.DIM_HbaseAPI介绍
  • 239.DIM_封装Hbase工具类并提供建表方法
  • 240.DIM_hbase维度表的提取创建
  • 241.DIM_广播配置流
  • 242.DIM_关联两条流并抽取专门的类处理流中数据
  • 243.DIM_处理广播流数据
  • 244.DIM_通过Debug方式调试广播流处理流程
  • 245.DIM_处理主流数据基本实现以及字段过滤
  • 246.DIM_处理主流数据补充字段
  • 247.DIM_在open方法中预加载配置信息
  • 248.DIM_封装向Hbase写入数据的方法
  • 249.DIM_将维度数据写到Hbase表中代码实现
  • 250.DIM_维度数据写到Hbase测试以及Kafka一致性问题说明
  • 251.DIM_维度处理总结
  • 252.DIM_维度处理执行流程总结
  • 253.DWD_需求分析
  • 254.DWD_运单业务分流分析
  • 255.DWD_分区、分组、分流以及FlinkCDC采集数据时间问题
  • 256.DWD_开发思路分析
  • 257.DWD_运单业务对应的事实表实体类准备
  • 258.DWD_从kafka主题中读取数据
  • 259.DWD_按照order_id分组以及标签创建泛型擦除问题
  • 260.DWD_运单和明细关联思路分析
  • 261.DWD_状态的声明以及初始化
  • 262.DWD_订单明细数据分流的处理
  • 263.DWD_订单数据分流的处理
  • 264.DWD_将不同流的数据写到kafka主题
  • 265.DWD_订单业务相关事实表整体测试
  • 266.DWD_物流域运输完成事实表需求分析
  • 267.DWD_开发思路分析
  • 268.DWD_从kafka主题中读取数据
  • 269.DWD_过滤出运输完成数据
  • 270.DWD_对过滤出的数据进行时间处理以及脱敏
  • 271.DWD_运输完成事实表测试以及总结
  • 272.DWD_中转业务流程分流思路分析
  • 273.DWD_中转域相关实体类封装
  • 274.DWD_构造者设计模式
  • 275.DWD_中转域事实表开发思路分析
  • 276.DWD_从kafka主题中读取中转数据
  • 277.DWD_将入库数据放到主流
  • 278.DWD_将分拣数据放到分拣侧输出流
  • 279.DWD_将出库数据放到出库侧输出流
  • 280.DWD_中转域相关事实表测试
  • 281.DWS_DWS介绍
  • 282.DWS_中转域机构粒度分拣聚合统计思路分析
  • 283.DWS_机构粒度分拣聚合开发思路分析
  • 284.DWS_从kafka主题中读取分拣数据
  • 285.DWS_将流中数据转换为分拣统计实体类
  • 286.DWS_Builder注解导致构造方法失效问题说明
  • 287.DWS_Watermark的指定以及事件时间字段提取
  • 288.DWS_开窗思路分析
  • 289.DWS_滚动时间窗口底层源码分析
  • 290.DWS_开启一天窗口偏移问题解决
  • 291.DWS_自定义触发器
  • 292.DWS_聚合计算
  • 293.DWS_聚合测试
  • 294.DWS_封装根据主键获取维度数据的方法
  • 295.DWS_补充主键属性
  • 296.DWS_封装根据外键获取维度数据的方法
  • 297.DWS_维度关联基本实现
  • 298.DWS_旁路缓存思路分析
  • 299.DWS_封装获取Jedis的工具类
  • 300.DWS_旁路缓存思路再次梳理
  • 301.DWS_旁路缓存代码实现
  • 302.DWS_旁路缓存优化测试
  • 303.DWS_封装从Redis中清除缓存数据的方法
  • 304.DWS_清除缓存流程分析
  • 305.DWS_在配置表中补充外键字段以及主流数据处理流程回顾
  • 306.DWS_处理主流数据时传递清除Redis缓存需要的数据
  • 307.DWS_DimSinkFunction中清除Redis缓存代码以及测试
  • 308.DWS_同步和异步介绍
  • 309.DWS_封装获取线程池对象的工具类
  • 310.DWS_异步维度关联的实现
  • 311.DWS_抽取发送请求进行维度关联的类以及模板方法设计模式
  • 312.DWS_关联机构表获取城市id
  • 313.DWS_关联地区维度表获取相关维度
  • 314.DWS_将流中数据写到CK基本实现
  • 315.DWS_抽取操作Clickhouse的工具类
  • 316.DWS_通用的给问号占位符赋值方法
  • 317.DWS_物化视图以及常用聚合函数组合符
  • 318.DWS_在CK中创建基础表以及物化视图
  • 319.DWS_将流中数据写到CK表整体测试
  • 320.DWS_机构粒度分拣聚合统计总结
  • 321.DWS_货物类型粒度订单聚合统计思路分析
  • 322.DWS_货物类型粒度订单聚合统计代码实现
  • 323.DWS_货物类型粒度订单聚合统计写到CK测试
  • 324.DWS_机构粒度订单聚合统计思路分析
  • 325.DWS_机构粒度订单聚合统计代码实现
  • 326.DWS_机构粒度订单聚合统计写到CK测试
  • 327.DWS_物流域转运完成实现以及Watermark触发定时器执行问题
  • 328.DWS_物流域发单数统计整体实现
  • 329.DWS_物流域机构粒度派送成功聚合统计整体实现
  • 330.DWS_物流域机构粒度揽收聚合统计整体实现
  • 331.DWS_物流域运输完成统计思路分析
  • 332.DWS_物流域运输完成统计开发思路分析
  • 333.DWS_物流域运输完成聚合代码实现
  • 334.DWS_物流域运输完成统计维度关联实现
  • 335.DWS_物流域运输完成统计测试
  • 336.ADS需求分析
  • 337.ADS_Spring开发基本概念介绍
  • 338.ADS_SpringBoot开发环境搭建
  • 339.ADS_Sugar申请
  • 340.ADS_文档和指标体系对应关系
  • 341.ADS_当日下单总金额Mapper层代码开发
  • 342.ADS_当日下单总金额Service以及Controller层代码开发
  • 343.ADS_内网穿透介绍以及在Sugar上展示总金额
  • 344.ADS_当日省份分拣数统计整体实现
  • 345.ADS_当日下单总金额执行流程分析
  • 346.ADS_当日下单总金额实时展示
  • 347.ADS_打包部署前的环境准备
  • 348.ADS_打包部署到服务器整体测试
  • 349.ADS_物流实时数仓总结