70+ 技术解决方案,培养解决实际问题的硬核人才
解决方案
涉及技术
  • 集群监控解决方案< >Zabbix 、Prometheus、Grafana
  • Flink背压解决方案< >Flink
  • Spark Streaming精准一次消费< >Spark Streaming、Kafka
  • 海量数据存储解决方案< >Hadoop
  • 链路延迟检测方案< >Flink
  • Sqoop Null值存储一致性问题解决方案< >Sqoop
  • 海量宽表数据查询解决方案< >ClickHouse、Doris、Elasticsearch
  • Flume提高吞吐量< >Flume
  • HBase数据热点问题解决方案< >Hbase
  • Spark OOM解决方案< >Spark
  • 冷热数据分离解决方案< >Hadoop
  • 数据质量监控解决方案< >Shell + DolphinScheduler + Superset
  • Kafka内存溢出解决方案< >Kafka
  • Hive数据倾斜解决方案< >Hive
  • 权限管理解决方案< >Ranger、Sentry
  • Hadoop数据倾斜解决方案< >Hadoop
  • 数据脱敏解决方案< >Hql、SparkSQL 、Kettle
  • Kafka过期数据清理解决方案< >Kafka
  • 流批一体解决方案< >StreamX + Flink
  • Hadoop集群压测解决方案< >Hadoop
  • Kafka丢数据解决方案< >Kafka
  • Hive大表大表Join解决方案< >Hive
  • 动态分流解决方案< >Flink CDC
  • DataX性能优化解决方案< >DataX
  • Spark数据倾斜解决方案< >Spark
  • Hadoop内存溢出解决方案< >Hadoop
  • 旁路缓存解决方案< >Redis
  • Kafka提高吞吐量解决方案< >Kafka
  • Hadoop集群动态扩容解决方案< >Hadoop
  • 零点漂移问题解决方案< >Flume
  • 小文件解决方案< >Hadoop
  • Flume集群动态扩容解决方案< >Flume
  • Kafka数据积压解决方案< >Kafka
  • 实时同步MySQL解决方案< >Maxwell、Canal、Debezium
  • Kafka数据有序解决方案< >Kafka
  • 断点续传解决方案< >Flume
  • Kafka单条日志传输大于1m解决方案< >Kafka
  • 湖仓一体解决方案< >Hudi + Iceberg + Flink
  • Kafka集群压测解决方案< >Kafka
  • HDFS Sink小文件解决方案< >Flume
  • Kafka集群动态服役退役解决方案< >Kafka
  • Hive大小表Join解决方案< >Hive
  • Kafka重复数据解决方案< >Kafka
  • Hive查询慢解决方案< >Hive
  • 多流Join 解决方案< >Flink
  • Hive内存溢出解决方案< >Hive
  • Kafka数据乱序解决方案< >Kafka
  • Hive小文件解决方案< >Hive
  • MySQL与Hive空值不一致解决方案< >DataX
  • Kafka挂掉解决方案< >Kafka
  • 全量同步MySQL解决方案< >Sqoop、DataX
  • Flink Exactly-Once解决方案< >Flink
  • Spark Streaming丢失数据解决方案< >Spark Streaming
  • Spark性能优化解决方案< >Spark
  • Flink数据倾斜解决方案< >Flink
  • Flink复杂事件解决方案< >Flink
  • Hbase RowKey查询慢解决方案< >Hbase
  • Kafka指定任意时间消费解决方案< >Kafka
  • Sqoop数据倾斜解决方案< >Sqoop
  • 数据清洗解决方案< >Hql、SparkSQL 、Kettle
  • Kafka指定任意Offset消费解决方案< >Kafka
  • 元数据管理解决方案< >Atlas
  • Flink内存溢出解决方案< >Flink
  • 数据治理解决方案< >SpringBoot + Vue
  • Sqoop数据导出一致性问题解决方案< >Sqoop
  • Flink SQL时区问题解决方案< >Flink
  • 异步IO解放方案< >Flink + Hbase
  • 大屏可视化报表解决方案< >DataV、Suga
  • Flink RocksDB状态后端调优解决方案< >Flink
  • 离线报表可视化解决方案< >Superset、Echart、QuickBI
  • 集群监控解决方案< >Zabbix 、Prometheus、Grafana
  • Flink背压解决方案< >Flink
  • Spark Streaming精准一次消费< >Spark Streaming、Kafka
  • 海量数据存储解决方案< >Hadoop
  • 链路延迟检测方案< >Flink
  • Sqoop Null值存储一致性问题解决方案< >Sqoop
  • 海量宽表数据查询解决方案< >ClickHouse、Doris、Elasticsearch
  • Flume提高吞吐量< >Flume
  • HBase数据热点问题解决方案< >Hbase
  • Spark OOM解决方案< >Spark
  • 冷热数据分离解决方案< >Hadoop
  • 数据质量监控解决方案< >Shell + DolphinScheduler + Superset
  • Kafka内存溢出解决方案< >Kafka
  • Hive数据倾斜解决方案< >Hive
  • 权限管理解决方案< >Ranger、Sentry
  • Hadoop数据倾斜解决方案< >Hadoop
  • 数据脱敏解决方案< >Hql、SparkSQL 、Kettle
  • Kafka过期数据清理解决方案< >Kafka
  • 流批一体解决方案< >StreamX + Flink
  • Hadoop集群压测解决方案< >Hadoop
  • Kafka丢数据解决方案< >Kafka
  • Hive大表大表Join解决方案< >Hive
  • 动态分流解决方案< >Flink CDC
  • DataX性能优化解决方案< >DataX
  • Spark数据倾斜解决方案< >Spark
  • Hadoop内存溢出解决方案< >Hadoop
  • 旁路缓存解决方案< >Redis
  • Kafka提高吞吐量解决方案< >Kafka
  • Hadoop集群动态扩容解决方案< >Hadoop
  • 零点漂移问题解决方案< >Flume
  • 小文件解决方案< >Hadoop
  • Flume集群动态扩容解决方案< >Flume
  • Kafka数据积压解决方案< >Kafka
  • 实时同步MySQL解决方案< >Maxwell、Canal、Debezium
  • Kafka数据有序解决方案< >Kafka
  • 断点续传解决方案< >Flume
  • Kafka单条日志传输大于1m解决方案< >Kafka
  • 湖仓一体解决方案< >Hudi + Iceberg + Flink
  • Kafka集群压测解决方案< >Kafka
  • HDFS Sink小文件解决方案< >Flume
  • Kafka集群动态服役退役解决方案< >Kafka
  • Hive大小表Join解决方案< >Hive
  • Kafka重复数据解决方案< >Kafka
  • Hive查询慢解决方案< >Hive
  • 多流Join 解决方案< >Flink
  • Hive内存溢出解决方案< >Hive
  • Kafka数据乱序解决方案< >Kafka
  • Hive小文件解决方案< >Hive
  • MySQL与Hive空值不一致解决方案< >DataX
  • Kafka挂掉解决方案< >Kafka
  • 全量同步MySQL解决方案< >Sqoop、DataX
  • Flink Exactly-Once解决方案< >Flink
  • Spark Streaming丢失数据解决方案< >Spark Streaming
  • Spark性能优化解决方案< >Spark
  • Flink数据倾斜解决方案< >Flink
  • Flink复杂事件解决方案< >Flink
  • Hbase RowKey查询慢解决方案< >Hbase
  • Kafka指定任意时间消费解决方案< >Kafka
  • Sqoop数据倾斜解决方案< >Sqoop
  • 数据清洗解决方案< >Hql、SparkSQL 、Kettle
  • Kafka指定任意Offset消费解决方案< >Kafka
  • 元数据管理解决方案< >Atlas
  • Flink内存溢出解决方案< >Flink
  • 数据治理解决方案< >SpringBoot + Vue
  • Sqoop数据导出一致性问题解决方案< >Sqoop
  • Flink SQL时区问题解决方案< >Flink
  • 异步IO解放方案< >Flink + Hbase
  • 大屏可视化报表解决方案< >DataV、Suga
  • Flink RocksDB状态后端调优解决方案< >Flink
  • 离线报表可视化解决方案< >Superset、Echart、QuickBI
9大 硅谷实战项目
Flink
实时数仓项目
Spark
实时数仓项目
用户画像
在线教育
阿里云
MaxCompute
物流数据分析项目
(腾讯云EMR)
技术中台
推荐系统

离线数仓项目

项目特色:

依托国内电商巨头的实际业务场景,引入海量的真实点击数据和业务数据,紧跟大数据主流技术需求,拥有丰富的数据仓库功能模块。

主要技术栈:
Hadoop Flume DataX Maxwell Kafka Spark DolphinScheduler SpringBoot SuperSet Kylin Presto Ranger
学习目标:
  1. 了解数据仓库建模理论
  2. 充分熟悉电商行业数据分析指标体系
  3. 快速掌握多种大数据技术框架
  4. 了解认识多种数据仓库技术模块
点击查看项目详情>>

Flink实时数仓项目

项目特色:

参考众多大厂的实时数仓项目的经典架构研发推出,采用当前主流的实时数据流处理框架Flink作为主要计算引擎,涉及多种实时计算关键技术,满足企业对实时开发的要求。

主要技术栈:
Flume Maxwell Kafka Flink HBase Phoenix Redis ClickHouse SpringBoot Sugar
学习目标:
  1. 了解实时数据仓库的建模理论
  2. 灵活应用Flink的的流式计算技术
  3. 多种技术框架协调配合、灵活应用,融会贯通整个大数据开发的关键技术
点击查看项目详情>>

Spark实时数仓项目

项目特色:

依托企业级真实的实时数据分析环境,对目前互联网大厂中常见的实时分析场景提出了一套基于SparkStreaming的实用的技术解决方案,丰富实时技术栈。

主要技术栈:
Flume Canal Maxwell Kafka SparkStreaming HBase Phoenix Redis ElasticSearch Kibana SpringBoot Sugar
学习目标:
  1. 掌握Scala语言开发Spark的实时计算任务的开发技巧
  2. 了解使用不同的CDC框架,提升实时方向的项目开发经验
点击查看项目详情>>

用户画像

项目特色:

着眼于用数字化的标签描述用户个性特征、勾画目标用户,实现了从标签定义、标签任务处理、任务调度、任务监控、用户分区、用户洞察的全功能平台化管理。

主要技术栈:
Spark MLib ClickHouse Redis Vue SpringBoot Mybatis
学习目标:
  1. 充分理解用户画像管理平台的搭建及使用、用户画像系统的设计思路,以及标签的设计流程及应用
  2. 初步了解机器学习算法
点击查看项目详情>>

在线教育

项目特色:

基于某教育的实际业务场景,引入海量的真实点击数据和业务数据,紧跟大数据的主流技术需求,搭建一整套完整的离线数据仓库、实时数据仓库和用户画像系统。

主要技术栈:
Hadoop Flume DataX Maxwell Kafka Spark Presto DolphinScheduler SpringBoot Echart SuperSet Kylin Ranger Flink HBase Phoenix Redis ClickHouse Sugar
学习目标:
  1. 充分了解在线教育行业的业务数据体系
  2. 熟悉在线教育行业的离线指标体系
  3. 熟悉在线教育行业的实时指标体系
  4. 充分掌握多种大数据技术框架的协调应用
点击查看项目详情>>

阿里云MaxCompute

项目特色:

依托国内电商巨头的真实业务场景,基于目前各大互联网企业对于阿里云架构体系的需求,将整个电商的数据仓库体系搭建在阿里云架构上,做到全项目全流程上云。

主要技术栈:
Flume RDS DataHub DataWorks DataV QuickBI Flink MaxCompute
学习目标:
  1. 掌握阿里云常用大数据技术框架
  2. 掌握基于阿里云服务器进行离线数据仓库和实时数据仓库的搭建
点击查看项目详情>>

物流数据分析项目(腾讯云EMR)

项目特色:

依托物流行业的的真实业务场景,基于目前各大互联网企业对于腾讯云EMR架构体系的需求,将整个电商的数据仓库体系搭建在腾讯云架构上。

主要技术栈:
腾讯云EMR中的Hive、Spark、Hadoop、Flink、Flume、Kafka
学习目标:
  1. 掌握腾讯云常用大数据技术框架的使用、选型和购买
  2. 掌握基于腾讯云EMR进行离线数据仓库和利用进行实时数据仓库的搭建
点击查看项目详情>>

技术中台

项目特色:

一站式搞定数据治理、血缘管理、元数据管理、数据质量监控、批处理和实时处理的可视化调度、可视化即席查询、可视化数据采集配置。

主要技术栈:
SpringBoot Vue ClickHouse Presto Spark Hive Flink DolphinSchedule
学习目标:
  1. 掌握技术中台中的核心功能开发原理
  2. 掌握大数据、JavaEE和前端技术的融合
点击查看项目详情>>

推荐系统

项目特色:

依托于真实的中文亚马逊电商数据集,以及真实的电商企业业务数据体系,构建了符合教学体系的一体化电商推荐系统,充分理解推荐系统的运作流程,拓宽技术视野。

主要技术栈:
Flume Kafka MongoDB Spark Streaming ElasticSearch Git Redis
学习目标:
  1. 系统性梳理整合大数据技术知识与机器学习相关知识
  2. 深入了解推荐系统在电商企业中的实际应用
  3. 深入学习并掌握多种推荐算法
点击查看项目详情>>

强强联合!尚硅谷已与Apache多个开源项目形成合作:

DolphinScheduler、Hudi、Doris、Kylin、SeaTunnel、StreamX
课程大纲实战贯穿项目驱动
阶段一:JavaSE基础核心
核心技能
  • 1、深入理解Java面向对象思想
  • 2、掌握开发中常用基础API
  • 3、熟练使用集合框架、IO流、异常
  • 4、能够基于JDK8开发
  • 5、熟练使用MySQL,掌握SQL语法
课程设计特色

本阶段除了JavaSE中要求大家必会的常见知识外,重点加强了数据结构思想、集合源码分析,逐步培养大家深入学习的能力,此外为大数据框架学习打好基础,加强对SQL的讲解,重点培养学生数据处理思想。

关键技术清单
  • Java基础语法
  • IDEA
  • 面向对象编程
  • Java8-17新特性
  • MySQL
  • JDBC
阶段二:Hadoop生态体系架构
核心技能
  • 1、Linux系统的安装和操作
  • 2、熟练掌握Shell脚本语法
  • 3、IDEA、Maven等开发工具的使用
  • 4、Hadoop组成、安装、架构和源码深度解析,以及API的熟练使用
  • 5、Hive的安装部署、内部架构、熟练使用其开发需求以及企业级调优
  • 6、Zookeeper的内部原理、选举机制以及大数据生态体系下的应用
  • 7、Flume的架构原理、组件自定义、监控搭建,熟练使用Flume开发实战需求
  • 8、Kafka的安装部署以及框架原理,重点掌握Kafka的分区分配策略、数据可靠性、数据一致性、数据乱序处理、零拷贝原理、高效读写原理、消费策略、再平衡等内容
  • 9 、统筹Hadoop生态下的Hadoop、Flume 、Zookeeper、Kafka、DataX、MaxWell等诸多框架,搭建数据采集系统,熟练掌握框架结构和企业级调优手段
课程设计特色

本阶段以Hadoop生态系统为主,是大数据主要框架的入门阶段。根据课程的前后关联性,先后为Linux、Hadoop、Hive、Zookeeper、Flume、Kafka、电商数据采集项目。课程顺序经过精心调研安排,符合学习的基本认知规律。每个框架的讲解都是从基础的安装部署和架构讲解入手,穿插经典实操案例,配以关键源码解读。阶段最后安排讲解数据仓库采集系统,对框架融会贯通,带领学员回顾所学框架的同时,迅速增长实际开发经验。

关键技术清单
  • Maven
  • Linux
  • Shell编程
  • Hadoop
  • Zookeeper
  • HA+新特性
  • Hive
  • Flume
  • Kafka
阶段三:Spark生态体系架构
核心技能
  • 1、Spark的入门安装部署、Spark Core部分的基本API使用熟练、RDD编程进阶、累加器和广播变量的使用和原理掌握、Spark SQL的编程掌握和如何自定义函数、Spark的内核源码详解(包括部署、启动、任务划分调度、内存管理等)、Spark的企业级调优策略
  • 2、DophineScheduler的安装部署,熟练使用进行工作流的调度执行
  • 3、了解数据仓库建模理论,充分熟悉电商行业数据分析指标体系,快速掌握多种大数据技术框架,了解认识多种数据仓库技术模块
  • 4、HBase和Phoenix的部署使用、原理架构讲解与企业级优化
  • 5、开发工具Git&Git Hub的熟练使用
  • 6、Redis的入门、基本配置讲解、jedis的熟练掌握
  • 7、ElasticSearch的入门安装部署及调优
  • 8、充分理解用户画像管理平台的搭建及使用、用户画像系统的设计思路,以及标签的设计流程及应用,初步了解机器学习算法
  • 9、项目实战。贴近大数据的实际处理场景,多维度设计实战项目,能够更加广泛的掌握大数据需求解决方案,全流程参与项目打造,短时间提高学生的实战水平,对各个常用框架加强认知,迅速累积实战经验
课程设计特色

本阶段课程进入进阶阶段,主要讲解核心大数据框架Spark和HBase,对两大框架进行了深入讲解,包括两大框架的基本安装部署以及深入源码解读。
此外,本阶段还包含三大项目——离线数据仓库项目、用户画像项目和项目实战。前两大项目均采用新架构体系、稳定的框架选型、经典广泛的理论解读,手把手教你如何从0到1搭建一个功能完善的大数据系统。内容涵盖绝大部分大数据经典流行框架、绝大部分经典需求实现,并配合企业级部署调优讲解,助力学员迅速增长开发经验,适配大部分企业的大数据开发需求。项目实战项目主要锻炼学生动手实战能力,根据前两个项目所学,自己独立按照企业需求完成开发任务。

关键技术清单
  • Spark
  • Presto
  • Superset
  • DolphinScheduler
  • DataX
  • Atlas2.0
  • MaxWell
  • Zabbix
  • HBase
  • Redis
阶段四:Flink生态体系架构
核心技能
  • 1、熟练掌握Flink的基本架构以及流式数据处理思想,熟练使用Flink多种Soure、Sink处理数据,熟练使用基本API、Window API 、状态函数、Flink SQL、Flink CEP复杂事件处理等
  • 2、使用Flink搭建实时数仓项目,熟练使用Flink框架分析计算各种指标
  • 3、ClickHouse安装、使用及调优
  • 4、项目实战。贴近大数据的实际处理场景,多维度设计实战项目,能够更加广泛的掌握大数据需求解决方案,全流程参与项目打造,短时间提高学生的实战水平,对各个常用框架加强认知,迅速累积实战经验
  • 5、可选掌握推荐和机器学习项目,熟悉并使用系统过滤算法以及基于内容的推荐算法等
  • 6、采用阿里云平台全套大数据产品重构电商项目,熟悉离线数仓、实时指标的阿里云解决方案
课程设计特色

本阶段课程以时下流行的大数据处理框架Flink为中心,从架构讲起,详细讲解了各种层面API的使用,并对Flink的高级应用场景进行了案例化讲解,还配备了详细的源码解读和优化技巧。
本阶段还围绕Flink讲解了大数据领域另一个十分重要的项目——Flink实时数据仓库项目。本项目与离线数仓项目可以无缝对接,两大项目共同组成一个完整的企业级大数据架构。课程中包含深入广泛的数仓理论讲解、实用高效的实时问题解决方案。通过学习本项目,可以迅速掌握实时开发的重点难点,掌握多种实时难点问题解决方案,对实时领域框架的搭配应用融会贯通,提升开发和调优经验。本阶段还配备项目实战阶段,主要锻炼学生动手实战能力,根据已学内容,在讲师指导下独立完成开发任务。
此外,本阶段课程还将讲解时下流行的热点问题项目,数据湖 or K8S or 技术中台,成熟的技术课程可以使学员更广泛了解大数据的发展趋势,掌握更多更热门的大数据技术,例如Hudi、K8S、数据治理等。 在本阶段课程的最后是企业级的项目调优课程,通过搭建一个企业级的大数据集群,对项目中可能发生的高频热点问题、面试常见问题给出多角度解答,问题多、范围广、覆盖全,有助学员提升开发经验,熟悉开发环境。

关键技术清单
  • Flink
  • ClickHouse
  • Sugar
  • Doris
  • Hudi
  • Iceberg
  • K8S
  • Git&GitHub
  • Springboot
阶段五:就业指导
核心技能
  • 1、从技术和项目两个角度按照企业面试要求带领同学们复习
  • 2、熟悉CDH在生产环境中的使用
  • 3、手把手简历指导,助力学员顺利通过简历筛选
课程设计特色

本阶段课程主要围绕学员的就业需求,在真正就业前,帮助学员多维度复习巩固所学知识和项目,串讲经典高频面试题,传授面试答题技巧,总结项目开发经验,手把手简历指导,解决学员在就业过程中遇到的各种难题。

关键技术清单
  • 面试题+考试:1.串讲所学的技术点,如Hadoop、Hive、Kafka、Spark、Flink等技术框架高频面试题;2.串讲学过的项目;3.对串讲过的面试题和项目进行考试
  • CDH:在阿里云服务器上,基于CDH安装部署离线数据仓库项目
  • 就业指导:1.简历指导、职业规划 2.简历书写(Word、网上)模拟面试

中级开发

高级开发

项目经理

技术总监
资深架构

CTO
CEO

持续赋能

为学员成长保驾护航

校区环境

整洁有序,竭尽全力为学员提供高效学习氛围

尚硅谷@北京

尚硅谷@上海

尚硅谷@深圳

尚硅谷@武汉

尚硅谷@西安