java培训
追求“极课”精神,探索教育黑科技
每期班课程都在更新迭代,保证内容在业内持续前沿
大数据企业的商业项目直接为学员所用,大牛工程师亲自指导实战开发
业务覆盖电商、在线教育、旅游、新闻、智慧城市等主流行业,全程贯穿项目实战
覆盖前沿技术:Hadoop、Spark、Flink、实时数据处理、离线数据处理、机器学习
尚硅谷大咖讲师+企业导师联合授课,培养中国更“出彩”的大数据工程师

未来发展不可限量

大数据研发

大牛引路,实战贯穿!

数据采集平台项目

大数据项目谷粒电信

项目简介 :
本项目主要讲解大数据技术中的数据采集技术,作为大数据的源头活水,教你从头搭建高并发、高可靠、可扩展的海量日志采集系统,供离线和在线数据分析系统使用。

项目架构:
Centos7.5 + Nginx + SpringBoot + MySQL5.7 + Flume1.9 + Kafka2.4.1 + Hadoop3.1.3 + Zookeeper3.5.7 + Hive3.1.2 + Shell + DataX

项目场景:
为大多数企业提供用户行为数据采集、后台业务数据采集的可扩展、高容错的日志收集方案

技术点:
Hadoop3.1.3安装、HDFS存储多目录、多磁盘数据均衡、LZO压缩、Hadoop基准测试、Hadoop参数调优;Zookeeper3.5.7安装配置、启动停止脚本;Kafka2.4.1集群配置、Kafka压测、机器数量计算、分区数计算、启动停止脚本;Flume1.9安装、Flume组件和配置、自定义Flume拦截器解决零点漂移问题、Flume的内存优化;DataX数据导入并保证数据一致性、空值处理、LZO压缩处理;Hive-3.1.2安装配置、启动、优化

项目特色:
针对多种多样、数据量大、变化快的数据源搭建数据采集系统,就如何保证数据采集的可靠性的性能、如何避免重复数据、保证实现atleast-once消费语义、如何保证数据的质量等问题,基于企业实战经验,给出最优解决方案。新增全新数据埋点系统,与Java电商项目零距离对接;全面扩充业务数据表到34张,大大丰富数仓建模体系;增加新访客识别解决方案,后续指标统计更加标准化。增加阿里云服务器讲解,提供与真实生产环境无缝对接方案。

离线数据仓库项目

大数据项目谷粒城市

项目简介 :
该项目以国内电商巨头实际业务应用场景为依托,紧跟大数据主流需求,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,让你迅速成长,获取最前沿的技术经验。

项目架构:
Flume1.9 + Kafka2.4.1 + DataX + MySQL5.7 + Hadoop3.1.3 + Hive3.1.2 + Spark3.0.0 + Ranger2.0 + Presto + Kylin3.0 + Azkaban3.0 + Atlas2.0 + Zabbix + Shell + Superset + Echarts + Centos7.5 + DolphinScheduler

项目场景:
数仓项目广泛应用于大数据领域,该项目技术可以高度适配电商、金融、医疗、在线教育、传媒、电信、交通等各领域;

技术点:
采集:Flume/Kafka/DataX;存储:MySQL/Hadoop/HBase;计算:Hive/Spark;查询:Presto/Kylin;可视化:Superset,升级换代成Echarts;任务调度:Azkaban,新增新兴调度工具DolphinScheduler;集群监控:Zabbix;元数据管理:Atlas;集群脚本:Shell;权限管理:Ranger;数据质量监控:Shell;数仓技术选型全新升级,新增调研Hadoop3.1.3、Hive3.1.2、Spark3.0.0、Kylin3.0兼容性,对Hive3.1.2官方漏洞研发修复

项目特色:
本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验总结。 数仓架构全面升级重构,提供拉链表分区解决方案;增加DWT层,研发累积型宽表层搭建解决方案;增加DIM维度层,完善数仓架构;升级DWD层,全新提供累积型快照事实表分区解决方案;真正实现流批一体,与实时数据处理系统紧密结合,同时解决企业两大数据处理痛点;全新增加数据治理模块,为数据质量、权限管理和安全认证提供一站式解决方案;大大丰富了指标体系,新增两大指标分析主题:优惠券和活动主题。 项目中包括:Shell脚本40多个、用户行为原始表5张、业务表原始表34张、数仓总表近120张、标准的数仓建模理论(确定业务过程、声明粒度、确定维度、确定事实)、包含的业务指标近100个(日活、周活、月活、新增、沉默、回流、流失、留存数、留存率、最近连续三周活跃、最近七天连续三天活跃、漏斗分析、spu个数、sku个数、商品销量排名、商品收藏排名、商品加入购物车排名、商品退款率排名、商品差评率、单日下单笔数、单日下单金额、单日下单用户数、单日支付笔数、单日支付金额、单日支付人数、单日支付商品数、下单到支付的平均时长、单次复购率、多次复购率、购买人数、多次购买人数、累积登录天数、最近30日登录天数、累积下单次数、累积下单金额、最近30日下单次数、最近30日下单金额、累积支付次数、累积支付金额、最近30日支付次数、最近30日支付金额、累积退款次数、累积退款件数、累积退款金额、最近30日被加入购物车次数、最近30日被加入购物车件数、累积被加入购物车次数……)。 通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。

Spark实时分析项目

大数据项目谷粒电商

项目简介 :
本项目主要为互联网企业中常见的对实时分析要求较高的场景提供全套的技术解决方案,以Spark为主要技术点实现海里数据的分析计算。

项目架构:
Nginx + SpringBoot + Kafka2.4.1 + SparkStreaming3.0.0 + Canal HA + Redis + ElasticSearch + HBase2.0.5 + Phoenix + ECharts + MySQL5.7 + Maxwell + Kibana

项目场景:
适用于多种行业场景,电商、交通、旅游等等,对数据实时分析结果要求较高的需求均可适用。例如:阿里双十一的可视化大屏,实时显示交易额。

技术点:
通过SparkStreaming对数据进行实时计算;解决SparkStreaming精确一次消费的问题;利用Redis存储临时性计算数据;通过Canal/Maxwell 进行实时采集业务数据库;实现SparkStreaming的双流join和维度关联;利用广播变量优化计算流程;对接Elasticsearch存储明细数据;通过Kibana配置可视化分析;利用Springboot开发可视化接口程序

项目特色:
本项目针对Spark在生产环境中会遇到的性能问题,采用生产服务器进行实战调优。对于用户行为数据和业务数据制定不同的处理方案,可以广泛适配企业中主流的实时处理系统。

Flink实时数仓项目

大数据项目谷粒旅游

项目简介 :
本项目参考美团、OPPO、知乎等大数据实时数仓项目架构,采用当前主流的实时数据处理框架Flink进行搭建,对接多种数据源,并实现了对结果数据的实时展示,与离线数仓可以无缝对接,真正实现了流批一体,可以无缝满足企业实时数据处理需求。

项目架构:
Nginx + SpringBoot + Flume1.9 + Kafka2.4.1 + Flink1.2 + Canal HA + Redis + ElasticSearch + HBase2.0.5 + Phoenix + ECharts + MySQL5.7 + Maxwell + Kibana + ClickHouse + DataV

项目场景:
可满足各种行业、不同规模的企业的实时数据处理场景,例如实时分析新用户注册人群、实时显示交易额、实时对账、实时预警等。

技术点:
通过分层处理,让实时计算复用性更好,结构更清晰;通过结合MySQL动态配置表实现数据的动态分流;使用HBase + Redis 实现维度数据的管理与关联查询;提供针对不同情境的双流Join解决方案,优化双流Join解决方案;结合keyed state实现数据的去重、计算等功能;实现对于所有需求提供Flink代码和Flink SQL代码两种解决方案,可满足不同的企业开发需求;使用Table Function 扩展FlinkSQL功能;使用Flink CEP实现不同用户行为模式的识别;使用Clickhouse 实现宽表数据的存储,提高数据查询效率,提供即席查询解决方案;结合Springboot对接百度sugar实现数据可视化大屏展示。

项目特色:
本项目采用最新的实时数据处理框架Flink进行搭建,对接多种数据源,并实现了对结果数据的实时展示,与离线数仓可以无缝对接,真正实现了流批一体,可以无缝满足企业实时数据处理需求。通过分层处理,让实时计算复用性更好,结构更清晰。通过结合MySQL动态配置表实现数据的动态分流。使用HBase+Redis 实现维度数据的管理与关联查询;提供针对不同情境的双流join解决方案,优化双流join解决思路;结合keyed state实现数据的去重、计算等功能;实现对于所有需求提供Flink代码和Flink SQL代码两种解决方案,可满足不同的企业开发需求;使用Table Function 扩展FlinkSQL功能;使用Flink CEP实现不同用户行为模式的识别;使用Clickhouse 实现宽表数据的存储,提高数据查询效率,提供即席查询解决方案;结合SpringBoot对接百度sugar实现数据可视化大屏展示。

推荐和机器学习项目

大数据项目谷粒旅游

项目简介 :
尚硅谷打造的电商推荐系统项目,以经过修改的中文亚马逊电商数据集作为依托,并以某电商网站真实的业务架构作为基础来实现,其中包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。

项目架构:
MongoDB + ElasticSearch + Redia + Spark Core + Spark SQL + Spark Mllib + Flume + Kafka + SparkStreaming + SpringBoot + AngularJS2

项目场景:
让用户更快更好地获取到自己需要的内容,让内容更快更好地推送到喜欢它的用户手中,让平台更有效地保留用户资源。

技术点:
以某电商网站真实的业务架构作为基础来实现的,其中包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。具体实现的模块主要有:基于统计的离线推荐、基于隐语义模型的离线推荐、基于自定义模型的实时推荐,以及基于内容的、和基于Item-CF的离线相似推荐。

项目特色:
整个项目具有很强的实操性和综合性,对已有的大数据和机器学习相关知识是一个系统性的梳理和整合,通过学习,同学们可以深入了解推荐系统在电商企业中的实际应用,可以为有志于增加大数据项目经验的开发人员、特别是对电商业务领域感兴趣的求职人员,提供更好的学习平台。

用户画像项目

大数据项目谷粒旅游

项目简介 :
用数字化的标签描述用户个性特征、勾画目标用户,用以联系用户诉求与设计方向。

项目架构:
Flume1.9 + Kafka2.4.1 + Hadoop3.1.3 + Hive3.1.2 + SparkSQL3.0.0 + Sqoop1.4.6 + Azkaban3.0 + Zookeeper3.5.7 + MySQL5.7

项目场景:
根据用户标签快速筛选人群,进行精准营销。

技术点:
标签定义模块、标签开发模块、任务调度模块、用户分群UI模块的搭建,用户标签窄表的定义开发,用户标签宽表的整合和结构转换。

项目特色:
结合目前各种规模企业对于用户画像的需求给出最简解决方案,在最短时间里对整个用户画像系统有最全面系统的认知。

在线教育项目实战

大数据项目谷粒旅游

项目简介 :
该项目基于洋葱教育的实际业务场景,带你从0到1搭建数据采集系统、离线指标统计、实时计算以及用户画像等各种实际企业业务场景。紧跟企业前沿新技术,项目在手,天下你有。

项目架构:
CDH全套组件:Flume + Kafka + Hadoop + Hive + HUE + SparkSQL + SparkStreaming + Zookeeper + MySQL + DataX + PowerDesigner + IBM HeapAnalyzer + Impala

项目场景:
以真实企业在线教育项目为蓝图设计的实操性很高的项目,助你了解大数据从业人员的真实工作流程;

技术点:
离线指标计算:课程学习反馈指标、系统版本访问统计、渠道新用户统计、访问次数分布、漏斗分析、七日留存分析;实时数据处理:实时统计VIP用户新增数、订单行为异常用户及时运营、Exactly-Once语义数据消费机制;

项目特色:
参照真实企业项目流程打造,从服务器搭建选型到数据处理全流程呈现,为主流数据采集系统搭建、常见离线指标需求提供多种解决方案,构建高可用高性能的实时流式计算框架。

阿里云电商项目

大数据项目谷粒旅游

项目简介 :
本项目以国内电商巨头实际业务应用场景为背景,整个数仓体系完全搭建在阿里云架构上,详细解析了数据在整个数仓架构从采集、存储、计算、输出,到最终展示的整个业务流程。让学员理解并学会运用各个阿里云服务组件,了解各个组件之间如何配合联动。

项目架构:
ECS + Flume + DataHub + MaxCompute + DataWorks + RDS + QuickBI

项目场景:
以真实企业项目为背景,采用阿里云平台的全套大数据产品重构整个电商项目,其中涵盖电商平台的离线数仓阿里云解决方案,实时指标分析阿里云解决方案。

技术点:
本项目采用阿里云服务器ECS搭配开源框架Flume进行用户日志的采集,将采集到的数据推送到阿里云数据总线模块DataHub,然后将DataHub的数据传输到大数据计算平台MaxCompute中,利用DataWorks数据开发平台进行数据的集成、计算和开发,得出我们需要统计的业务指标。将统计出的结果存储到阿里云RDS数据库中,最后用QuickBI读取RDS中的数据做出相应的报表,展示数据。

项目特色:
本项目采用全套阿里云大数据产品重构了电商平台大数据项目,提供了电商平台离线、实时等指标分析的全套阿里云解决方案。整个项目架构部署在云端,完全脱离了本地服务器,并且项目组件全部采用阿里云大数据产品,各组件之间实现了界面图形化配置,无缝对接。

1阶段 JavaSE基础核心

· Java基础语法

· Java8/9/10/11新特性

· IDEA

· MySQL

· 面向对象编程

· JDBC

核心技能
1、深入理解Java面向对象思想2、掌握开发中常用基础API 3、熟练使用集合框架、IO流、异常4、能够基于JDK8开发5、熟练使用MySQL,掌握SQL语法
课程设计特色
本阶段除了JavaSE中要求大家必会的常见知识外,重点加强了数据结构思想、集合源码分析,逐步培养大家深入学习的能力,此外为大数据框架学习打好基础,加强对SQL的讲解,重点培养学生数据处理思想。

2阶段 Hadoop生态体系架构

· Maven

· Linux

· Shell编程

· Hadoop

· Zookeeper

· HA+新特性

· Hive

· Flume

· Kafka

· DataX

核心技能
1、Linux系统的安装和操作2、熟练掌握Shell脚本语法 3、Idea、Maven等开发工具的使用4、Hadoop组成、安装、架构和源码深度解析,以及API的熟练使用5、Hive的安装部署、内部架构、熟练使用其开发需求以及企业级调优6、Zookeeper的内部原理、选举机制以及大数据生态体系下的应用7、Flume的架构原理、组件自定义、监控搭建,熟练使用Flume开发实战需求8、Azkaban的安装部署,熟练使用进行工作流的调度执行9、Kafka的安装部署以及框架原理,重点掌握Kafka的分区分配策略、一致性保证等,熟练掌握低级API、高级API的使用10、统筹Hadoop生态下的Hadoop、Flume 、Zookeeper、Kafka、Sqoop等诸多框架,搭建数据采集系统,熟练掌握框架结构和企业级调优手段
课程设计特色
本阶段以Hadoop生态系统为基础,围绕Hadoop对Hive、Zookeeper、Flume、Kafka等众多组件框架进行了深入讲解,从安装到底层原理,由浅入深,每个框架均配置有多个实战需求,最后讲此阶段所有框架统筹为一个采集系统项目,带领学员对大数据的实际应用有更深层次的理解和思考。

3阶段 Spark生态体系架构

· Scala

· Spark Core

· Spark SQL

· Spark Streaming

· Spark内核&优化

· Hbase

· Presto

· Ranger2.0

· Azkaban3.0

· Kylin3.0

· Atlas2.0

· Zabbix

· DolphinScheduler

· Superset

· Echarts

· Redis

· Canal

核心技能
1、Scala语言的基础入门、数据结构讲解、面向对象、函数式编程、模式匹配、高级类型、隐式转换等重点内容的掌握使用 2、Spark的入门安装部署、Spark Core部分的基本API使用熟练、编程进阶、自定义累加器和广播变量的使用和原理掌握、Spark SQL的编程掌握和如何自定义函数、SparkStreaming的应用解析、Spark的内核源码详解(包括部署、启动、任务划分调度、内存管理等)、Spark的企业级调优策略3、HBase的部署使用、原理架构讲解与企业级优化4、最新的大型离线数仓项目,对电商常见及疑难指标的熟练掌握,完全自主搭建整个数仓架构5、Redis的入门、基本配置讲解、jedis的熟练掌握6、熟练掌握实时分析项目的架构及需求处理思路
课程设计特色
本阶段课程从大数据重要的语言基础Scala讲起,并对重要框架Spark和HBase进行了深入讲解,内容包括两大框架的基本使用以及深入的源码分析。结合最新的大数据行业趋势,提供两大项目⸺离线数仓项目和实时数仓项目,采用最新的架构体系,对项目中可能涉及的普遍需求和疑难需求进行了详细讲解,能广泛适配大部分企业的大数据处理系。

4阶段 Flink生态体系架构

· Flink

· Flink SQL

· Flink 内核

· Git&GitHub

· ClickHouse

· DataV

· sugar

· Maxwell

· ElasticSearch

· Kibana

· Springboot

核心技能
1、熟练掌握Flink的基本架构以及流式数据处理思想,熟练使用Flink多种Soure、Sink处理数据,熟练使用基本API、Window API 、状态函数、Flink SQL、Flink CEP复杂事件处理等 2、使用Flink搭建实时数仓项目,熟练使用Flink框架分析计算各种指标3、开发工具Git&Git Hub的熟练使用4、ElasticSearch的入门安装部署及使用
课程设计特色
本项目参考美团、OPPO、知乎等大数据实时数仓项目架构,采用当前主流的实时数据处理框架Flink进行搭建,对接多种数据源,并实现了对结果数据的实时展示,与离线数仓可以无缝对接,真正实现了流批一体,可以无缝满足企业实时数据处理需求。

5阶段 项目实战阶段

· 数据采集平台项目

· 离线数据仓库项目

· Spark实时分析项目

· Flink实时数仓项目

· 推荐和机器学习项目

· 用户画像项目

· 在线教育项目

· 阿里云电商项目

核心技能
1、熟练掌握在线教育从0到1搭建大数据处理系统,了解大数据从业人员的真实工作流程 以在线教育为背景,搭建实时数仓处理系统,独立完成项目搭建和需求实现3、采用阿里云平台全套大数据产品重构电商项目,熟悉离线数仓、实时指标的阿里云解决方案4、可选掌握推荐和机器学习项目,熟悉并使用系统过滤算法以及基于内容的推荐算法等5、可选掌握用户画像项目,使用数字化标签描述用户个性特征、勾画目标用户
课程设计特色
本阶段贴近大数据的实际处理场景,全方面设计实战项目,能够更加全面的掌握大数据需求解决方案,全流程参与项目打造,短时间提高学生的实战水平,对各个常用框架加强认知,迅速累积实战经验。

从心出发,助你学习、求职、晋升一路顺畅!

校区:

北京校区:
北京市昌平区宏福科技园综合楼6层

上海校区:
上海市松江区谷阳北路166号大江商厦6层

深圳校区:
深圳市宝安区西部硅谷大厦B座C区一层

武汉校区:
武汉市东湖高新开发区东湖网谷

现在就与学习导师聊一聊