个人中心

登录 | 注册

咨询/预约我的订单我的网课我的问答我的评价我的权益浏览记录我的收藏
机构中心

教培机构
教培机构入驻教育宝平台、搭建私域流量运营系统或购买百度知了好学

查看详情登录后台

网课机构
录播课程和知识付费机构入驻教育宝网课平台

查看详情登录后台

基础教育学校
公立私立幼儿园、中小学、职业学校入驻教育宝学校库

查看详情登录后台

课外活动机构
研学、周末活动、冬夏令营机构入驻研学活动子平台

查看详情登录后台

行家
各细分领域的资深老师、顾问、规划师等从业者入驻教育宝行家平台

查看详情申请合作
平台客服
- 400-601-2788

北京CDA数据分析师

用AI让优质的教育人人可得

数据分析师老师直接接听

400-029-09** 转 18827

查看完整号码

扫码拨号

微信扫码拨号

录播课+直播课+面授课

CDA大数据就业班

800课时课时 | 任意时段班型 | 小班上课

线上录播

线上直播

线下面授

课程学费：一键咨询更多打折优惠课程获取报价

上课校区： 3个 (上地十街,高粱桥斜街59号,厂洼街校区) 详情 

免费预约

权益领取成功，请尽快到机构使用 权益详情可在 [个人中心-我的权益] 中查看

我知道了

课程内容

CDA大数据就业班

课程亮点

专业指导

适用人群

零基础学员

目标收获

CDA大数据就业班

课程介绍

课程亮点：

朝九晚九全程跟班答疑、一对一督学、定期直播串讲、五分钟内有问必答、出勤率和进度监督、作业与测试

学习目标：

1.零基础脱产学习，5个月学会大数据技术

2.计算机、统计、数学等专业学习更佳

3.包学会，成为大数据稀缺人才，高薪就业

4.CDA大数据就业帮，助你前程似锦

5.大数据未来已来，只等你改变自己

课程内容：

1章业务分析基础技能

1-1数据分析概述

1-2常用高阶函数

1-3条件格式应用

1-4数据透视表高阶应用

1-5图表进阶

1-6项目排期管理

1-7案例背景介绍

1-8动态考勤表制作

1-9每月考勤统计

1-10考勤汇总统计

1-11常用指标概述

1-12基础指标统计

1-13人力资源指标体系概述

1-14案例背景介绍

1-15员工绩效评定思路解析

1-16实操绩效统计及可视化

1-17案例背景介绍

1-18活动评估报表思路解析

1-19实操活动评估指标统计

1-20指导撰写报表结论

1-21图表应用

1-22零碎需求分析方法

1-23案例应用-核心产品分析

1-24案例应用-零售业商业智能看板

1-25RFM基础模型及拓展

1-26案例应用-用户画像

1-27树状结构分析方法概述

1-28案例应用-汽车行业分析报告

2章数据库应用技能

2-1数据库简介

2-2表结构的特点

2-3数据库分类

2-4MySQL简介

2-5数据库基本结构

2-6SQL语言分类

2-7SQL书写要求

2-8创建、使用及删除数据库

2-9创建表

2-10数据类型

2-11约束条件

2-12修改及删除表

2-13插入数据

2-14批量导入数据

2-15更新数据

2-16删除数据

2-17查询指定列

2-18查询不重复记录

2-19条件查询

2-20常用运算符

2-21空值查询

2-22设置别名

2-23模糊查询

2-24查询结果排序

2-25限制查询

2-26聚合运算

2-27分组查询

2-28分组后筛选

2-29内连接

2-30左连接

2-31右连接

2-32合并查询

2-33标量子查询

2-34行子查询

2-35列子查询

2-36表子查询

2-37字符串函数

2-38数学函数

2-39日期和时间函数

2-40分组合并函数

2-41逻辑函数

2-42开窗函数

2-43进阶练习

2-44数据来源及业务背景

2-45表关系梳理

2-46数据导入及字段处理

2-47数据查询

3章商业智能分析技能

3-1数据仓库结构说明

3-2基于数据仓库的数据处理方法

3-3数据仓库数据处理进阶

3-4数据仓库应用案例

3-5创建多维数据模型

3-6理解多维模型表连接规则

3-7业务数据分析指标介绍

3-8业务数据汇总分析进阶

3-9时间维度分析方法说明

3-10业务背景介绍

3-11理解及加工处理数据

3-12可视化界面创建方法介绍

3-13制作零售业销售情况分析仪

3-14业务背景介绍

3-15客户价值模型说明

3-16数据加工处理

3-17制作电商客户行为分析仪

3-18业务背景介绍

3-19理解餐饮业关键运营指标

3-20数据加工处理

3-21制作餐饮业日销售情况监控仪

3-22电商业务背景介绍

3-23电商流量指标体系说明

3-24数据加工处理

3-25制作电商流量分析仪

3-26业务背景介绍

3-27进销存关键指标说明

3-28数据加工处理

3-29制作经销商经营情况分析仪

3-30业务背景介绍

3-31数据说明

3-32制作车企销售情况分析仪

3-33由讲师介绍业务背景

3-34由讲师提供数据

3-35由学员独立完成业务分析仪的制作过程

3-36由学员分组发表制作成果并由讲师点评

4章数据挖掘数学基础

4-1函数

4-2极限

4-3微分及应用

4-4定积分

4-5向量

4-6线性方程组

4-7线性变化与矩阵

4-8矩阵乘法

4-9行列式

4-10矩阵的秩

4-11逆矩阵

4-12点乘与内积

4-13外积

4-14特征值与特征向量

4-15集中趋势的度量

4-16离散程度的度量

4-17偏态与峰态的度量

4-18统计量概念与常用统计量

4-19抽样分布

4-20样本均值的分布与中心极限定理

4-21样本比例的抽样分布

4-22两个样本平均值之差的分布

4-23样本方差的分布

4-24假设检验的基本概念

4-25一个总体参数的检验

4-26两个总体参数的检验

4-27分类数据与X2统计量

4-28拟合优度检验

4-29列联分析：独立性检验

4-30线性关系的方向和强度

4-31协方差

4-32相关系数

4-33一元线性回归模型

4-34多元线性回归模型

4-35逻辑回归模型

5章Python编程基础

5-1Python简介

5-2Python安装环境介绍

5-3Python常用IDE及Jupyter介绍

5-4Python第三方库安装

5-5编码与标识符

5-6Python保留字

5-7注释和缩进

5-8输入和输出

5-9变量及赋值

5-10数值

5-11字符串

5-12布尔值

5-13列表

5-14元组

5-15集合

5-16字典

5-17条件语句: If

5-18循环语句For和While

5-19Break语句

5-20Continue语句

5-21Pass语句

5-22错误和异常捕捉语句

5-23异常和错误处理

5-24逻辑判断函数

5-25数值运算函数

5-26序列函数

5-27类型转换函数

5-28函数定义

5-29函数参数

5-30默认参数

5-31变量作用域

5-32全局变量和局部变量

5-33匿名函数

5-34列表生成式

5-35高级函数: map、Reduce、 filter等

5-36模块概念介绍

5-37import模块导入

5-38自定义模块

5-39文件读写

5-40利用Python操作文件和目录

5-41类的定义

5-42类对象

5-43类方法

5-44Python连接数据库方法

5-45利用Python操作数据库

6章Python数据清洗

6-1NumPy基本介绍

6-2NumPy基本数据结构: Ndarray

6-3数组的索引与切片

6-4数组其他常用函数与方法

6-5Pandas基本数据结构: Series与DataFrame

6-6索引、切片与过滤

6-7排序与汇总

6-8DataFrame简单处理缺失值方法

6-9数据集的合并与连接

6-10重复值的处理

6-11数据集映射转化方法

6-12异常值查找与替换

6-13排序和随机抽样

6-14DataFrame字符串常用操作

6-15DataFrame分组操作

6-16

6-17 DataFrame聚合操作

6-18DataFrame透视表的创建方法

6-19数据的获取与存储

6-20数据探索

6-21数据清洗实战案例一

6-22数据清洗实战案例二

7章Python数据可视化

7-1数据可视化入门

7-2常用可视化第三方库介绍: matplotlib、seaborn、PyEcharts

7-3常用可视化图形介绍，如饼图、柱图、条形图、线图散点图等

7-4图形选择

7-5Pandas绘图方法

7-6图例配置方法和常用参数

7-7颜色条配置方法和常用参数

7-8subplot多子图绘制方法

7-9文字与注释、自定义坐标轴方法

7-10Seaborn入门介绍

7-11Seaborn API介绍

7-12Seaborn绘图示例

7-13Echarts介绍

7-14PyEcharts API介绍

7-15PyEcharts绘图示例

8章Python统计分析

8-1数据描述

8-2数据分布与统计信息

8-3数据角色定义

8-4大数据存储

8-5最小二乘估计

8-6线性回归与相关

8-7线性回归与方差分析

8-8数据分析流程

8-9多元线性回归的假设

8-10正态分布问题

8-11异方差问题与处理

8-12异常值问题与处理

8-13共线性问题与处理

8-14内生性问题与处理

8-15logistic回归与卡方

8-16大似然估计

8-17logistic回归解析

8-18评分与预测

8-19分类比例平衡问题

8-20工具变量的使用

8-21哑变量处理

8-22变量筛选

9章机器学习快速入门

9-1机器学习入门介绍：机器学习基本思想、常用算法分类、算法库等

9-2Python机器学习算法库Scikit-Learn入门介绍

9-3超参数与模型验证：学习曲线、网格搜索

9-4特征工程概念介绍

9-5分类特征、文本特征

9-6图像特征、特征衍生

9-7缺失值填充、特征管道

9-8KNN基本原理

9-9KNN函数详解

9-10KNN高级数据结构实现

9-11原理补充：归一化方法、学习曲线、交叉验证

9-12KNN-最近邻分类器

9-13KNN算法示例

9-14无监督学习与聚类算法

9-15聚类分析概述与簇的概念

9-16距离衡量方法

9-17聚类目标函数和质心计算方法

9-18Scikit-Learn实现K-Means及主要参数解

9-19决策树工作原理

9-20构建决策树（ID3算法构建决策树及局限性）

9-21C4.5与CART算法

9-22决策树的Scikit-Learn实现：八个参数、一个属性、四个接口解析

9-23分类模型的评估指标（混淆矩阵原理）

9-24实例：泰坦尼克号幸存者的预测

9-25过拟合与欠拟合

9-26决策树算法评价（优点与缺点）

9-27决策树在保险行业中的应用

10章机器学习进阶

10-1线性回归概述

10-2多元线性回归基本原理

10-3模型参数求解方法

10-4回归类模型评价标准:精准性、拟合度

10-5多重共线性与岭回归、Lasso

10-6非线性问题及其处理方法

10-7多项式回归

10-8MSE

10-9R^2

10-10最小二乘法

10-11梯度下降

10-12名为“回归\"的分类器

10-13二元逻辑回归的损失函数

10-14逻辑回归的重要参数

10-15梯度下降求解逻辑回归最小损失函数

10-16概率分类器概述

10-17朴素贝叶斯概述

10-18不同分布下的朴素贝叶斯

10-19高斯贝叶斯下的拟合效果与运算速度

10-20多项式朴素贝叶斯及其优化

10-21AUC

10-22ROC

10-23关联规则概述:频繁项集的产生与

10-24关联发现

10-25Apriori算法原理:先验原理

10-26使用Apriori算法来发现频繁项集(生成候选项集(函数的构建与封装)、项集迭代函数)

10-27协同概率概述

10-28协同过滤算法分类

10-29基于商品的协同过滤

10-30基于协同过滤的商品个性化推荐

10-31集成算法概述Bagging Vs Boosting、集成算法的认识

10-32随机森林分类器的实现:重要参数、重要属性和接口

10-33随机森林回归器的实现:重要参数、属性与接口

10-34机器学习中调参的基本思想(泛化误差)

10-35调参应用:随机森林在乳腺癌数据上的调参

10-36MSE

10-37R^2

10-38最小二乘法

10-39梯度下降

10-40数据处理概述

10-41数据量纲处理:归一化、标准化

10-42缺失值处理

10-43分类型数据处理:数据编码与哑变量

10-44连续性数据处理:二值化与分箱

10-45特征选择:过滤法、嵌入法、包装法

10-46SVM概述: SVM工作原理

10-47SVM模型构建

10-48线性SVM:线性SVM的损失函数、函数间隔有几何间隔、SVM决策边界

10-49非线性SVM: SVC模型概述、重要参数、核函数、SVC重要参数(C、class weight)

10-50感知机

10-51多层感知机

10-52初识神经网络

10-53梯度提升树概述

10-54XGBoost选择若分类器

10-55求解目标函数

10-56参数化决策树

10-57建立目标函数与树结构的直接关系

10-58贪婪算法与求解优树

10-59XGBoost的剪枝参数:减轻过拟合

10-60XGBoost分类中的样本不均衡问题处

10-61基于XGboost的航空预测

11章评分卡案例

11-1评分卡业务逻辑介绍

11-2案例业务背景介绍

11-3基本分析工具与环境准备

11-4数据准备

11-5数据预处理

11-6数据比例调节：过度抽样

11-7构造训练集和测试集

11-8变量相关性分析

11-9数据的缺失值与异常值

11-10变量数据类型重编码

11-11Logistic模型原理回顾

11-12Logistic建模

11-13利用Logistic模型进行变量筛选

11-14分类模型评估指标回顾

11-15过度抽样调整

11-16收益矩阵

11-17模型转化评分卡

11-18Python模型部署方法

11-19构建机器学习流

11-20模型效果监测与更新

12章电商零售

12-1项目商业问题简述

12-2项目策略与方法

12-3项目推荐计划

12-4项目时间规划

12-5购买倾向模型

12-6方法原理介绍

12-7目标以及数据介绍

12-8Python算法实现（Gradient Boosting）

12-9建模结果解读

12-10购买倾向模型

12-11目标以及数据介绍

12-12Python算法实现

12-13建模结果解读

12-14活动设计

12-15结果评价

13章Python网络爬虫（录播）

13-1网络爬虫定义

13-2网络爬虫用途

13-3通用搜索引擎工作的原理和局限性

13-4爬虫基本原理与流程

13-5常见网络爬虫分类

13-6基于IP地址搜索策略

13-7广度优先搜索策略

13-8深度优先搜索策略

13-9优先搜索策略

13-10http基本原理介绍

13-11http请求过程

13-12网页组成

13-13HTML：超文本标记语言

13-14CSS：层叠样式表

13-15网页样式

13-16JavaScript(JS)

13-17网页的结构

13-18爬虫基本流程

13-19抓取数据的数据类型解析

13-20JavaScript渲染页面

13-21cookies介绍

13-22爬虫代理

13-23Robots协议介绍

13-24爬虫攻防入门

14章Tableau数据分析（录播）

14-1Tableau产品介绍

14-2Tableau操作界面介绍

14-3Tableau常用功能介绍

14-4Tableau连接数据源方法

14-5层级与下钻

14-6排序和分组

14-7创建和使用集

14-8筛选方法：筛选栏和筛选器

14-9数据处理常用参数

14-10参考线与趋势线

14-11常用预测方法

14-12可视化基本方法

14-13初级图表绘制方法：条形图、折线图、饼图、文字云、散点图、地图、树形图、气泡图等

14-14高级图表：子弹图、环形图、瀑布图、Bump Chart、Table Formatting

14-15使用Tableau制作仪表板

14-16逻辑运算

14-17数值运算

14-18字符串处理函数

14-19日期函数

14-20聚合函数

14-21数据背景和需求分析

14-22数据读取与预处理

14-23Top N客户汇总分析

14-24Top N客户销售额分析

15章分布式集群架构

15-1大数据概念介绍

15-2Hadoop入门与分布式集群基本概念

15-3Hadoop生态和及其技术栈

15-4Linux生态介绍

15-5常用虚拟化工具介绍

15-6常用Linux操作系统

15-7Vmware与VirtualBox

15-8Ubuntu操作系统与CentOS

15-9Ubuntu安装与常用命令

15-10JDK的安装与使用

15-11Hadoop安装与使用

15-12Hadoop单机运行方法

15-13Hadoop伪分布式运行方法

15-14利用多节点安装Hadoop集群

15-15Hadoop生态其他常用组件基本介绍

15-16数据仓库Hive安装方法

15-17分布式数据库Hbase安装方法

15-18ETL工具Sqoop安装方法

15-19Scala与Spark安装方法

16章Hadoop基础

16-1HDFS概念及设计原理

16-2HDFS体系结构和运行机制

16-3NameNode、DataNode、SecondaryNameNode配置文件及修改方法

16-4HDFS备份机制和文件管理机制

16-5NameNode、DataNode、SecondaryNameNode作用及运行机制

16-6HDFS的常用操作方法介绍

16-7HDFS Java API介绍

16-8HDFS Shell命令格式

16-9HDFS创建文件目录命令

16-10HDFS文件复制、重命名命令

16-11HDFS文件移动、删除命令

16-12HDFS其他常用命令

16-13YARN基本概念

16-14YARN相关进程介绍

16-15YARN核心组件及其功能

16-16YARN运行原理

16-17MapReduce概念及设计原理

16-18MapReduce运行过程类的调用过程

16-19Mapper类和Reducer类的继承机制

16-20Job生命周期

16-21MapReduce中block的调度及作业分配机制

16-22Mapreduce程序格式介绍

16-23MapReduce程序执行流程介绍

16-24MapReduce程序在浏览器中查看

16-25Mappre类和Reducer类的主要编写内容和模式

16-26Job的编写和实现

16-27MapReduce程序编写实操

16-28Jar包打包方法和集群运行

17章Sqoop安装与使用

17-1Sqoop组件介绍与发展历史

17-2Sqoop组件特性及核心功能

17-3ETL基本概念

17-4Hadoop生态中的数据转化方法

17-5Linux中安装Sqoop方法

17-6Sqoop集成MySQL方法

17-7Sqoop集成Hbase方法

17-8Sqoop集成Hive方法

17-9Sqoop功能测试

17-10Sqoop导入功能介绍

17-11Sqoop数据导入import命令基本格式

17-12Sqoop数据导入import命令常用参数

17-13利用Sqoop从MySQL中导入数据至HDFS

17-14Sqoop生成相应Java代码方法codegen

17-15利用Sqoop导入数据至Hive

17-16利用Sqoop导入数据至Hbase

17-17Sqoop导出功能介绍

17-18Sqoop数据导入export命令基本格式

17-19Sqoop数据导入export命令常用参数

17-20从HDFS中导出数据到MySQL

17-21从Hive导出数据到MySQL

17-22从Hbase导出数据到MySQL

18章分布式数据仓库Hbase

18-1分布式数据库和关系型数据库

18-2No-SQL数据库与面向列数据库特性讲解

18-3Hbase发展历史

18-4Hbase核心特性

18-5Hbase在Linux中的安装方法

18-6Hbase配置文件与修改方法

18-7Hbase与Zookeeper集成

18-8Hbase完全分布式安装与运行

18-9简单备份模式

18-10Hbase逻辑模型

18-11Hbase物理模型

18-12paxos算法与运行机制

18-13静态迁移与动态迁移

18-14Hbase基本操作方法

18-15Hbase Shell通用命令General

18-16表格创建命令Create

18-17常用查看命令list、describe

18-18使用put命令添加数据

18-19删除数据delete、delete all命令

18-20查看数据scan、get命令

18-21修改数据命令alter

18-22表格删除方法

18-23其他统计方法

18-24Hbase和Hive集成概述

18-25Hbase和Hive集成方法

18-26使用HQL操作Hbase中数据

18-27Hbase和Spark集成概述

18-28Hbase和Spark集成方法

18-29利用Spark编程读取Hbase中数据

19章数据仓库工具Hive

19-1数据仓库诞生背景与概念介绍

19-2常用数据仓库工具介绍

19-3分布式数据仓库工具介绍

19-4Hive核心特性

19-5Hive部署与访问

19-6Hive常用元数据服务与访问接口

19-7Hive数据模型

19-8数据存储结构

19-9Hive API distinct

19-10Hive API multi insert

19-11Hive API union all

19-12Hive API union all

19-13Hive API group by&order by

19-14Hive基本数据类型

19-15Hive复杂数据类型

19-16Hive数据定义方法

19-17创建、修改和删除表方法

19-18视图和索引的创建、修改和删除

19-19表中加载数据的方法

19-20表中导出数据方法

19-21查询操作

19-22连接操作

19-23子查询

19-24数据仓库企业开发平台

19-25数据仓库模型设计

19-26自助查询系统设计

19-27宽表设计与用户画像

19-28利用Hive进行网站流量分析

20章Spark基本原理与核心组件

20-1分布式计算框架介绍

20-2Spark诞生背景与发展历程

20-3Spark基本定位与核心特性

20-4Scala语言介绍：基础语法、编译环境、常用类型、声明；行、字符、二进制与文本文件的读取与写入

20-5Scala 函数：控制结构（赋值、条件、循环、输入输出）与函数（参数与过程）；数组操作（定义、遍历、转换）及常用算法

20-6Scala对象操作：的类和对象构造与继承、重写、抽象、转换；类与对象中特质的属性与使用，包的使用与引入

20-7Spark运行架构

20-8Spark运行基本流程

20-9RDD设计背景与基本概念

20-10RDD特性

20-11RDD之间依赖关系

20-12RDD运行过程

20-13Spark三种部署方式

20-14Spark与Hadoop统一部署

20-15Spark结构化数据模块Spark SQL

20-16Spark机器学习算法库Spark MLlib

20-17Spark流式计算框架Spark Streaming

20-18新一代Spark流式计算框架Structured Streaming

20-19Spark图计算框架GraphX

21章PySpark编程

21-1RDD创建方法

21-2RDD转换操作

21-3RDD行动操作

21-4RDD惰性机制

21-5RDD持久化操作

21-6打印元素方法

21-7键值对RDD创建方法

21-8常用键值对转换操作：reduceByKey、groupByKey、keys、values、sortByKey、mapValues、join等操作

21-9键值对RDD编程案例

21-10广播变量

21-11累加器

21-12pyspark.sql模块

21-13pyspark.streaming模块

21-14pyspark.ml模块

21-15pyspark.mllib模块

21-16pyspark.SparkConf类

21-17pyspark.SparkContext类

21-18pyspark.SparkFiles类

21-19pyspark.RDD类

21-20pyspark.Accumulator类

21-21pyspark.Broadcast类

22章Spark SQL

22-1Spark SQL与shark

22-2Spark SQL基本设计结构

22-3Spark SQL高级数据结构

22-4高级数据结构DataFrame概念介绍

22-5DataFrame与RDD

22-6DataFrame创建方法

22-7DataFrame常用操作

22-8利用RDD转化生成DataFrame

22-9利用反射机制推断RDD模式方法

22-10使用编程方式定义RDD模式

22-11常用外部数据源

22-12Parquet基本介绍

22-13读写Parquet方法

22-14读取MySQL中数据方法

22-15连接Hive读写数据方法

23章Spark ML

23-1机器学习入门介绍：机器学习基本思想、常用算法分类、算法库等

23-2Spark机器学习包ML和MLlib介绍

23-3特征矩阵与标签数组

23-4评估器与解释器

23-5特征工程概念介绍

23-6机器学习流概念介绍

23-7MLlib入门介绍

23-8MLlib向量的创建与使用，包括密集向量、稀疏向量、标签向量等

23-9MLlib矩阵的创建与使用，包括行矩阵、坐标矩阵、本地矩阵等

23-10MLlib基本统计方法：概括统计、相关性、抽样方法、假设检验、核密度估计等

23-11降维操作：PCA主成分分析与SVD奇异值分解

23-12线性回归分析

23-13逻辑归回

23-14决策树和随机森林

23-15支持向量机SVM

23-16ML机器学习流创建方法

23-17特征抽取、转化和选择：TF-IDF、CountVectorizer、Word2Vec

23-18快速聚类算法

23-19协同过滤算法

23-20集成算法

23-21反向传播神经网络

23-22SVM支持向量机分类和支持向量机回归

24章Spark Streaming

24-1流式计算简介

24-2流式计算核心概念

24-3常用流式计算框架介绍

24-4Spark流式计算框架：Spark Streaming与Structured Streaming

24-5流式计算数据源介绍

24-6常用高级数据源

24-7分布式日志系统Flume介绍与安装

24-8Flume使用方法

24-9分布式消息系统Kafka介绍与安装

24-10Kafka使用方法

24-11Kafka和Flume集成

24-12Spark Streaming简介

24-13Spark Streaming计算框架基本架构

24-14Dstream队列流基本概念

24-15Spark Streaming与基本数据源集成：文件流、套接字流、RDD队列流

24-16Spark Streaming与高级数据源集成：Kafka、Flume

24-17 Dstream转化操作与输出操作

24-18Structured Streaming简介

24-19Structured Streaming基本架构与计算流程

24-20DatazFrame创建与转换

24-21利用Structured Streaming进行流查询

24-22通过编写独立应用使用Structured Streaming

25章GraphX

25-1图计算基本概念

25-2图概念

25-3图处理技术，如图数据库、图数据查询、图数据分析、图数据可视化等

25-4图计算软件

25-5属性图概念

25-6属性图实例

25-7创建属性图方法

25-8graphx类介绍

25-9使用RDD构建图

25-10查看操作列表

25-11属性操作

25-12结构操作

25-13关联操作

25-14聚合操作

25-15缓存操作

25-16PageRank算法

25-17连通分支算法

25-18三角形计算算法

26章Flink流处理框架

26-1Flink的重要特点

26-2IDEA 集成开发环境

26-3Java基础及应用:基础语法、面向对象、异常处理、IO流、注解、反射等

26-4Flink部署

26-5Flink运行架构

26-6Flink 流处理API

26-7Flink中的Window

26-8时间语义与Wartermark

26-9ProcessFunction API

26-10状态编程和容错机制

26-11Table API 与SQL

26-12Flink CEP

27章大数据分析案例（三选二）

27-1数据采集平台、数仓、离线\\实时分析平台设计、框架选型、搭建流程及常见问题总结

27-2数据挖掘方法回顾

27-3CRISP-DM方法和SEMMA方法

27-4数据挖掘方法在大数据分析中的实践应用方法

27-5利用HDFS和Hbase进行简单数据处理

27-6利用Sqoop完成数据ETL过程

27-7利用数据仓库工具和Spark SQL进行数据清洗

27-8利用Spark MLlib构建机器学习流进行建模分析

27-9利用PyEcharts进行结果可视化展示

27-10流量：用户画像与精细化营销

27-11产品：产品生命周期管理

27-12活动：KPI检测体系构建

27-13品牌：品类管理与多位能力模型构建

27-14客户：客户细分与用户画像

27-15产品：产品生命周期与用户关系管理

27-16营销：精准营销、网络获客、客户维护与客户生命周期管理

27-17用户离网分析

27-18客户价值评估

27-19用户细分

27-20电信反欺诈模型的构建1章业务分析基础技能

1-1数据分析概述

1-2常用高阶函数

1-3条件格式应用

1-4数据透视表高阶应用

1-5图表进阶

1-6项目排期管理

1-7案例背景介绍

1-8动态考勤表制作

1-9每月考勤统计

1-10考勤汇总统计

1-11常用指标概述

1-12基础指标统计

1-13人力资源指标体系概述

1-14案例背景介绍

1-15员工绩效评定思路解析

1-16实操绩效统计及可视化

1-17案例背景介绍

1-18活动评估报表思路解析

1-19实操活动评估指标统计

1-20指导撰写报表结论

1-21图表应用

1-22零碎需求分析方法

1-23案例应用-核心产品分析

1-24案例应用-零售业商业智能看板

1-25RFM基础模型及拓展

1-26案例应用-用户画像

1-27树状结构分析方法概述

1-28案例应用-汽车行业分析报告

2章数据库应用技能

2-1数据库简介

2-2表结构的特点

2-3数据库分类

2-4MySQL简介

2-5数据库基本结构

2-6SQL语言分类

2-7SQL书写要求

2-8创建、使用及删除数据库

2-9创建表

2-10数据类型

2-11约束条件

2-12修改及删除表

2-13插入数据

2-14批量导入数据

2-15更新数据

2-16删除数据

2-17查询指定列

2-18查询不重复记录

2-19条件查询

2-20常用运算符

2-21空值查询

2-22设置别名

2-23模糊查询

2-24查询结果排序

2-25限制查询

2-26聚合运算

2-27分组查询

2-28分组后筛选

2-29内连接

2-30左连接

2-31右连接

2-32合并查询

2-33标量子查询

2-34行子查询

2-35列子查询

2-36表子查询

2-37字符串函数

2-38数学函数

2-39日期和时间函数

2-40分组合并函数

2-41逻辑函数

2-42开窗函数

2-43进阶练习

2-44数据来源及业务背景

2-45表关系梳理

2-46数据导入及字段处理

2-47数据查询

3章商业智能分析技能

3-1数据仓库结构说明

3-2基于数据仓库的数据处理方法

3-3数据仓库数据处理进阶

3-4数据仓库应用案例

3-5创建多维数据模型

3-6理解多维模型表连接规则

3-7业务数据分析指标介绍

3-8业务数据汇总分析进阶

3-9时间维度分析方法说明

3-10业务背景介绍

3-11理解及加工处理数据

3-12可视化界面创建方法介绍

3-13制作零售业销售情况分析仪

3-14业务背景介绍

3-15客户价值模型说明

3-16数据加工处理

3-17制作电商客户行为分析仪

3-18业务背景介绍

3-19理解餐饮业关键运营指标

3-20数据加工处理

3-21制作餐饮业日销售情况监控仪

3-22电商业务背景介绍

3-23电商流量指标体系说明

3-24数据加工处理

3-25制作电商流量分析仪

3-26业务背景介绍

3-27进销存关键指标说明

3-28数据加工处理

3-29制作经销商经营情况分析仪

3-30业务背景介绍

3-31数据说明

3-32制作车企销售情况分析仪

3-33由讲师介绍业务背景

3-34由讲师提供数据

3-35由学员独立完成业务分析仪的制作过程

3-36由学员分组发表制作成果并由讲师点评

4章数据挖掘数学基础

4-1函数

4-2极限

4-3微分及应用

4-4定积分

4-5向量

4-6线性方程组

4-7线性变化与矩阵

4-8矩阵乘法

4-9行列式

4-10矩阵的秩

4-11逆矩阵

4-12点乘与内积

4-13外积

4-14特征值与特征向量

4-15集中趋势的度量

4-16离散程度的度量

4-17偏态与峰态的度量

4-18统计量概念与常用统计量

4-19抽样分布

4-20样本均值的分布与中心极限定理

4-21样本比例的抽样分布

4-22两个样本平均值之差的分布

4-23样本方差的分布

4-24假设检验的基本概念

4-25一个总体参数的检验

4-26两个总体参数的检验

4-27分类数据与X2统计量

4-28拟合优度检验

4-29列联分析：独立性检验

4-30线性关系的方向和强度

4-31协方差

4-32相关系数

4-33一元线性回归模型

4-34多元线性回归模型

4-35逻辑回归模型

5章Python编程基础

5-1Python简介

5-2Python安装环境介绍

5-3Python常用IDE及Jupyter介绍

5-4Python第三方库安装

5-5编码与标识符

5-6Python保留字

5-7注释和缩进

5-8输入和输出

5-9变量及赋值

5-10数值

5-11字符串

5-12布尔值

5-13列表

5-14元组

5-15集合

5-16字典

5-17条件语句: If

5-18循环语句For和While

5-19Break语句

5-20Continue语句

5-21Pass语句

5-22错误和异常捕捉语句

5-23异常和错误处理

5-24逻辑判断函数

5-25数值运算函数

5-26序列函数

5-27类型转换函数

5-28函数定义

5-29函数参数

5-30默认参数

5-31变量作用域

5-32全局变量和局部变量

5-33匿名函数

5-34列表生成式

5-35高级函数: map、Reduce、 filter等

5-36模块概念介绍

5-37import模块导入

5-38自定义模块

5-39文件读写

5-40利用Python操作文件和目录

5-41类的定义

5-42类对象

5-43类方法

5-44Python连接数据库方法

5-45利用Python操作数据库

6章Python数据清洗

6-1NumPy基本介绍

6-2NumPy基本数据结构: Ndarray

6-3数组的索引与切片

6-4数组其他常用函数与方法

6-5Pandas基本数据结构: Series与DataFrame

6-6索引、切片与过滤

6-7排序与汇总

6-8DataFrame简单处理缺失值方法

6-9数据集的合并与连接

6-10重复值的处理

6-11数据集映射转化方法

6-12异常值查找与替换

6-13排序和随机抽样

6-14DataFrame字符串常用操作

6-15DataFrame分组操作

6-16

6-17 DataFrame聚合操作

6-18DataFrame透视表的创建方法

6-19数据的获取与存储

6-20数据探索

6-21数据清洗实战案例一

6-22数据清洗实战案例二

7章Python数据可视化

7-1数据可视化入门

7-2常用可视化第三方库介绍: matplotlib、seaborn、PyEcharts

7-3常用可视化图形介绍，如饼图、柱图、条形图、线图散点图等

7-4图形选择

7-5Pandas绘图方法

7-6图例配置方法和常用参数

7-7颜色条配置方法和常用参数

7-8subplot多子图绘制方法

7-9文字与注释、自定义坐标轴方法

7-10Seaborn入门介绍

7-11Seaborn API介绍

7-12Seaborn绘图示例

7-13Echarts介绍

7-14PyEcharts API介绍

7-15PyEcharts绘图示例

8章Python统计分析

8-1数据描述

8-2数据分布与统计信息

8-3数据角色定义

8-4大数据存储

8-5最小二乘估计

8-6线性回归与相关

8-7线性回归与方差分析

8-8数据分析流程

8-9多元线性回归的假设

8-10正态分布问题

8-11异方差问题与处理

8-12异常值问题与处理

8-13共线性问题与处理

8-14内生性问题与处理

8-15logistic回归与卡方

8-16似然估计

8-17logistic回归解析

8-18评分与预测

8-19分类比例平衡问题

8-20工具变量的使用

8-21哑变量处理

8-22变量筛选

9章机器学习快速入门

9-1机器学习入门介绍：机器学习基本思想、常用算法分类、算法库等

9-2Python机器学习算法库Scikit-Learn入门介绍

9-3超参数与模型验证：学习曲线、网格搜索

9-4特征工程概念介绍

9-5分类特征、文本特征

9-6图像特征、特征衍生

9-7缺失值填充、特征管道

9-8KNN基本原理

9-9KNN函数详解

9-10KNN高级数据结构实现

9-11原理补充：归一化方法、学习曲线、交叉验证

9-12KNN-最近邻分类器

9-13KNN算法示例

9-14无监督学习与聚类算法

9-15聚类分析概述与簇的概念

9-16距离衡量方法

9-17聚类目标函数和质心计算方法

9-18Scikit-Learn实现K-Means及主要参数解

9-19决策树工作原理

9-20构建决策树（ID3算法构建决策树及局限性）

9-21C4.5与CART算法

9-22决策树的Scikit-Learn实现：八个参数、一个属性、四个接口解析

9-23分类模型的评估指标（混淆矩阵原理）

9-24实例：泰坦尼克号幸存者的预测

9-25过拟合与欠拟合

9-26决策树算法评价（优点与缺点）

9-27决策树在保险行业中的应用

10章机器学习进阶

10-1线性回归概述

10-2多元线性回归基本原理

10-3模型参数求解方法

10-4回归类模型评价标准:精准性、拟合度

10-5多重共线性与岭回归、Lasso

10-6非线性问题及其处理方法

10-7多项式回归

10-8MSE

10-9R^2

10-10最小二乘法

10-11梯度下降

10-12名为“回归\"的分类器

10-13二元逻辑回归的损失函数

10-14逻辑回归的重要参数

10-15梯度下降求解逻辑回归最小损失函数

10-16概率分类器概述

10-17朴素贝叶斯概述

10-18不同分布下的朴素贝叶斯

10-19高斯贝叶斯下的拟合效果与运算速度

10-20多项式朴素贝叶斯及其优化

10-21AUC

10-22ROC

10-23关联规则概述:频繁项集的产生与

10-24关联发现

10-25Apriori算法原理:先验原理

10-26使用Apriori算法来发现频繁项集(生成候选项集(函数的构建与封装)、项集迭代函数)

10-27协同概率概述

10-28协同过滤算法分类

10-29基于商品的协同过滤

10-30基于协同过滤的商品个性化推荐

10-31集成算法概述Bagging Vs Boosting、集成算法的认识

10-32随机森林分类器的实现:重要参数、重要属性和接口

10-33随机森林回归器的实现:重要参数、属性与接口

10-34机器学习中调参的基本思想(泛化误差)

10-35调参应用:随机森林在乳腺癌数据上的调参

10-36MSE

10-37R^2

10-38最小二乘法

10-39梯度下降

10-40数据处理概述

10-41数据量纲处理:归一化、标准化

10-42缺失值处理

10-43分类型数据处理:数据编码与哑变量

10-44连续性数据处理:二值化与分箱

10-45特征选择:过滤法、嵌入法、包装法

10-46SVM概述: SVM工作原理

10-47SVM模型构建

10-48线性SVM:线性SVM的损失函数、函数间隔有几何间隔、SVM决策边界

10-49非线性SVM: SVC模型概述、重要参数、核函数、SVC重要参数(C、class weight)

10-50感知机

10-51多层感知机

10-52初识神经网络

10-53梯度提升树概述

10-54XGBoost选择若分类器

10-55求解目标函数

10-56参数化决策树

10-57建立目标函数与树结构的直接关系

10-58贪婪算法与求解优树

10-59XGBoost的剪枝参数:减轻过拟合

10-60XGBoost分类中的样本不均衡问题处

10-61基于XGboost的航空预测

11章评分卡案例

11-1评分卡业务逻辑介绍

11-2案例业务背景介绍

11-3基本分析工具与环境准备

11-4数据准备

11-5数据预处理

11-6数据比例调节：过度抽样

11-7构造训练集和测试集

11-8变量相关性分析

11-9数据的缺失值与异常值

11-10变量数据类型重编码

11-11Logistic模型原理回顾

11-12Logistic建模

11-13利用Logistic模型进行变量筛选

11-14分类模型评估指标回顾

11-15过度抽样调整

11-16收益矩阵

11-17模型转化评分卡

11-18Python模型部署方法

11-19构建机器学习流

11-20模型效果监测与更新

12章电商零售

12-1项目商业问题简述

12-2项目策略与方法

12-3项目推荐计划

12-4项目时间规划

12-5购买倾向模型

12-6方法原理介绍

12-7目标以及数据介绍

12-8Python算法实现（Gradient Boosting）

12-9建模结果解读

12-10购买倾向模型

12-11目标以及数据介绍

12-12Python算法实现

12-13建模结果解读

12-14活动设计

12-15结果评价

13章Python网络爬虫（录播）

13-1网络爬虫定义

13-2网络爬虫用途

13-3通用搜索引擎工作的原理和局限性

13-4爬虫基本原理与流程

13-5常见网络爬虫分类

13-6基于IP地址搜索策略

13-7广度优先搜索策略

13-8深度优先搜索策略

13-9优先搜索策略

13-10http基本原理介绍

13-11http请求过程

13-12网页组成

13-13HTML：超文本标记语言

13-14CSS：层叠样式表

13-15网页样式

13-16JavaScript(JS)

13-17网页的结构

13-18爬虫基本流程

13-19抓取数据的数据类型解析

13-20JavaScript渲染页面

13-21cookies介绍

13-22爬虫代理

13-23Robots协议介绍

13-24爬虫攻防入门

14章Tableau数据分析（录播）

14-1Tableau产品介绍

14-2Tableau操作界面介绍

14-3Tableau常用功能介绍

14-4Tableau连接数据源方法

14-5层级与下钻

14-6排序和分组

14-7创建和使用集

14-8筛选方法：筛选栏和筛选器

14-9数据处理常用参数

14-10参考线与趋势线

14-11常用预测方法

14-12可视化基本方法

14-13初级图表绘制方法：条形图、折线图、饼图、文字云、散点图、地图、树形图、气泡图等

14-14高级图表：子弹图、环形图、瀑布图、Bump Chart、Table Formatting

14-15使用Tableau制作仪表板

14-16逻辑运算

14-17数值运算

14-18字符串处理函数

14-19日期函数

14-20聚合函数

14-21数据背景和需求分析

14-22数据读取与预处理

14-23Top N客户汇总分析

14-24Top N客户销售额分析

15章分布式集群架构

15-1大数据概念介绍

15-2Hadoop入门与分布式集群基本概念

15-3Hadoop生态和及其技术栈

15-4Linux生态介绍

15-5常用虚拟化工具介绍

15-6常用Linux操作系统

15-7Vmware与VirtualBox

15-8Ubuntu操作系统与CentOS

15-9Ubuntu安装与常用命令

15-10JDK的安装与使用

15-11Hadoop安装与使用

15-12Hadoop单机运行方法

15-13Hadoop伪分布式运行方法

15-14利用多节点安装Hadoop集群

15-15Hadoop生态其他常用组件基本介绍

15-16数据仓库Hive安装方法

15-17分布式数据库Hbase安装方法

15-18ETL工具Sqoop安装方法

15-19Scala与Spark安装方法

16章Hadoop基础

16-1HDFS概念及设计原理

16-2HDFS体系结构和运行机制

16-3NameNode、DataNode、SecondaryNameNode配置文件及修改方法

16-4HDFS备份机制和文件管理机制

16-5NameNode、DataNode、SecondaryNameNode作用及运行机制

16-6HDFS的常用操作方法介绍

16-7HDFS Java API介绍

16-8HDFS Shell命令格式

16-9HDFS创建文件目录命令

16-10HDFS文件复制、重命名命令

16-11HDFS文件移动、删除命令

16-12HDFS其他常用命令

16-13YARN基本概念

16-14YARN相关进程介绍

16-15YARN核心组件及其功能

16-16YARN运行原理

16-17MapReduce概念及设计原理

16-18MapReduce运行过程类的调用过程

16-19Mapper类和Reducer类的继承机制

16-20Job生命周期

16-21MapReduce中block的调度及作业分配机制

16-22Mapreduce程序格式介绍

16-23MapReduce程序执行流程介绍

16-24MapReduce程序在浏览器中查看

16-25Mappre类和Reducer类的主要编写内容和模式

16-26Job的编写和实现

16-27MapReduce程序编写实操

16-28Jar包打包方法和集群运行

17章Sqoop安装与使用

17-1Sqoop组件介绍与发展历史

17-2Sqoop组件特性及核心功能

17-3ETL基本概念

17-4Hadoop生态中的数据转化方法

17-5Linux中安装Sqoop方法

17-6Sqoop集成MySQL方法

17-7Sqoop集成Hbase方法

17-8Sqoop集成Hive方法

17-9Sqoop功能测试

17-10Sqoop导入功能介绍

17-11Sqoop数据导入import命令基本格式

17-12Sqoop数据导入import命令常用参数

17-13利用Sqoop从MySQL中导入数据至HDFS

17-14Sqoop生成相应Java代码方法codegen

17-15利用Sqoop导入数据至Hive

17-16利用Sqoop导入数据至Hbase

17-17Sqoop导出功能介绍

17-18Sqoop数据导入export命令基本格式

17-19Sqoop数据导入export命令常用参数

17-20从HDFS中导出数据到MySQL

17-21从Hive导出数据到MySQL

17-22从Hbase导出数据到MySQL

18章分布式数据仓库Hbase

18-1分布式数据库和关系型数据库

18-2No-SQL数据库与面向列数据库特性讲解

18-3Hbase发展历史

18-4Hbase核心特性

18-5Hbase在Linux中的安装方法

18-6Hbase配置文件与修改方法

18-7Hbase与Zookeeper集成

18-8Hbase完全分布式安装与运行

18-9简单备份模式

18-10Hbase逻辑模型

18-11Hbase物理模型

18-12paxos算法与运行机制

18-13静态迁移与动态迁移

18-14Hbase基本操作方法

18-15Hbase Shell通用命令General

18-16表格创建命令Create

18-17常用查看命令list、describe

18-18使用put命令添加数据

18-19删除数据delete、delete all命令

18-20查看数据scan、get命令

18-21修改数据命令alter

18-22表格删除方法

18-23其他统计方法

18-24Hbase和Hive集成概述

18-25Hbase和Hive集成方法

18-26使用HQL操作Hbase中数据

18-27Hbase和Spark集成概述

18-28Hbase和Spark集成方法

18-29利用Spark编程读取Hbase中数据

19章数据仓库工具Hive

19-1数据仓库诞生背景与概念介绍

19-2常用数据仓库工具介绍

19-3分布式数据仓库工具介绍

19-4Hive核心特性

19-5Hive部署与访问

19-6Hive常用元数据服务与访问接口

19-7Hive数据模型

19-8数据存储结构

19-9Hive API distinct

19-10Hive API multi insert

19-11Hive API union all

19-12Hive API union all

19-13Hive API group by&order by

19-14Hive基本数据类型

19-15Hive复杂数据类型

19-16Hive数据定义方法

19-17创建、修改和删除表方法

19-18视图和索引的创建、修改和删除

19-19表中加载数据的方法

19-20表中导出数据方法

19-21查询操作

19-22连接操作

19-23子查询

19-24数据仓库企业开发平台

19-25数据仓库模型设计

19-26自助查询系统设计

19-27宽表设计与用户画像

19-28利用Hive进行网站流量分析

20章Spark基本原理与核心组件

20-1分布式计算框架介绍

20-2Spark诞生背景与发展历程

20-3Spark基本定位与核心特性

20-4Scala语言介绍：基础语法、编译环境、常用类型、声明；行、字符、二进制与文本文件的读取与写入

20-5Scala 函数：控制结构（赋值、条件、循环、输入输出）与函数（参数与过程）；数组操作（定义、遍历、转换）及常用算法

20-6Scala对象操作：的类和对象构造与继承、重写、抽象、转换；类与对象中特质的属性与使用，包的使用与引入

20-7Spark运行架构

20-8Spark运行基本流程

20-9RDD设计背景与基本概念

20-10RDD特性

20-11RDD之间依赖关系

20-12RDD运行过程

20-13Spark三种部署方式

20-14Spark与Hadoop统一部署

20-15Spark结构化数据模块Spark SQL

20-16Spark机器学习算法库Spark MLlib

20-17Spark流式计算框架Spark Streaming

20-18新一代Spark流式计算框架Structured Streaming

20-19Spark图计算框架GraphX

21章PySpark编程

21-1RDD创建方法

21-2RDD转换操作

21-3RDD行动操作

21-4RDD惰性机制

21-5RDD持久化操作

21-6打印元素方法

21-7键值对RDD创建方法

21-8常用键值对转换操作：reduceByKey、groupByKey、keys、values、sortByKey、mapValues、join等操作

21-9键值对RDD编程案例

21-10广播变量

21-11累加器

21-12pyspark.sql模块

21-13pyspark.streaming模块

21-14pyspark.ml模块

21-15pyspark.mllib模块

21-16pyspark.SparkConf类

21-17pyspark.SparkContext类

21-18pyspark.SparkFiles类

21-19pyspark.RDD类

21-20pyspark.Accumulator类

21-21pyspark.Broadcast类

22章Spark SQL

22-1Spark SQL与shark

22-2Spark SQL基本设计结构

22-3Spark SQL高级数据结构

22-4高级数据结构DataFrame概念介绍

22-5DataFrame与RDD

22-6DataFrame创建方法

22-7DataFrame常用操作

22-8利用RDD转化生成DataFrame

22-9利用反射机制推断RDD模式方法

22-10使用编程方式定义RDD模式

22-11常用外部数据源

22-12Parquet基本介绍

22-13读写Parquet方法

22-14读取MySQL中数据方法

22-15连接Hive读写数据方法

23章Spark ML

23-1机器学习入门介绍：机器学习基本思想、常用算法分类、算法库等

23-2Spark机器学习包ML和MLlib介绍

23-3特征矩阵与标签数组

23-4评估器与解释器

23-5特征工程概念介绍

23-6机器学习流概念介绍

23-7MLlib入门介绍

23-8MLlib向量的创建与使用，包括密集向量、稀疏向量、标签向量等

23-9MLlib矩阵的创建与使用，包括行矩阵、坐标矩阵、本地矩阵等

23-10MLlib基本统计方法：概括统计、相关性、抽样方法、假设检验、核密度估计等

23-11降维操作：PCA主成分分析与SVD奇异值分解

23-12线性回归分析

23-13逻辑归回

23-14决策树和随机森林

23-15支持向量机SVM

23-16ML机器学习流创建方法

23-17特征抽取、转化和选择：TF-IDF、CountVectorizer、Word2Vec

23-18快速聚类算法

23-19协同过滤算法

23-20集成算法

23-21反向传播神经网络

23-22SVM支持向量机分类和支持向量机回归

24章Spark Streaming

24-1流式计算简介

24-2流式计算核心概念

24-3常用流式计算框架介绍

24-4Spark流式计算框架：Spark Streaming与Structured Streaming

24-5流式计算数据源介绍

24-6常用高级数据源

24-7分布式日志系统Flume介绍与安装

24-8Flume使用方法

24-9分布式消息系统Kafka介绍与安装

24-10Kafka使用方法

24-11Kafka和Flume集成

24-12Spark Streaming简介

24-13Spark Streaming计算框架基本架构

24-14Dstream队列流基本概念

24-15Spark Streaming与基本数据源集成：文件流、套接字流、RDD队列流

24-16Spark Streaming与高级数据源集成：Kafka、Flume

24-17Dstream转化操作与输出操作

24-18Structured Streaming简介

24-19Structured Streaming基本架构与计算流程

24-20DatazFrame创建与转换

24-21利用Structured Streaming进行流查询

24-22通过编写独立应用使用Structured Streaming

25章GraphX

25-1图计算基本概念

25-2图概念

25-3图处理技术，如图数据库、图数据查询、图数据分析、图数据可视化等

25-4图计算软件

25-5属性图概念

25-6属性图实例

25-7创建属性图方法

25-8graphx类介绍

25-9使用RDD构建图

25-10查看操作列表

25-11属性操作

25-12结构操作

25-13关联操作

25-14聚合操作

25-15缓存操作

25-16PageRank算法

25-17连通分支算法

25-18三角形计算算法

26章Flink流处理框架

26-1Flink的重要特点

26-2IDEA 集成开发环境

26-3Java基础及应用:基础语法、面向对象、异常处理、IO流、注解、反射等

26-4Flink部署

26-5Flink运行架构

26-6Flink 流处理API

26-7Flink中的Window

26-8时间语义与Wartermark

26-9ProcessFunction API

26-10状态编程和容错机制

26-11Table API 与SQL

26-12Flink CEP

27章大数据分析案例（三选二）

27-1数据采集平台、数仓、离线\\实时分析平台设计、框架选型、搭建流程及常见问题总结

27-2数据挖掘方法回顾

27-3CRISP-DM方法和SEMMA方法

27-4数据挖掘方法在大数据分析中的实践应用方法

27-5利用HDFS和Hbase进行简单数据处理

27-6利用Sqoop完成数据ETL过程

27-7利用数据仓库工具和Spark SQL进行数据清洗

27-8利用Spark MLlib构建机器学习流进行建模分析

27-9利用PyEcharts进行结果可视化展示

27-10流量：用户画像与精细化营销

27-11产品：产品生命周期管理

27-12活动：KPI检测体系构建

27-13品牌：品类管理与多位能力模型构建

27-14客户：客户细分与用户画像

27-15产品：产品生命周期与用户关系管理

27-16营销：精准营销、网络获客、客户维护与客户生命周期管理

27-17用户离网分析

27-18客户价值评估

27-19用户细分

27-20电信反欺诈模型的构建

看了此课程的学员还看了

计算机等级考试二级 Ms office高级应用

小班/1对1

请询价
北京火星时代·虚幻4

小班

请询价
零基础JAVA培训

小班

请询价
北京达内·高级Java互联网架构师

小班

请询价
软考中级-信息安全工程师课程

小班

请询价
誉天安全直通车就业班

小班

请询价
vr影视合成培训

小班

请询价
阿里云认证培训

小班

请询价
物联网课程

小班

请询价
ACCP软件开发

小班

请询价
产品经理周末特训

小班

请询价
北京博为峰·IT开发软件培训

小班

请询价

「北京CDA数据分析师」是北京国富如荷网络科技有限公司在教育宝平台开设的店铺，若该店铺内信息涉嫌虚假或违法，请点击这里向教育宝反馈，我们将及时进行处理。

机构评分

环境：4.0师资：4.0服务：4.0效果：4.0

公示信息

店铺名称：北京CDA数据分析师

单位名称：北京国富如荷网络科技有限公司

账号名称：bjgfrh（185******88）

所属城市：北京

入驻时长：9年会员

联系电话：400-029-0997 转 18827

CDA大数据就业班

课程介绍

校区更多

您可能还关注

看了此课程的学员还看了

计算机等级考试二级 Ms office高级应用

北京火星时代·虚幻4

零基础JAVA培训

北京达内·高级Java互联网架构师

软考中级-信息安全工程师课程

誉天安全直通车就业班

vr影视合成培训

阿里云认证培训

物联网课程

ACCP软件开发

产品经理周末特训

北京博为峰·IT开发软件培训

机构评分

公示信息

相关课程

校区更多