仟学网[ 切换手机浏览 ]

青岛北方互联学院

19937611565
当前位置:首页 / 学校课程

ETL大数据分析就业办

学校:青岛北方互联学院 发布时间:2021-09-24 16:31:37 浏览次数:1165

  • 授课方式

    线上课程线下课程

  • 课程价格

    咨询客服超值优惠

  • 上课地点

    山东.青岛

  • 课程时长

    详细咨询客服老师

  • 课程时间

    长期有效

  • 适用学员

    适龄学员

课程详情
课程简介:

数据的概念 2. 数据的内容 3. 数据属性及数据集 4. 数据特征的统计描述 5. 数据的可视化 6. 数据相似与相异性的度量 7. 数据质量 8. 数据预处理

ETL大数据分析就业办

第一阶段内容

模块一 数据仓库架构概述

1. 数据仓库概述

2. 数据库

3. 混合型数据中心之大数据平台

4. 混合型数据中心参考架构

模块二 ORACLE-SQL基础

1. 数据库控制 2. 数据库对象

模块三 ORACLE-PLSQL

1. SQL语言的基本结构  2. PLSQL高级编程

模块四 数据挖掘理论基础

1. 数据的概念 2. 数据的内容 3. 数据属性及数据集 4. 数据特征的统计描述 5. 数据的可视化 6. 数据相似与相异性的度量 7. 数据质量 8. 数据预处理

模块五 大数据ETL基础

1. 从数据库到数据仓库 2. 数据仓库的架构 3. 数据仓库的数据模型 4. ETL技术 5. 联机分析处理--OLAP 6. OLAP的数据模型


第二阶段内容

模块一 大数据的加工与处理

1. 抽取工具的特征 2. KETTLE的使用

模块二 数据挖掘的应用

1. 数据挖掘的起源 2. 数据挖掘的定义 3. 数据挖掘的任务 4. 数据挖掘标准流程

模块三 Linux

1. Linux系统详解 2. Linux系统进程 3. Linux启动流程 4. vi、vim编辑器 5. Linux用户和组账户管理 6. Linux磁盘管理 7. Linux系统文件权限管理 8. Linux的RPM软件包管理 9. yum 10. Linux网络 11. Shell编程 12. Linux上常见软件的安装

模块四 Hadoop

1. Hadoop概述 2. HDFS 3. Mapreduce 4. Mapreducer案例 5. Hadoop2.x集群

第三阶段内容

模块一 HBase

1. HBase与RDBMS的对比 2. 数据模型 3. 系统架构 4. HBase上的MapReduce 5. 表的设计 6. 集群的搭建过程讲解 7. 集群的监控 8. 集群的管理 9. HBase Shell以及演示 10. Hbase树形表设计 11. Hbase一对多和多对多表设计 12. Hbase微博案例 13. Hbase订单案例 14. Hbase表级优化 15. Hbase数据读写优化

模块二 Hive

1. 数据仓库基础知识 2. Hive定义 3. Hive体系结构简介 4. Hive集群 5. 客户端简介 6. HiveQL定义 7. HiveQL与SQL的比较 8. 数据类型 9. 外部表和分区表 10. DDL与CLI客户端演示


第四阶段内容

模块一 Sqoop

1. 配置和介绍Sqoop 2. Sqoop shell使用 3. Sqoop- import 4. DBMS- hdfs 5. DBMS- hive 6. DBMS- hbase 7. Sqoop- export

模块二 Flume

1. flume简介-基础知识 2. flume安装与测试 3. flume部署方式 4. flume source相关配置及测试 5. flume sink相关配置及测试 6. flume selector 相关配置与案例分析 7. flume Sink Processors相关配置和案例分析 8. flume Interceptors相关配置和案例分析 9. flume AVRO Client开发 10. flume和kafka 的整合

模块三 Zookeeper

1. Zookeeper java API开发 2. Zookeeper RMI高可用分布式集群开发 3. Zookeeper REDIS高可用监控实现 4. NETTY异步IO通信框架 5. Zookeeper实现NRTTY分布式架构的高可用

第五阶段内容

模块一 Hue

1. Cloudera Hadoop Manager的分布式集群部署搭建 2. 基于文件浏览器(File Browser)访问HDFS 3. 基于Hive编辑器来开发和运行Hive查询 4. 基于Solr进行搜索的应用,并提供可视化的数据视图,以及仪表板(Dashboard) 5. 基于Impala的应用进行交互式查询 6. Spark编辑器和仪表板(Dashboard) 7. Oozie编辑器,可以通过仪表板提交和监控Workflow、Coordinator和Bundle

模块二 Python编程

1.介绍Python以及特点 2. Python的安装 3. Python基本操作(注释、逻辑、字符串使用等) 4. Python数据结构(元组、列表、字典) 5. 使用Python进行批量重命名 6. Python常见内建函数 7. Python函数及使用常见技巧 8. Python异常的处理 9. Python函数的参数讲解


第六阶段内容

模块一 Scala编程

1. scala解释器、变量、常用数据类型等 2. scala的条件表达式、输入输出、循环等控制结构 3. scala的函数、默认参数、变长参数等 4. scala的数组、变长数组、多维数组等 5. scala的映射、元组等操作 6. scala的类,包括bean属性、辅助构造器、主构造器 7. scala的对象、单例对象、伴生对象、扩展类、apply方法

模块二 Spark-Score

1. Spark介绍 2. Spark应用场景 3. Spark和Hadoop MR、Storm的比较和优势 4. RDD 5. Transformation 6. Action 7. Spark计算PageRank 8. Lineage 9. Spark模型简介 10. Spark缓存策略和容错处理 11. 宽依赖与窄依赖

第七阶段内容

模块一 Spark-Streaming

1. Spark Streaming:数据源和DStream 2. sparksql 编程实战 3 spark的多语言操作 4. spark新版本的新特性

模块二 Kafka

1. kafka是什么 2. kafka体系结构 3. kafka的存储策略 4. java编程操作kafka 5. scala编程操作kafka 6. flume和kafka的整合 7. Kafka和storm的整合

模块三 Storm

1. Storm的基本概念 2. Storm的应用场景 3. Storm集群搭建 4. Storm配置文件配置项讲解 5. 集群搭建常见问题解决

模块四 Hadoop项目实战

1.项目实战一 2.项目实战二

 

数据仓库项目简介: 整合各个业务线数据,为各个业务系统提供统一&规范的数据出口。是整个大数据系统中的关键,是所有数据分析、数据挖掘等工作的基础。


数仓项目开发流程: 技术选型-数据采集-数仓设计-数仓开发-任务调度-项目优化。 项目性能指标: 满足日增100T+数据处理;查询速度满足秒级查询。 项目收获: 学习并掌握数据仓库的分层设计&数据仓库从0~1的构建过程。

 

热线监控项目简介: 对整个监控系统的一个可视化数据大屏展示,分别体现出诉求业务总量,转办案件排名,资讯业务重量,来电资讯分类等数据进行分析。


学校地址:山东.青岛


免费试听

免费体验课开班倒计时

::

信息已加密,请放心提交,提交后会有专业老师给您回电,请保持电话畅通。

咨询电话:19937611565

联系老师:刘老师

qq:3560338864

备案号:豫ICP备2021023226号-1 @青岛北方互联学院ALL Rights Reserved 技术支持:仟学网