曙海教學優勢
本課程以項目實現為導向,面向企事業項目實際需要,秉承二十一年積累的教學品質,老師將會與您分享設計的全流程以及工具的綜合使用經驗、技巧。線上/線下/上門皆可,課程可定制,熱線:4008699035。
曙海培訓的課程培養了大批受企業歡迎的工程師。曙海培訓的課程在業內有著響亮的知名度。大批企業和曙海
建立了良好的合作關系,合作企業30萬+。
本次Spark培訓將為大家全面而又深入的介紹Spark平臺的構建流程,涉及Spark系統基礎知識,概念及架構, Spark實戰技巧,Spark經典案例等。
通過本課程實踐,幫助學員對Spark生態系統有一個清晰明了的認識;理解Spark系統適用的場景;掌握Spark等初中級應用開發技能;搭建穩定可靠的Spark集群,滿足生產環境的標準;了解和清楚大數據應用的幾個行業中的經典案例,包括阿里巴巴,騰訊,百度等互聯網行業,中國移動和聯通等運營商。
Spark已經被不少互聯網公司采用,大部分數據挖掘算法和迭代式算法在逐步MapReduce平臺遷移到Spark平臺中,包括阿里巴巴(廣告系統),騰訊(廣點通精準推薦),百度,優酷土豆,360,支付寶等互聯網公司已經在線上產品中使用spark,且取得了令人滿意的效果,另外,部分省份的運營商也正在嘗試使用spark解決數據挖掘和分析問題,部分銀行,如工商銀行,也正在嘗試spark平臺。
各類 IT/軟件企業和研發機構的軟件架構師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人,效果最佳。
1) 了解Java語言(Scala語言會作為課程內容進行介紹);
2) 了解Linux系統;
Spark大數據架構概述及案例簡介
1. 1介紹Spark大數據層級架構及各層軟件設計要求,包括數據收集,大數據存儲,大數據計算框架,大數據應用等
1.2. Hadoop與Spark區別與關系
1.3. Spark生態系統概述以及版本演化,并給出spark版本選擇建議
1.4. Spark典型案例簡介(簡要介紹案例,具體在后面各節會詳細介紹)
Spark商品推薦系統、用戶標簽系統
Spark產生動機與基本概念
2.1 Spark產生背景,與MapReduce對比,其優缺點是什么
2.2 Spark核心概念
(1)RDD
(2)基本操作:transformation與 action
2.2 Spark程序架構
(1)Driver/executor
(2)容錯機制
Spark安裝部署
3.1 Spark運行模式簡介、standlone模式、Spark on yarn模式
3.2 搭建一個spark on yarn集群、搭建yarn集群、運行第一個spark程序
Spark程序設計實例
4.1 Scala語言基礎,常用語法以及庫函數
4.2 Spark程序設計方法
1.Spark程序基本構成,SparkContext,RDD,transformation/action
2.Spark API介紹
(1) 如何創建RDD(scala集合,HDFS文件,HBase文件等)
(2)如何基于RDD進行數據處理,介紹常見的分布式算子
(3)如何保存處理結果(返回到driver端,寫入hdfs等)
(4)廣播變量與累加器
4.3 Spark程序設計實例
(1)分布式Pi估算程序
(2)K-means分類算法實現
(3)邏輯回歸算法實現
Spark內部原理
5.1 Spark程序運行流程概述
介紹Spark從提交,到調度,到最后執行完成整個過程
5.2 Spark內部執行流程
介紹Spark程序內部的邏輯查詢計劃,物理查詢計劃,調度等幾個環節
5.3 Spark shuffle實現
介紹Spark shuffle發展史及實現邏輯
5.4 Spark算子的內部機制
以reduce By Key和group By Key為例介紹spark算子的內部實現原理
Spark與外部系統整合
6.1 Spark與Kafka和flume結合
介紹如何使用kafka和flume將數據導入hadoop中,以便使用spark處理
6.2 Spark與Storm結合
介紹如何使用spark實時處理數據
6.3 Spark與HBase和HDFS結合
介紹Spark如何與HBase和HDFS實現數據的讀寫交互
6.4 Spark與關系型數據庫和hive結合
介紹如何使用spark與關系型數據庫和hive結合
Spark調優方法
Spark調優思想、方法
Spark案例分析
基于Spark的商品推薦系統,包括:項目背景、項目架構、項目實施
Spark Streaming應用及案例分析
8.1 Spark Streaming產生動機
8.2 Spark Streaming程序設計
(1)創建DStream
(2)基于DStream進行流式處理
8.3 Spark Streaming容錯與性能優化
(1)Spark Streaming容錯機制
(2)如何對spark Streaming進行優化
8.4 Spark Streaming案例分析
基于Spark Streaming的用戶標簽系統,內容包括項目背景,項目架構以及實施方法
Spark SQL
9.1 Spark SQL定位
9.2 如何使用SparkSQL處理數據
(1)使用SparkSQL處理HDFS上數據
(2)使用SparkSQL處理Hive中的數據
9.3 Spark SQL與Spark及Spark Streaming結合
MLlib
10. 介紹Spark的數據挖掘庫MLlib,重點介紹其內部的幾個分類算法,聚類算法和推薦算法,包括邏輯回歸,K-Means,協同過濾等
GraphX
11. 介紹Spark內部的圖計算框架GraphX,重點介紹它的基本原理及使用方法