曙海教學優勢
本課程以項目實現為導向,面向企事業項目實際需要,秉承二十一年積累的教學品質,老師將會與您分享設計的全流程以及工具的綜合使用經驗、技巧。線上/線下/上門皆可,課程可定制,熱線:4008699035。
曙海培訓的課程培養了大批受企業歡迎的工程師。曙海培訓的課程在業內有著響亮的知名度。大批企業和曙海
建立了良好的合作關系,合作企業30萬+。
主題1:大數據平臺方案與實施 ·?大數據基礎與發展過程 ·?傳統大規模數據處理與分析存在的問題 ·?大數據計算框架 o?離線計算框架 o?流式計算框架 o?內存計算框架 ·?大數據平臺方案 o?Apache Hadoop方案 §?核心組件 §?Hadoop 1.0與2.0版本關聯與區別 §?Hadoop生態系統 o?國外主流大數據平臺方案 §?CDH?、Hortonworks、MapR §?傳統IT公司方案:Oracle Exadata,SAP HANA o?國內主流大數據平臺方案與廠商 o?大數據平臺方案比較 ·?大數據的行業應用 ·?大數據的落地實施挑戰 ? 主題2:大數據計算模型(一)–批處理MapReduce ·?MapReduce編程模型 o?Map處理 o?Reduce處理 o?MapReduce主程序設置 ·?MapReduce處理流程 o?數據讀取collect o?中間數據sort o?中間數據spill o?中間數據shuffle o?聚合分析reduce ·?MapReduce開發高級應用 o?Combiner技術與應用場景 o?Partitioner技術與應用場景 o?多Reducers應用 ·?MapReduce開發與應用實踐 o?Hadoop平臺搭建與運行 o?MapReduce安裝與部署 o?應用案例:基于HDFS+MapReduce集成的服務器日志分析采集、存儲與分析MapReduce程序實例開發與運行 ? 主題3:大數據存儲系統 ·?HDFS分布式文件系統 o?HDFS系統架構與原理 o?NameNode功能詳解 §?fsimage和editslog o?DataNode功能詳解 §?block的備份策略 o?HDFS讀寫機制 o?HDFS高可用方案 §?NameNode單點故障解決方案 §?NFS冷備份 ? |
? |
主題4:Hadoop軟件框架與優化 ·?Hadoop1.0框架 o?Hadoop JobTracker o?Hadoop TaskTracker ·?Hadoop 2.0?框架 o?ResourceManager組件 o?NodeManager組件 o?ApplicationMaster組件 o?YARN組件 ·?Hadoop 2.0?資源調度優化 o?YARN調度原理 o?CapacityScheduler o?FairScheduler ·?Hadoop框架組件調優 o?慢啟動優化 o?心跳優化 o?容錯優化 o?MR計算框架參數調優 ·?HDFS調優 o?RPC線程調優 o?本地文件系統調優 o?RAID與卷管理調優 o?小文件優化 ? 主題5:大數據計算模型(二)實時交互計算– Spark ·?Spark編程模型 o?Scala:面向函數的編程 o?Scala常見函數與開發 o?Scala編譯和運行 ·?Spark RDD開發模型 o?Spark RDD運行機制 o?Spark RDD主要Transformation §?map §?flatmap §?filter §?union §?reduceByKey §?groupByKey o?Spark RDD主要Action §?count §?collect §?saveAsTextFile o?Spark RDD依賴關系 §?寬依賴 §?窄依賴 ·?Spark集群架構與關鍵組件 ·?Spark作業運行機制 o?執行DAG圖 o?任務集 o?executor執行模型 ·?Spark開發與應用實踐 o?Spark運行環境搭建與部署 o?應用案例 §?基于HDFS+Flume+Spark的服務器運行日志實時分析Spark程序實例開發與運行 ? ? 主題6:SQL on Hadoop大數據查詢 ·?基于MapReduce的大數據查詢Hive o?Hive架構與工作原理 o?Hive數據加載 o?Hive內部表和外部表 o?Hive分區表和分通表 o?Hive的存儲方式 §?列存儲和行存儲 o?Hive SQL基本操作 ·?基于Spark的大數據查詢SparkSQL o?SparkSQL工作原理與執行機制 o?SparkSQL數據模型DataFrame o?SparkSQL數據讀取與結果保存 §?json §?Hive table §?Parquet file §?RDD o?SparkSQL和Hive的區別與聯系 o?實踐SparkSQL操作 §?數據表讀取、查詢與結果保存 ? |
? |
主題7:大數據計算模型(三) 流計算 ·?流數據處理應用場景 o?流數據處理特點 o?流計算系統:SparkStreaming,Storm對比 ·?流數據計算框架:Spark Streaming o?Spark Streaming基本概念 o?Spark Streaming數據模型DStream o?Spark Streaming架構與工作機制 o?Spark Streaming數據源操作 o?Spark Streaming開發示例 §?基于文件流的SparkStraeming程序 §?基于socket流的SparkStraeming程序 ·?流數據計算框架:Storm o?Storm基本概念 o?Storm編程模型 §?Spout,Bolt, Topology o?數據流分組 o?并發度設置 o?容錯機制 ? 主題8:NoSQL數據庫 ·?NoSQL數據庫 o?關系型數據庫瓶頸 o?NoSQL數據庫概念,分類與適用場景 §?HBase,MongoDB,Redis ·?列存儲NoSQL數據庫HBase o?Hbase原理與數據模型 §?行、列簇、時間戳 o?HBase系統架構 §?Hmaster §?RegionServer §?Zookeeper o?HBase的讀寫機制 §?LSM結構的數據組織與讀寫 o?Hbase表的設計原則 §?高表與寬表 §?rowkey設計 o?Hbase適用場景 ? 主題9:大數據采集 ·?RDBMS與Hadoop數據轉換工具Sqoop o?Sqoop工作原理 ·?文件采集工具Flume o?Flume組件與運行 o?Flume常用配置 ·?Kafka o?Kafka基本概念: producer, broker, consumer o?Kafka集群架構 o?Kafka運行機制 o?Kafka應用場景 ? |
? |
?