大數(shù)據(jù)平臺建設培訓大綱
大數(shù)據(jù)發(fā)展歷程及主流技術棧構成
1. 為什么會出現(xiàn)大數(shù)據(jù),大數(shù)據(jù)的演進過程是怎么樣的
2. 商業(yè)智能BI、數(shù)據(jù)倉庫DW、數(shù)據(jù)湖DL、數(shù)據(jù)中臺的原理、區(qū)別和核心職能
3. 支撐大數(shù)據(jù)平臺的主流框架技術介紹:Spark、Flink、HDFS、HBase、Hive、Kylin、Presto、Kafka、ClickHouse 等
整體大數(shù)據(jù)平臺核心板塊構成及架構設計
1. 整體大數(shù)據(jù)處理鏈路介紹及每個環(huán)節(jié)的技術選型方案
2. 五大核心板塊介紹:數(shù)據(jù)接入處理(收集、接收、解析、標準化 等)、數(shù)據(jù)治理與管理(安全脫敏、ID-Mapping血緣圖譜、主體式數(shù)據(jù)倉庫 等)、數(shù)據(jù)消費提取(批量、實時、T+1、API 等)、數(shù)據(jù)鏈路跟蹤(數(shù)據(jù)回溯、中間狀態(tài)追蹤、數(shù)據(jù)服務保障 等)、數(shù)據(jù)工具支撐(可視化建模、任務調度、數(shù)據(jù)搬遷 等)
3. 整體大數(shù)據(jù)架構設計介紹:技術架構、存儲與計算架構、部署架構、容災架構,實時流計算,離線存儲的核心本質,如何監(jiān)測實時流處理過程中的問題回溯
4. HDFS、HBase、Hive、Kylin、Spark Streaming/SQL、Flink的底層核心原理及適用業(yè)務場景(結合實際工程代碼方式講解)
大型分布式數(shù)據(jù)倉庫建模思路與實踐
1. 軟件系統(tǒng)建模方法:(結構型)類圖、對象圖、構件圖、部署圖、包圖;(行為型)動圖、狀態(tài)機圖、順序圖、通信圖、用例圖、時間圖
2. 常用數(shù)據(jù)建模方法:實體建模法、維度建模法、范式建模法(結合案例講解)
3. 基于中臺思想,數(shù)據(jù)分層的主體思路與重要性介紹
4. 基于分布式數(shù)據(jù)倉庫,針對數(shù)據(jù)的采集、處理、建模的佳實踐介紹
5. 數(shù)據(jù)倉庫建設方法論,星型模型(非關系型DB存儲,以空間換時間)和雪花模型(關系型DB存儲,以時間還空間)兩種建模思想的核心差異和適用場景
數(shù)據(jù)建模與處理行業(yè)案例分析(思路、方法、技術選型)
1. 基于事件驅動U-E建模,結合業(yè)務分拆數(shù)據(jù)處理粒度、維度、范圍、邊界,如:主題式抽取,數(shù)據(jù)標簽化定義 等
2. 結合業(yè)務講解E-R模型構建,動態(tài)、靜態(tài)屬性識別,數(shù)據(jù)客觀事實關系識別與定義
3. 基于車聯(lián)網(wǎng)領域秒級、毫秒級數(shù)據(jù)上報如何接收與處理
4. 如何解決數(shù)據(jù)擠壓問題,有哪些成熟的方法和技術手段
5. 數(shù)據(jù)接入云端后,如何防丟失,如何做削峰處理,如何保障后續(xù)服務健康運行
6. 案例分析:數(shù)據(jù)接收、解析、建模、存儲、計算、提取全流程中行業(yè) |