400-688-0112
分布式計(jì)算框架作為現(xiàn)代機(jī)器學(xué)習(xí)的基礎(chǔ)支撐,本階段重點(diǎn)攻克Hadoop生態(tài)與Spark技術(shù)棧的協(xié)同工作機(jī)制。從HDFS分布式存儲到Y(jié)ARN資源調(diào)度,系統(tǒng)建立大數(shù)據(jù)處理的核心認(rèn)知體系。
| 技術(shù)組件 | 應(yīng)用場景 | 版本要求 |
|---|---|---|
| Spark SQL | 結(jié)構(gòu)化數(shù)據(jù)處理 | 3.0+ |
| PySpark | 機(jī)器學(xué)習(xí)流水線 | 3.7+ |
基于NASA肯尼迪航天中心真實(shí)日志數(shù)據(jù),構(gòu)建訪問模式分析系統(tǒng)。涉及用戶地理分布解析、異常訪問檢測、API調(diào)用頻次監(jiān)控等核心功能模塊開發(fā)。
整合Hive數(shù)據(jù)倉庫與Spark Streaming,實(shí)現(xiàn)淘寶用戶畫像構(gòu)建。包含商品點(diǎn)擊熱力圖生成、購物車轉(zhuǎn)化分析、實(shí)時推薦算法等關(guān)鍵功能實(shí)現(xiàn)。
課程采用云端實(shí)驗(yàn)平臺進(jìn)行教學(xué),學(xué)員可直接在瀏覽器中完成Spark集群的配置與調(diào)試。重點(diǎn)技術(shù)模塊配備3D可視化演示,幫助學(xué)員理解分布式計(jì)算任務(wù)的執(zhí)行過程。