崗位職責
平臺運維管理
負責Hadoop、Spark、Flink、Kafka、Hive、HBase等大數據組件的日常運維、監(jiān)控及故障處理
制定并完善數據平臺運維規(guī)范、操作流程及應急預案
負責集群容量規(guī)劃、資源調度優(yōu)化及擴縮容管理
建立完善的監(jiān)控告警體系,及時發(fā)現并處理系統(tǒng)異常
穩(wěn)定性保障
保障數據平臺高可用性,實現SLA目標(如99.9%可用性)
負責系統(tǒng)故障的快速響應、定位及恢復,編寫故障分析報告
定期進行系統(tǒng)巡檢、健康檢查及風險評估
組織并執(zhí)行災難恢復演練,確保數據安全與業(yè)務連續(xù)性
性能優(yōu)化
監(jiān)控集群性能指標,分析瓶頸并進行調優(yōu)
優(yōu)化作業(yè)調度策略,提升資源利用率
協(xié)助開發(fā)團隊優(yōu)化數據處理任務,提升作業(yè)執(zhí)行效率
自動化建設
推動運維自動化,開發(fā)運維腳本及工具,提升運維效率
參與DevOps體系建設,實現持續(xù)集成與持續(xù)部署
完善配置管理、變更管理及發(fā)布管理流程
文檔與協(xié)作
編寫運維文檔、技術手冊及知識庫
與開發(fā)、測試、業(yè)務團隊緊密協(xié)作,提供技術支持
任職要求
學歷與經驗
本科及以上學歷,計算機、軟件工程、信息技術等相關專業(yè)
3年以上大數據平臺運維經驗,有大規(guī)模集群(100+節(jié)點)運維經驗優(yōu)先
技術能力
精通Linux系統(tǒng)運維,熟悉Shell/Python腳本開發(fā)
熟練掌握Hadoop生態(tài)(HDFS、YARN、MapReduce、Hive、Spark、Flink、Kafka、HBase等)的安裝、配置、調優(yōu)及故障處理
熟悉MySQL、PostgreSQL、ClickHouse、Doris等數據庫運維
了解Docker、Kubernetes等容器化技術及云原生架構
熟悉Prometheus、Grafana、Zabbix等監(jiān)控工具
具備SQL優(yōu)化、JVM調優(yōu)經驗者優(yōu)先
軟性素質
具備優(yōu)秀的故障排查能力和抗壓能力,能7×24小時響應緊急故障
良好的溝通協(xié)調能力及團隊協(xié)作精神
強烈的責任心和主動性,具備持續(xù)學習和自我驅動能力
加分項
有軟件開發(fā)經驗、開發(fā)基礎者
有阿里云、騰訊云、AWS等云平臺大數據產品運維經驗
持有相關認證(如CKA、阿里云ACP/ACE、Cloudera認證等)
有數據治理、數據安全相關經驗
熟悉FinOps,具備成本優(yōu)化意識與實踐經驗