在中國信息通信研究院與中國通信企業(yè)協(xié)會(huì)共同主辦的第二屆“鼎新杯”數(shù)字化轉(zhuǎn)型應(yīng)用大賽中,北京移動(dòng)和嘉為藍(lán)鯨聯(lián)合申報(bào)的“北京移動(dòng)云計(jì)算智能運(yùn)維平臺(tái)建設(shè)項(xiàng)目”,從兩千余個(gè)申報(bào)案例中脫穎而出,最終榮獲大賽二等獎(jiǎng)。
中國移動(dòng)通信集團(tuán)北京有限公司(下稱北京移動(dòng))成立于1999年,隸屬于中國移動(dòng)通信集團(tuán)公司,秉承“正德厚生,臻于至善”的企業(yè)核心價(jià)值觀,緊密圍繞“做世界一流企業(yè),成為移動(dòng)信息專家”的戰(zhàn)略定位,以卓越品質(zhì)鍛造一流信息服務(wù),用創(chuàng)新精神努力實(shí)現(xiàn)從優(yōu)秀向卓越的新跨越,著力推動(dòng)“移動(dòng)改變生活”。
一、初探自動(dòng)化,轉(zhuǎn)型亟需新動(dòng)能
自成立以來,北京移動(dòng)始終保持行業(yè)信息化領(lǐng)跑者的身份,堅(jiān)持“以追求卓越,讓數(shù)字化生活更美好”為使命,志愿成為“客戶首選的數(shù)字化服務(wù)的引領(lǐng)者”。為快速響應(yīng)業(yè)務(wù)需求,IT團(tuán)隊(duì)前期從技術(shù)平臺(tái)建設(shè)切入,使用開源軟件搭建了基礎(chǔ)的自動(dòng)化運(yùn)維系統(tǒng),實(shí)現(xiàn)了腳本和文件的批量自動(dòng)化,但仍存在如配置數(shù)據(jù)覆蓋不全、作業(yè)執(zhí)行管控手段欠缺、運(yùn)維場景化能力不足、技術(shù)架構(gòu)相對(duì)簡單等問題。
為提升系統(tǒng)穩(wěn)定性,保障業(yè)務(wù)穩(wěn)定運(yùn)行,北京移動(dòng)攜手嘉為科技旗下研運(yùn)品牌嘉為藍(lán)鯨,打造智能運(yùn)維平臺(tái),建設(shè)配置數(shù)據(jù)管理、監(jiān)控管理、日志管理、統(tǒng)一告警管理、自動(dòng)化巡檢、運(yùn)營服務(wù)報(bào)表等運(yùn)維場景,實(shí)現(xiàn)管理流程創(chuàng)新,完善智能運(yùn)維能力,向著具備業(yè)務(wù)價(jià)值的運(yùn)維模式邁進(jìn)。
二、“平臺(tái)+應(yīng)用”,高效擴(kuò)展應(yīng)用場景
通過PaaS平臺(tái)+SaaS場景的方式構(gòu)建一體化運(yùn)維管理體系,1個(gè)基礎(chǔ)平臺(tái)融合了公共能力,支撐場景應(yīng)用的運(yùn)行、協(xié)同、服務(wù)。場景應(yīng)用包括了配置管理CMDB、IT監(jiān)控告警、日志平臺(tái)、自動(dòng)化巡檢、運(yùn)營服務(wù)報(bào)表等5大應(yīng)用,后續(xù)可快速、靈活擴(kuò)展各類應(yīng)用。
1、平臺(tái)規(guī)模:當(dāng)前生產(chǎn)環(huán)境按支持納管200+節(jié)點(diǎn)服務(wù)器,納管8套應(yīng)用系統(tǒng),部署運(yùn)行16個(gè)運(yùn)維場景工具;
2、平臺(tái)集成:與4A系統(tǒng)集成對(duì)接,與郵件系統(tǒng)集成實(shí)現(xiàn)消息通知;
3、統(tǒng)一管控:采用管控平臺(tái)納管不同網(wǎng)絡(luò)區(qū)域的主機(jī)。
三、提速運(yùn)維效能,保障業(yè)務(wù)穩(wěn)定運(yùn)行
1、CMDB自動(dòng)采集,資源統(tǒng)一管理
構(gòu)建云運(yùn)維基石CMDB,實(shí)現(xiàn)資產(chǎn)數(shù)據(jù)的集中管理,為應(yīng)用提供各種運(yùn)維場景的配置數(shù)據(jù)服務(wù)。通過提供配置管理服務(wù),以數(shù)據(jù)和模型相結(jié)合映射應(yīng)用間的關(guān)系,保證數(shù)據(jù)的準(zhǔn)確和一致性;并以整合的思路推進(jìn),最終面向應(yīng)用消費(fèi),發(fā)揮配置服務(wù)的價(jià)值,實(shí)現(xiàn)IT資源集中規(guī)范化管理和消費(fèi)。
·云平臺(tái)A創(chuàng)建模型涵蓋主機(jī)、業(yè)務(wù)、云虛擬資源、安全設(shè)備、基礎(chǔ)設(shè)施、網(wǎng)絡(luò)、服務(wù)器、云平臺(tái)等共30+個(gè);同時(shí)完成VMware、華為云資源的接入;納管主機(jī)120+、接入業(yè)務(wù)6個(gè);配置發(fā)現(xiàn)配置采集任務(wù)運(yùn)行次數(shù)270+;
·云平臺(tái)B創(chuàng)建模型包括數(shù)據(jù)中心、機(jī)房、機(jī)柜等共計(jì)30+個(gè),完成模型數(shù)據(jù)錄入;
·自動(dòng)采集錄入虛擬機(jī)實(shí)例近1600條,計(jì)算服務(wù)器160+條,存儲(chǔ)服務(wù)器110+條,虛擬資源卷1200+條。
2、海量對(duì)象納管,一體化監(jiān)控升級(jí)
基于平臺(tái)豐富的數(shù)據(jù)采集、數(shù)據(jù)處理及插件擴(kuò)展能力,集成現(xiàn)有監(jiān)控平臺(tái),實(shí)現(xiàn)對(duì)各類網(wǎng)絡(luò)設(shè)備、主機(jī)設(shè)備、存儲(chǔ)設(shè)備、中間件、數(shù)據(jù)庫、關(guān)鍵應(yīng)用進(jìn)程的監(jiān)控告警。通過集中管理告警信息,并采取統(tǒng)一的收斂、屏蔽、關(guān)聯(lián)分析、自動(dòng)化處理等手段提高告警有效性,減少誤告與漏告,實(shí)現(xiàn)告警從接入、收斂、處理、分派的閉環(huán)管理,提升了告警處理效能,保障系統(tǒng)穩(wěn)定運(yùn)行。
·監(jiān)控接入:納管4個(gè)業(yè)務(wù)系統(tǒng),共計(jì)120+臺(tái)主機(jī)監(jiān)控、4個(gè)網(wǎng)絡(luò)端口撥測監(jiān)控、20+個(gè)進(jìn)程監(jiān)控,3個(gè)自定義腳本監(jiān)控,共計(jì)70+個(gè)監(jiān)控指標(biāo);
·告警接入:告警接入華為云、Zabbix、VMware等13個(gè)告警源,完全覆蓋1、2層硬件監(jiān)控,3層監(jiān)控覆蓋4個(gè)業(yè)務(wù)系統(tǒng)。
3、日志聯(lián)動(dòng)告警,網(wǎng)絡(luò)健康隨時(shí)保障
完成日志監(jiān)控?cái)?shù)據(jù)告警配置,可通過網(wǎng)絡(luò)設(shè)備的日志數(shù)據(jù)分析來獲取網(wǎng)絡(luò)設(shè)備健康狀態(tài),同時(shí),對(duì)網(wǎng)絡(luò)設(shè)備的日志級(jí)別進(jìn)行數(shù)量統(tǒng)計(jì)及監(jiān)控展示面板。共接入70+個(gè)網(wǎng)絡(luò)日志數(shù)據(jù)源,創(chuàng)建10個(gè)網(wǎng)絡(luò)任務(wù)接入任務(wù),5個(gè)網(wǎng)絡(luò)日志數(shù)據(jù)儀表盤,3個(gè)日志關(guān)鍵字告警任務(wù)。
4、巡檢自動(dòng)化,安全防范更高效
通過自定義巡檢腳本和腳本對(duì)象,進(jìn)行及時(shí)性、周期性等巡檢工作的自動(dòng)化執(zhí)行,替代運(yùn)維人員日常手工巡檢,可根據(jù)不同運(yùn)維角色,自定義不同的巡檢工作計(jì)劃,并生成標(biāo)準(zhǔn)可視化報(bào)告。輔助運(yùn)維團(tuán)隊(duì)全面了解各類軟硬件資源的生產(chǎn)健康狀態(tài),從全量的生產(chǎn)系統(tǒng)中提前發(fā)現(xiàn)隱患,保障業(yè)務(wù)穩(wěn)定性。
·巡檢模版:完成4個(gè)標(biāo)準(zhǔn)化主機(jī)巡檢腳本,Linux巡檢模版3個(gè),各類巡檢指標(biāo)62個(gè);
·巡檢任務(wù):配置巡檢任務(wù)3個(gè),32個(gè)主機(jī)巡檢對(duì)象。
5、數(shù)據(jù)可視化,IT運(yùn)行全掌握
北京移動(dòng)原先并未使用專門的報(bào)表工具,用Excel手工記錄資源資產(chǎn)信息,工作量大且時(shí)效性低,準(zhǔn)確率也難以保證,制作、維護(hù)、查看均不方便。本項(xiàng)目基于藍(lán)鯨平臺(tái),打造了一款輕量級(jí)、可自主分析的報(bào)表制作工具,實(shí)現(xiàn)對(duì)各類數(shù)據(jù)源的接入,幫助運(yùn)維人員全方位掌握IT資源的運(yùn)行狀態(tài)及資源使用情況。
·云平臺(tái)A:完成對(duì)接華為和VMware數(shù)據(jù)接口獲取數(shù)據(jù)。在運(yùn)營服務(wù)報(bào)表中創(chuàng)建華為報(bào)表數(shù)據(jù)源9個(gè),VMware數(shù)據(jù)源7個(gè),制作華為運(yùn)維報(bào)表8個(gè);制作VMware運(yùn)維報(bào)表5個(gè),包括日?qǐng)?bào),周報(bào)和月報(bào),并實(shí)現(xiàn)字段篩選展示報(bào)表數(shù)據(jù);
·云平臺(tái)B:完成5個(gè)數(shù)據(jù)文件的解析,并封裝為報(bào)表數(shù)據(jù)源接口,并根據(jù)需求生成5個(gè)類別共8張自動(dòng)化運(yùn)維報(bào)表,可根據(jù)時(shí)間或?qū)ο竺Q進(jìn)行篩選展示。
在數(shù)字化轉(zhuǎn)型浪潮中,北京移動(dòng)率先出擊,打造了面向云計(jì)算運(yùn)維場景的智能運(yùn)維平臺(tái),推進(jìn)更精細(xì)化、自動(dòng)化、智能化運(yùn)維體系建設(shè),強(qiáng)化系統(tǒng)風(fēng)險(xiǎn)和故障的早發(fā)現(xiàn)、早定位、早處置,保障業(yè)務(wù)穩(wěn)定運(yùn)行,并建設(shè)完善的運(yùn)維開發(fā)能力,實(shí)現(xiàn)從傳統(tǒng)運(yùn)維向運(yùn)維開發(fā)的轉(zhuǎn)型。
相關(guān)稿件