12月20日-21日,由中國(guó)信通院、中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)主辦,中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì)承辦的“2023數(shù)據(jù)資產(chǎn)管理大會(huì)”在京召開(kāi)。在會(huì)上,第七屆大數(shù)據(jù)“星河(Galaxy)”案例評(píng)選結(jié)果正式公布。中移在線服務(wù)有限公司(中移在線)與酷克數(shù)據(jù)聯(lián)合申報(bào)的《基于云原生化的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),實(shí)現(xiàn)數(shù)據(jù)算力交付效率全面提升》項(xiàng)目,憑借全棧自主可控、敏捷高效、安全穩(wěn)定的先進(jìn)特性,成為業(yè)內(nèi)首個(gè)容器化部署的大規(guī)模云原生數(shù)據(jù)倉(cāng)庫(kù),榮膺2023大數(shù)據(jù)“星河”數(shù)據(jù)庫(kù)優(yōu)秀案例獎(jiǎng)。
大數(shù)據(jù)“星河(Galaxy)”案例征集活動(dòng)主要面向甲方落地單位,旨在通過(guò)實(shí)地生產(chǎn)案例與場(chǎng)景,總結(jié)和推廣真實(shí)可用的大數(shù)據(jù)實(shí)踐與經(jīng)驗(yàn),在國(guó)內(nèi)大數(shù)據(jù)產(chǎn)業(yè)具有公認(rèn)的行業(yè)標(biāo)桿性和極高的認(rèn)可度。
第七屆大數(shù)據(jù)“星河(Galaxy)”案例征集包括數(shù)據(jù)庫(kù)與其他五項(xiàng)大數(shù)據(jù)應(yīng)用方向,覆蓋電信、金融、政務(wù)、能源、制造等行業(yè)。案例征集自9月啟動(dòng)以來(lái),受到了業(yè)界領(lǐng)先甲方單位與廠商的廣泛關(guān)注。經(jīng)過(guò)形式審查和專家評(píng)審,共評(píng)選出數(shù)據(jù)庫(kù)優(yōu)秀案例26個(gè)。
項(xiàng)目背景
中移在線營(yíng)服數(shù)據(jù)處理平臺(tái)建設(shè)初期采用了當(dāng)時(shí)業(yè)界廣泛運(yùn)用的“Hadoop+MPP數(shù)據(jù)庫(kù)”混搭架構(gòu)作為數(shù)據(jù)倉(cāng)庫(kù)。隨著數(shù)據(jù)量的不斷增長(zhǎng),平臺(tái)擴(kuò)容和運(yùn)維漫長(zhǎng)繁瑣,無(wú)法滿足高時(shí)效性、高重要性應(yīng)用的發(fā)展需求。
圍繞集團(tuán)公司賦予的“全網(wǎng)集中服務(wù)的提供者、渠道運(yùn)營(yíng)的集中支撐者、業(yè)務(wù)的后臺(tái)集中處理者”的定位,中移在線向云原生技術(shù)積極布局。經(jīng)過(guò)廣泛的市場(chǎng)調(diào)研和產(chǎn)品比較,最終以酷克數(shù)據(jù)的存算分離、彈性并行處理(EPP)數(shù)據(jù)庫(kù)產(chǎn)品——HashData云數(shù)倉(cāng)為核心,實(shí)施Vertica全面替換,構(gòu)建統(tǒng)一高效、敏捷智能、湖倉(cāng)一體的數(shù)據(jù)體系,提供統(tǒng)一、多樣化、面向應(yīng)用、面向主題的數(shù)據(jù)服務(wù)能力,為中移在線數(shù)字化轉(zhuǎn)型提供強(qiáng)大的數(shù)據(jù)能力底座。
首先,在本項(xiàng)目中,中移在線采用HashData EPP數(shù)據(jù)倉(cāng)庫(kù),與原有基礎(chǔ)云平臺(tái)、對(duì)象存儲(chǔ)集成,采用容器化部署方式建立起云原生數(shù)據(jù)倉(cāng)庫(kù)。
傳統(tǒng)MPP架構(gòu)的數(shù)據(jù)倉(cāng)庫(kù),由于數(shù)據(jù)量大,網(wǎng)絡(luò)、IO吞吐量高,無(wú)法采用容器化部署,難以實(shí)現(xiàn)資源利用的效率最大化。中移在線和酷克數(shù)據(jù)的技術(shù)團(tuán)隊(duì)克服了網(wǎng)絡(luò)、存儲(chǔ)、調(diào)度、管理等方面遇到的諸多技術(shù)挑戰(zhàn),突破過(guò)往容器化僅用于無(wú)狀態(tài)應(yīng)用場(chǎng)景或開(kāi)發(fā)測(cè)試環(huán)境的限制,采用k8S+HashData 的技術(shù)路線,在國(guó)內(nèi)率先建成實(shí)際生產(chǎn)環(huán)境下的容器化部署大規(guī)模云原生數(shù)據(jù)倉(cāng)庫(kù)。
圖1:基于容器化部署的云原生數(shù)據(jù)倉(cāng)庫(kù)解決方案
基于HashData存儲(chǔ)、計(jì)算、元數(shù)據(jù)三者分離的架構(gòu),借助更輕量級(jí)的容器虛擬化技術(shù),進(jìn)一步擴(kuò)展了云原生數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的彈性伸縮優(yōu)勢(shì),以及高可用能力、自動(dòng)化運(yùn)維能力和資源敏捷交付能力,大幅提升了項(xiàng)目交付速度,降低了數(shù)據(jù)遷移和拓展難度,實(shí)現(xiàn)計(jì)算資源和交付效率的全面提升。
相比原有數(shù)據(jù)處理平臺(tái),基于容器化部署的HashData云數(shù)倉(cāng),具備高可用、高并發(fā)能力,計(jì)算資源可水平無(wú)限擴(kuò)展、支持秒級(jí)擴(kuò)縮容等能力,并且在擴(kuò)縮容期間不影響業(yè)務(wù)連續(xù)性,滿足不同場(chǎng)景業(yè)務(wù)數(shù)據(jù)計(jì)算、查詢需要,實(shí)現(xiàn)了計(jì)算資源快速部署、高效交付的建設(shè)目標(biāo)。
同時(shí),在項(xiàng)目實(shí)施過(guò)程中,中移在線在HashData云原生數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)計(jì)算引擎層構(gòu)建起多種異構(gòu)數(shù)據(jù)技術(shù)組件的生態(tài)兼容能力,采用融合分析技術(shù),支持把核心倉(cāng)庫(kù)區(qū)的數(shù)據(jù)與大數(shù)據(jù)區(qū)的數(shù)據(jù)進(jìn)行關(guān)聯(lián)融合分析,減少數(shù)據(jù)搬遷,提升加工效率和數(shù)據(jù)資源利用率,滿足公司業(yè)務(wù)部門(mén)日益復(fù)雜的分析場(chǎng)景需求。最終,通過(guò)云原生數(shù)據(jù)倉(cāng)庫(kù)與流處理系統(tǒng)、批處理系統(tǒng)、數(shù)據(jù)湖、對(duì)象存儲(chǔ)的集成,實(shí)現(xiàn)了數(shù)據(jù)高效匯聚,以及不同存儲(chǔ)之間數(shù)據(jù)低成本流動(dòng)與透明訪問(wèn),助力數(shù)據(jù)高效融通、賦能生產(chǎn)運(yùn)營(yíng)。
此外,本次項(xiàng)目充分發(fā)揮了HashData豐富的接口能力與各種開(kāi)發(fā)語(yǔ)言和上下游生態(tài)軟件兼容性強(qiáng)的特性,順利實(shí)現(xiàn)了云原生數(shù)據(jù)倉(cāng)庫(kù)與現(xiàn)有報(bào)表指標(biāo)工具、智能統(tǒng)計(jì)工具、數(shù)據(jù)洞察工具、自助分析工具、研發(fā)云平臺(tái)等系統(tǒng)的兼容適配,面向用戶提供高效的數(shù)據(jù)檢索與分析能力,提升用戶數(shù)據(jù)使用效率和體驗(yàn),提升用戶數(shù)據(jù)使用率。
在存量數(shù)據(jù)應(yīng)用遷移方面,借助HashData云原生數(shù)據(jù)倉(cāng)庫(kù)引擎用戶自定義函數(shù)、用戶自定義數(shù)據(jù)類型的特性,保持?jǐn)?shù)據(jù)庫(kù)引擎間的兼容性;此外,通過(guò)HashData完善的遷移工具功能,優(yōu)化遷移方案,最大程度地實(shí)現(xiàn)了存量數(shù)據(jù)應(yīng)用的“一鍵式”自動(dòng)遷移及驗(yàn)證操作,大幅縮減了遷移人力投入和整體項(xiàng)目周期,快速釋放新平臺(tái)業(yè)務(wù)價(jià)值。
圖2:Vertica存量應(yīng)用工具化遷移方案
項(xiàng)目亮點(diǎn)
在本項(xiàng)目中,中移在線采用了HashData作為構(gòu)建云原生數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的核心引擎。依托HashData強(qiáng)大的數(shù)據(jù)查詢分析能力和云計(jì)算彈性伸縮能力,新平臺(tái)在技術(shù)架構(gòu)、資源交付、業(yè)務(wù)賦能等方面實(shí)現(xiàn)了全方位提升:
· 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)架構(gòu)創(chuàng)新
HashData云數(shù)倉(cāng)解決了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)在存算耦合、彈性伸縮、元數(shù)據(jù)管理等方面的弊端,各模塊之間完全解耦,并采用分布式部署,擺脫了傳統(tǒng)MPP數(shù)據(jù)庫(kù)的各種架構(gòu)限制和制約,為客戶提供成熟穩(wěn)定的海量數(shù)據(jù)管理平臺(tái),最大限度釋放數(shù)據(jù)價(jià)值。
· 數(shù)據(jù)倉(cāng)庫(kù)容器化部署創(chuàng)新
中移在線在國(guó)內(nèi)率先在實(shí)際生產(chǎn)環(huán)境實(shí)現(xiàn)了云數(shù)倉(cāng)容器化大規(guī)模部署和應(yīng)用。通過(guò)采用K8S+HashData技術(shù)路線,新平臺(tái)具備秒級(jí)快速擴(kuò)縮容、讀寫(xiě)分離、高可用、自動(dòng)化運(yùn)維、資源敏捷交付等能力,快速滿足業(yè)務(wù)發(fā)展需要,同時(shí)也進(jìn)一步提升了資源利用率,賦能企業(yè)降本增效。
· 靈活高效的資源隔離能力創(chuàng)新
基于存算分離的架構(gòu),項(xiàng)目實(shí)現(xiàn)了基礎(chǔ)設(shè)施資源和應(yīng)用解耦,可以根據(jù)計(jì)算集群的工作負(fù)載變化,靈活、動(dòng)態(tài)調(diào)配計(jì)算集群資源。計(jì)算集群間性能相互隔離,資源和操作完全獨(dú)立,不會(huì)產(chǎn)生相互競(jìng)爭(zhēng) CPU、內(nèi)存和IO的情況,從容應(yīng)對(duì)紛繁復(fù)雜的數(shù)據(jù)應(yīng)用場(chǎng)景。
· 應(yīng)用驅(qū)動(dòng)的自動(dòng)緩存能力創(chuàng)新
HashData緩存采用LRU算法,實(shí)現(xiàn)了按需、自動(dòng)化的緩存管理,提升了熱點(diǎn)數(shù)據(jù)訪問(wèn)效率,讓底層存儲(chǔ)更高效滿足上層應(yīng)用需求。
· 智能化自愈能力創(chuàng)新
HashData提供了管理組件實(shí)時(shí)監(jiān)控整個(gè)集群的運(yùn)行狀態(tài),當(dāng)感知到節(jié)點(diǎn)故障時(shí)將自動(dòng)執(zhí)行不同策略下的恢復(fù)操作,實(shí)現(xiàn)故障自愈,保證整個(gè)數(shù)倉(cāng)服務(wù)實(shí)現(xiàn)高可用,有效適應(yīng)數(shù)倉(cāng)平臺(tái)從決策管理輔助系統(tǒng)到業(yè)務(wù)運(yùn)營(yíng)關(guān)鍵支撐平臺(tái)的轉(zhuǎn)變,并滿足用戶對(duì)平臺(tái)全天候可用性的預(yù)期。
項(xiàng)目?jī)r(jià)值
基于容器化部署的云原生數(shù)據(jù)倉(cāng)庫(kù)的建成,有效支撐了中移在線打造開(kāi)放式數(shù)據(jù)生態(tài)體系,推動(dòng)將數(shù)據(jù)變?yōu)橘Y產(chǎn)并服務(wù)于業(yè)務(wù),以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng),實(shí)現(xiàn)數(shù)據(jù)可見(jiàn)、可用、可經(jīng)營(yíng),驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新和數(shù)據(jù)管理提速增效:
· 深化云原生技術(shù)應(yīng)用,實(shí)現(xiàn)數(shù)據(jù)基礎(chǔ)平臺(tái)架構(gòu)云化升級(jí)
本次云數(shù)倉(cāng)平臺(tái)建設(shè),是中移在線實(shí)現(xiàn)整個(gè)數(shù)據(jù)基礎(chǔ)平臺(tái)架構(gòu)云化升級(jí)的重要一環(huán)。利用HashData云架構(gòu)的可自由伸縮、靈活調(diào)配等優(yōu)勢(shì),大幅提升計(jì)算資源快速部署、高效交付能力,支撐架構(gòu)創(chuàng)新、數(shù)據(jù)生態(tài)、相互融合的特色數(shù)據(jù)體系,賦能公司未來(lái)業(yè)務(wù)高質(zhì)量發(fā)展。
· 構(gòu)建OneData數(shù)據(jù)平臺(tái),實(shí)現(xiàn)真正意義上的企業(yè)級(jí)統(tǒng)一數(shù)據(jù)視圖
在本次云數(shù)倉(cāng)平臺(tái)的建設(shè)中,將過(guò)往分散在四套獨(dú)立Vertica集群中的數(shù)據(jù)統(tǒng)一遷移至全轄共享的對(duì)象存儲(chǔ),以更低成本、更高擴(kuò)展性和可靠性,實(shí)現(xiàn)了全部數(shù)據(jù)資產(chǎn)的統(tǒng)一數(shù)據(jù)平臺(tái)納管,建立起真正意義上的企業(yè)級(jí)統(tǒng)一數(shù)據(jù)視圖,消除了數(shù)據(jù)孤島,避免了數(shù)據(jù)二義性對(duì)業(yè)務(wù)分析的影響,大幅降低了數(shù)據(jù)的使用與維護(hù)成本。
· 解耦數(shù)據(jù)應(yīng)用與數(shù)據(jù)庫(kù)集群資源,實(shí)現(xiàn)資源管理與運(yùn)維管理新范式
基于HashData的松耦合架構(gòu),創(chuàng)新性實(shí)現(xiàn)了數(shù)據(jù)應(yīng)用與數(shù)據(jù)庫(kù)集群資源的解耦,建立起統(tǒng)一的數(shù)據(jù)分析算力資源池,實(shí)現(xiàn)資源細(xì)粒度的管理與調(diào)度,支持離線計(jì)算與在線計(jì)算任務(wù)混部,達(dá)到峰谷互補(bǔ)的效果,大幅提升服務(wù)器資源利用率。
· 建立湖倉(cāng)一體數(shù)據(jù)體系,實(shí)現(xiàn)不同組件間數(shù)據(jù)高效融通與共享協(xié)作
本次項(xiàng)目建立起了以HashData云數(shù)倉(cāng)為核心的湖倉(cāng)一體數(shù)據(jù)體系。通過(guò)外部表和連接器這兩類組件,實(shí)現(xiàn)了面向異構(gòu)計(jì)算工作資源負(fù)載下的統(tǒng)一多維度查詢分析服務(wù)架構(gòu),支持在多種計(jì)算引擎間共用計(jì)算和存儲(chǔ)資源,避免了大批量數(shù)據(jù)的搬遷,有效降低了整體數(shù)據(jù)鏈路的成本、代價(jià)和復(fù)雜性,提升加工效率和數(shù)據(jù)資源利用率,滿足公司業(yè)務(wù)部門(mén)日益復(fù)雜的分析場(chǎng)景需求。
圖3:中移在線云原生化數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)湖倉(cāng)一體系統(tǒng)集成解決方案示意圖
· 完善遷移工具功能,實(shí)現(xiàn)存量應(yīng)用“一鍵式”快速高效平滑遷移
在存量數(shù)據(jù)應(yīng)用遷移方面,通過(guò)HashData完善的遷移工具,最大程度實(shí)現(xiàn)了存量數(shù)據(jù)應(yīng)用的“一鍵式”自動(dòng)遷移及驗(yàn)證操作,在較短時(shí)間內(nèi)完成了約600T存量數(shù)據(jù)、10萬(wàn)個(gè)表、2000多個(gè)ETL腳本遷移與轉(zhuǎn)換工作,節(jié)省了大量人力成本。
同時(shí),在經(jīng)濟(jì)效益方面,使用HashData云數(shù)倉(cāng)比在原有Vertica平臺(tái)基礎(chǔ)上擴(kuò)容升級(jí)節(jié)省超過(guò)千萬(wàn)元;采用存算分離架構(gòu)以及容器化部署技術(shù)方案,硬件資源節(jié)省達(dá)到30%。
本次項(xiàng)目中,中移在線不僅完成了對(duì)傳統(tǒng)技術(shù)棧的替代,更重要的是在數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)架構(gòu)方面實(shí)現(xiàn)了技術(shù)創(chuàng)新。基于容器化的云原生數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),采用全棧信創(chuàng)架構(gòu)技術(shù)棧,支持一云多芯(x86/C86/ARM)、一庫(kù)雙棧(通用/信創(chuàng)),在實(shí)現(xiàn)公司數(shù)字資產(chǎn)管理和運(yùn)營(yíng)全棧自主可控的同時(shí),也實(shí)現(xiàn)了數(shù)據(jù)線全面技術(shù)升級(jí)。
云原生數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)從硬件、操作系統(tǒng)、數(shù)據(jù)庫(kù)三個(gè)維度以信創(chuàng)供應(yīng)鏈為基礎(chǔ)搭建技術(shù)架構(gòu),具備高可用、易拓展等特點(diǎn),結(jié)合容器化技術(shù),構(gòu)建基礎(chǔ)算力與存儲(chǔ)資源可統(tǒng)一管理、動(dòng)態(tài)調(diào)配、敏捷交付,且無(wú)對(duì)外服務(wù)故障“斷點(diǎn)”的大數(shù)據(jù)服務(wù)體系。
本次項(xiàng)目全棧自主可控,兼顧安全穩(wěn)定與敏捷高效,實(shí)現(xiàn)了數(shù)據(jù)算力交付效率全面提升,為中移在線全面提升業(yè)務(wù)處理的數(shù)智化水平奠定了堅(jiān)實(shí)基礎(chǔ),為業(yè)務(wù)效率與技術(shù)融合創(chuàng)新提供了有力支撐。
未來(lái),中移在線和酷克數(shù)據(jù)將積極響應(yīng)國(guó)家和行業(yè)號(hào)召,圍繞“數(shù)字經(jīng)濟(jì)、信創(chuàng)工程、創(chuàng)新驅(qū)動(dòng)”的發(fā)展戰(zhàn)略,積極推進(jìn)技術(shù)架構(gòu)轉(zhuǎn)型升級(jí),賦能數(shù)據(jù)高效融通,為提升線上營(yíng)服能力、營(yíng)銷轉(zhuǎn)化能力構(gòu)筑強(qiáng)大數(shù)據(jù)融通計(jì)算底座。
關(guān)于酷克數(shù)據(jù)
酷克數(shù)據(jù)是中國(guó)領(lǐng)先具備自主可控研發(fā)能力的數(shù)據(jù)倉(cāng)庫(kù)軟件廠商,核心團(tuán)隊(duì)主要由來(lái)自Pivotal、Teradata、IBM、Yahoo!、Oracle和華為等公司資深的云計(jì)算、分布式數(shù)據(jù)庫(kù)和大數(shù)據(jù)專家組成。憑借深厚的技術(shù)積累以及極具前瞻性的產(chǎn)品理念,HashData數(shù)據(jù)倉(cāng)庫(kù)已廣泛應(yīng)用于金融、電信運(yùn)營(yíng)商、能源、政府、交通物流和互聯(lián)網(wǎng)等多個(gè)行業(yè)領(lǐng)先客戶。
關(guān)于中移在線
中移在線服務(wù)有限公司是中國(guó)移動(dòng)在數(shù)字化時(shí)代全新設(shè)立的全資專業(yè)子公司,致力于以更高的服務(wù)效能,更優(yōu)的服務(wù)質(zhì)量,做數(shù)字服務(wù)的提供者和創(chuàng)新者,成為客戶滿意、社會(huì)信賴的卓越服務(wù)品質(zhì)創(chuàng)造者。
相關(guān)稿件