在2024年7月舉辦的全球數(shù)字經(jīng)濟(jì)大會上,北京超級云計算中心(以下簡稱"北京超算")展示了其在人工智能算力服務(wù)領(lǐng)域的最新成果與創(chuàng)新實踐。作為北京市首批算力伙伴,北京超算憑借十三年的豐富經(jīng)驗和專業(yè)實力,正在為我國人工智能技術(shù)發(fā)展和數(shù)字經(jīng)濟(jì)繁榮提供強(qiáng)有力的算力支撐。
人工智能已成為國家戰(zhàn)略,是推動科技創(chuàng)新、促進(jìn)經(jīng)濟(jì)增長、引領(lǐng)產(chǎn)業(yè)升級的重要力量。然而,隨著AI模型規(guī)模的急劇擴(kuò)大,適用于超大規(guī)模訓(xùn)練的算力資源供給不足已成為制約行業(yè)發(fā)展的瓶頸。北京超算運(yùn)營實體北京北龍超級云計算有限責(zé)任公司CTO甄亞楠在接受采訪時表示:"目前做基座大模型的企業(yè),對算力資源的總量要求非常高,動輒需要5000卡規(guī)模。能夠提供如此大規(guī)??臻e算力資源的中心在國內(nèi)還是非常少的。"
北龍超云CTO甄亞楠論壇現(xiàn)場報告
面對這一挑戰(zhàn),北京超算提出了"超智融合全景算力服務(wù)"的創(chuàng)新理念,致力于為客戶提供高質(zhì)量、高性價比的超算架構(gòu)大模型算力解決方案。其核心優(yōu)勢主要體現(xiàn)在以下幾個方面:
一、豐富的算力資源池
北京超算擁有多種主流GPU卡,包括H800、A800、V100等,可支持多機(jī)多卡并行計算,滿足大模型訓(xùn)練、推理等多種場景需求。其在寧夏中衛(wèi)算力基地和規(guī)劃中的內(nèi)蒙古和林格爾新基地可以為大模型研發(fā)機(jī)構(gòu)提供充足的智算算力保障。
二、基于超算架構(gòu)的高性能基礎(chǔ)設(shè)施
北京超算采用典型的超算架構(gòu)打造大模型基礎(chǔ)設(shè)施,包括高性能的GPU訓(xùn)練服務(wù)器、推理服務(wù)器以及大容量分布式存儲系統(tǒng)。其計算網(wǎng)絡(luò)采用3.2Tbps IB無收斂架構(gòu),存儲網(wǎng)絡(luò)帶寬達(dá)到400Gbps,可有效支撐大規(guī)模并行計算的需求。
三、智能化的資源調(diào)度與性能優(yōu)化
北京超算開發(fā)的智能算力調(diào)度系統(tǒng),可實現(xiàn)多集群算力的跨域智能分配。更重要的是,他們建立了基于應(yīng)用運(yùn)行特征分析的能力服務(wù)體系,通過對大規(guī)模并行應(yīng)用進(jìn)行實時"CT掃描",秒級監(jiān)控CPU、GPU、內(nèi)存、網(wǎng)絡(luò)等多維度指標(biāo),智能分析性能瓶頸,為用戶提供高性價比的算力選型及程序優(yōu)化咨詢服務(wù)。
甄亞楠介紹了一個典型案例:"某14B參數(shù)的模型優(yōu)化前GPU利用率只有75%,經(jīng)過我們的計算負(fù)載優(yōu)化后,GPU利用率提升到97%,整體性能提升了30%。"這種基于數(shù)據(jù)驅(qū)動的優(yōu)化方法,可以幫助用戶更高效地提升算力資源利用率,從而降低成本。
四、全方位的技術(shù)支持服務(wù)
北京超算組建了專業(yè)的技術(shù)支持團(tuán)隊,提供7*24小時在線服務(wù),5分鐘響應(yīng)。從環(huán)境搭建、程序優(yōu)化到故障診斷,為用戶提供全流程的技術(shù)保障。正如甄亞楠所說:"我們希望AI工程師能夠?qū)⒏嗑ν度氲娇蒲斜旧?而不是被繁瑣的算力環(huán)境問題所困擾。"
五、靈活的使用模式與高性價比
北京超算 “高質(zhì)量、高性價比算力服務(wù)體系”正式發(fā)布
北京超算采用"按需付費(fèi)"的模式,用戶可以根據(jù)實際需求靈活選用算力資源,避免了自建集群的高額投入。在北京超算最新發(fā)布的容器云上,GPU卡時價格低至1.6元,用戶可以在云平臺上自建容器,極大降低了使用成本。甄亞楠表示:"我們希望通過高性價比的服務(wù),讓更多中小企業(yè)也能夠參與到大模型的研發(fā)中來?!?/p>
正是憑借這些優(yōu)勢,北京超算已經(jīng)成功為多家知名AI企業(yè)和科研機(jī)構(gòu)提供了大模型算力支持。例如,他們?yōu)槟彻镜那|級超大規(guī)模預(yù)訓(xùn)練模型項目提供了基于A800 GPU的高性能算力資源,支持其進(jìn)行長時間穩(wěn)定的千卡規(guī)模訓(xùn)練。在另一個案例中,北京超算幫助某語言智能科技公司將128卡訓(xùn)練的性能提升了4倍,達(dá)到了線性加速的效果。
此外,北京超算還積極支持高校的大模型研究。他們?yōu)槟畴p一流高校提供了256塊A100 GPU的共享算力資源,并協(xié)助課題組完成環(huán)境搭建和模型遷移,有效解決了高校算力不足的問題。
在談到未來發(fā)展時,甄亞楠表示,北京超算將繼續(xù)加大在算力基礎(chǔ)設(shè)施方面的投入,同時也會加強(qiáng)在國產(chǎn)化方面的布局。"我們有專門的團(tuán)隊在幫助用戶將模型遷移到國產(chǎn)芯片上。雖然目前在性能上還有差距,但我們相信通過產(chǎn)學(xué)研各方的共同努力,國產(chǎn)AI芯片的生態(tài)一定會不斷完善。"
值得一提的是,在本次數(shù)字經(jīng)濟(jì)大會上,北京超算與北京中科聞歌科技股份有限公司合作的"雅意·智學(xué)大模型賦能教育領(lǐng)域應(yīng)用實踐"獲評"2024人工智能大模型場景應(yīng)用典型案例",展示了其在教育領(lǐng)域的創(chuàng)新應(yīng)用實踐。
2024人工智能大模型場景應(yīng)用典型案例證書
隨著大模型技術(shù)的快速發(fā)展,高質(zhì)量、可負(fù)擔(dān)的算力服務(wù)將成為推動AI產(chǎn)業(yè)繁榮的關(guān)鍵因素。北京超級云計算中心以其深厚的技術(shù)積累和創(chuàng)新能力,正在為國產(chǎn)大模型的蓬勃發(fā)展貢獻(xiàn)重要力量。正如2024全球數(shù)字經(jīng)濟(jì)大會所彰顯的那樣,數(shù)字經(jīng)濟(jì)的浪潮方興未艾,在算力這一基礎(chǔ)設(shè)施領(lǐng)域,我們有理由對未來充滿期待。
相關(guān)稿件