9月4日,“天翼云息壤——大模型訓(xùn)推一體化服務(wù)能力升級(jí)”線上發(fā)布會(huì)成功舉辦。會(huì)上,息壤平臺(tái)訓(xùn)推服務(wù)能力重磅升級(jí),新增閉源、多模態(tài)基座大模型以及數(shù)據(jù)集,支持萬(wàn)卡規(guī)模訓(xùn)練,訓(xùn)練穩(wěn)定性再次提升,新增體驗(yàn)空間,為基礎(chǔ)大模型訓(xùn)練、行業(yè)大模型訓(xùn)推提供一站式解決方案。天翼云多位專家與合作伙伴代表發(fā)表精彩演講,共探人工智能大模型的發(fā)展趨勢(shì)與挑戰(zhàn),并對(duì)平臺(tái)升級(jí)后的能力與優(yōu)勢(shì),以及在醫(yī)療領(lǐng)域的賦能實(shí)踐進(jìn)行了深度解讀。
平臺(tái)全新升級(jí),提供穩(wěn)定高效的大模型訓(xùn)推一體化服務(wù)
我國(guó)大模型已進(jìn)入快速發(fā)展階段,但大模型的研發(fā)與推廣仍然面臨一定的壓力和挑戰(zhàn),呈現(xiàn)出“基礎(chǔ)豐富,應(yīng)用不足”的特點(diǎn)。一方面,大模型的訓(xùn)練和應(yīng)用需要大量的高質(zhì)量數(shù)據(jù),當(dāng)前我國(guó)數(shù)據(jù)資源有限且分散,導(dǎo)致模型訓(xùn)練效果并不理想;另一方面,模型的參數(shù)量和計(jì)算復(fù)雜度持續(xù)增加,對(duì)算力的需求以幾何級(jí)數(shù)增長(zhǎng)。行業(yè)亟需更加高效、集約化的智算平臺(tái)的支撐,以驅(qū)動(dòng)國(guó)產(chǎn)大模型高質(zhì)量發(fā)展與產(chǎn)業(yè)化應(yīng)用。
天翼云智算產(chǎn)品線總監(jiān)張安發(fā)表示,升級(jí)后的平臺(tái)專為應(yīng)對(duì)大參數(shù)大模型、行業(yè)模型應(yīng)用所帶來(lái)的挑戰(zhàn)而設(shè)計(jì),它提供了一個(gè)全棧式的服務(wù),旨在簡(jiǎn)化大模型從訓(xùn)練到部署的整個(gè)流程。平臺(tái)新增了開(kāi)閉源大模型、多模態(tài)大模型,供用戶靈活選擇,模型數(shù)量處于國(guó)內(nèi)領(lǐng)先水平;新增上線專業(yè)的大模型數(shù)據(jù)集,用戶可直接將數(shù)據(jù)用于大模型訓(xùn)練、推理任務(wù)中,實(shí)現(xiàn)了算法、算力、數(shù)據(jù)三要素的融合;新增體驗(yàn)中心,用戶可直接在線互動(dòng)體驗(yàn);打造了全鏈路故障感知和恢復(fù)、全鏈路日志監(jiān)控工具,突破斷點(diǎn)續(xù)訓(xùn)等核心技術(shù),使全鏈路監(jiān)控訓(xùn)練更穩(wěn)定。
隨著模型參數(shù)量從千億邁向萬(wàn)億,大模型對(duì)底層算力的訴求進(jìn)一步升級(jí),萬(wàn)卡甚至超萬(wàn)卡集群已經(jīng)成為大模型產(chǎn)業(yè)發(fā)展的剛需,同時(shí)對(duì)訓(xùn)練穩(wěn)定性要求極高。根據(jù)公開(kāi)報(bào)道,Llama3.1-405B原生訓(xùn)練耗時(shí)持續(xù)54天,累計(jì)發(fā)生419次故障,平均每3小時(shí)產(chǎn)生一次。天翼云智算產(chǎn)品線專家范順國(guó)介紹,天翼云訓(xùn)推服務(wù)平臺(tái)是國(guó)內(nèi)首個(gè)實(shí)現(xiàn)公有云國(guó)產(chǎn)化萬(wàn)卡訓(xùn)練的平臺(tái),能夠?yàn)槿f(wàn)億參數(shù)級(jí)別大模型訓(xùn)練提供一體化方案。天翼云在北京萬(wàn)卡池完成了Llama3-405B(4000億參數(shù))大模型的訓(xùn)練,700億參數(shù)模型Llama2-70B在萬(wàn)卡規(guī)模下順利拉起并完成訓(xùn)練,MFU達(dá)到43%,在業(yè)界達(dá)到了領(lǐng)先水平。天翼云優(yōu)化斷點(diǎn)續(xù)訓(xùn)技術(shù),在Llama2-70B模型訓(xùn)練中,實(shí)現(xiàn)秒級(jí)故障檢測(cè),分鐘級(jí)定位并處理故障,分鐘級(jí)訓(xùn)練恢復(fù),這一性能已達(dá)到行業(yè)前沿水平。
此外,基于平臺(tái)能力,天翼云聯(lián)合伙伴上線了魔樂(lè)(Modelers)開(kāi)發(fā)者社區(qū),通過(guò)整合優(yōu)質(zhì)中文AI資源、提供極致易用的工具鏈,以及國(guó)產(chǎn)化算力使能,端到端支持AI應(yīng)用開(kāi)發(fā)全流程,助力孵化國(guó)產(chǎn)原生模型。
三種交付形態(tài)+兩大應(yīng)用場(chǎng)景,助力企業(yè)加速AI應(yīng)用落地
AI技術(shù)加速融入各行各業(yè),大模型的應(yīng)用前景也愈加廣闊。天翼云息壤一體化智算服務(wù)平臺(tái)從行業(yè)及客戶需求出發(fā),在技術(shù)與能力的不斷迭代升級(jí)中使能企業(yè)制勝AI時(shí)代。
天翼云智算產(chǎn)品線專家夏曼雪對(duì)平臺(tái)功能進(jìn)行了詳細(xì)演示。平臺(tái)支持公有云、混合云和輕量化三種交付形態(tài)。其中,公有云版本即開(kāi)即用、計(jì)費(fèi)靈活,支持按卡時(shí)計(jì)費(fèi)、包周期計(jì)費(fèi);混合云版本支持千卡規(guī)模的私有化項(xiàng)目交付;輕量化版本支持天翼云A100云主機(jī)、H800/A100/A800/A10裸金屬服務(wù)器、物理機(jī)等硬件形態(tài)交付部署,靈活便捷。
場(chǎng)景應(yīng)用方面,平臺(tái)主要面向兩類客戶場(chǎng)景。一是具備深厚行業(yè)知識(shí)、擁有自主數(shù)據(jù)的行業(yè)客戶,如政務(wù)、金融機(jī)構(gòu)、汽車、媒體、旅游等行業(yè)。依托零代碼平臺(tái)和豐富的開(kāi)閉源大模型,客戶無(wú)需掌握算法編程即可完成模型的調(diào)優(yōu)和API調(diào)用,從而加速大模型從概念到落地的進(jìn)程。二是擁有很強(qiáng)的算法能力,但在智算集群的管理運(yùn)維方面經(jīng)驗(yàn)不足的大模型廠商。平臺(tái)為這類用戶提供專業(yè)的開(kāi)發(fā)和運(yùn)維工具,實(shí)現(xiàn)大規(guī)模分布式訓(xùn)練和斷點(diǎn)續(xù)訓(xùn)能力,在保障穩(wěn)定性的同時(shí),通過(guò)構(gòu)建AI加速引擎助力用戶提升算力利用率。
目前,天翼云已服務(wù)多個(gè)客戶的訓(xùn)推場(chǎng)景,助力行業(yè)大模型訓(xùn)推更便捷、更高效、更穩(wěn)定安全。中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所(簡(jiǎn)稱“中醫(yī)藥信息研究所”)所長(zhǎng)特聘助理朱彥分享了與天翼云合作開(kāi)展中醫(yī)藥大模型的探究與實(shí)踐,通過(guò)與天翼云合作,中醫(yī)藥信息研究所獲得了更加穩(wěn)定和高效的計(jì)算支持。借助天翼云大模型學(xué)習(xí)機(jī),搭建低代碼服務(wù)平臺(tái),中醫(yī)藥信息研究所高效完成了文獻(xiàn)和臨床數(shù)據(jù)的治理工作,包括自動(dòng)抽取、標(biāo)準(zhǔn)化等任務(wù)。此外,在中醫(yī)垂類大模型的微調(diào)、應(yīng)用發(fā)布方面,平臺(tái)將提供算法支持和模型優(yōu)化工具,幫助客戶充分挖掘中醫(yī)藥數(shù)據(jù)的內(nèi)在價(jià)值。雙方合作與探索,不僅進(jìn)一步加速了中醫(yī)大模型的研究和應(yīng)用,以及中醫(yī)藥的現(xiàn)代化進(jìn)程,也將為全球健康事業(yè)的發(fā)展作出重要貢獻(xiàn)。
伴隨以大模型為核心的人工智能技術(shù)的快速發(fā)展,各行各業(yè)正經(jīng)歷著一場(chǎng)前所未有的智能化轉(zhuǎn)型浪潮。作為云服務(wù)國(guó)家隊(duì),天翼云將持續(xù)聚焦人工智能場(chǎng)景進(jìn)行技術(shù)創(chuàng)新,積極加碼布局智算基礎(chǔ)設(shè)施,賦能企業(yè)跑出“AI加速度”,攜手合作伙伴共同推動(dòng)經(jīng)濟(jì)社會(huì)智能化水平邁向新高度。
相關(guān)稿件