為訓(xùn)練數(shù)據(jù)建一個(gè)TB級(jí)計(jì)算「飛地」,聯(lián)邦學(xué)習(xí)的靠譜實(shí)現(xiàn)方式了解一下?
2017年,著名雜志《經(jīng)濟(jì)學(xué)人》發(fā)表封面文章稱,數(shù)據(jù)已經(jīng)取代石油成為當(dāng)今世界最有價(jià)值的資源。在那之后,「數(shù)據(jù)是新時(shí)代的『石油』」這一說法逐漸深入人心。
五年后的今天,人們對(duì)數(shù)據(jù)的重視又上了一個(gè)新的臺(tái)階,尤其是在AI領(lǐng)域。大家普遍認(rèn)為,數(shù)據(jù)的質(zhì)量和規(guī)模將對(duì)AI的研究和落地產(chǎn)生重要影響。
在質(zhì)量方面,吳恩達(dá)等學(xué)者提出,AI領(lǐng)域正經(jīng)歷從「以模型為中心」到「以數(shù)據(jù)為中心」的轉(zhuǎn)變。他認(rèn)為,「對(duì)于很多行業(yè)來說,現(xiàn)在更有效率的做法是保持神經(jīng)網(wǎng)絡(luò)體系架構(gòu)不變,轉(zhuǎn)而尋找改進(jìn)數(shù)據(jù)的方法」。為了幫助機(jī)構(gòu)提升數(shù)據(jù)質(zhì)量,吳恩達(dá)所在的Landing.AI等公司正在構(gòu)建一些實(shí)用的工具。
在規(guī)模方面,AI大廠掀起的大模型暴力美學(xué)依然占據(jù)主流,人們依然希望借助大數(shù)據(jù)、大算力探索深度學(xué)習(xí)的天花板。不過,與大模型需要的海量數(shù)據(jù)相比,單個(gè)機(jī)構(gòu)所能處理的數(shù)據(jù)往往是不充分的:一是數(shù)據(jù)量不夠大,二是數(shù)據(jù)的維度和來源不夠豐富。為了解決這些問題,越來越多的機(jī)構(gòu)開始走向多方聯(lián)合的道路,希望借助多方的合力訓(xùn)練出更精準(zhǔn)的AI模型,讓數(shù)據(jù)在流通中發(fā)揮應(yīng)有的價(jià)值。
不過,受限于法律法規(guī)、政策監(jiān)管、商業(yè)機(jī)密、個(gè)人隱私等數(shù)據(jù)隱私安全上的約束,多個(gè)數(shù)據(jù)來源方無法直接交換數(shù)據(jù),這就形成了「數(shù)據(jù)孤島」現(xiàn)象,制約著AI模型能力的進(jìn)一步提高。受此需求驅(qū)動(dòng),聯(lián)邦學(xué)習(xí)應(yīng)運(yùn)而生。
聯(lián)邦學(xué)習(xí)的核心思想是通過在多個(gè)擁有本地?cái)?shù)據(jù)的數(shù)據(jù)源之間進(jìn)行分布式模型訓(xùn)練,在不需要交換本地個(gè)體或樣本數(shù)據(jù)的前提下,僅通過交換模型參數(shù)或中間結(jié)果的方式,構(gòu)建基于多方數(shù)據(jù)下的全局模型,從而實(shí)現(xiàn)「數(shù)據(jù)可用不可見」、「數(shù)據(jù)不動(dòng)模型動(dòng)」。
和2016年谷歌剛剛提出這一概念時(shí)不同,聯(lián)邦學(xué)習(xí)如今已經(jīng)有了很多具體的實(shí)現(xiàn)路徑,既有基于軟件的,也有基于硬件的。其中,基于硬件的路徑——主要是 TEE(Trusted Execution Environment,可信執(zhí)行環(huán)境)——由于可支持多層次、高復(fù)雜度的算法邏輯實(shí)現(xiàn)以及運(yùn)算效率高等優(yōu)勢(shì)而受到廣大企業(yè)的青睞,落地速度也在不斷加快,尤其在醫(yī)療、金融等數(shù)據(jù)安全要求較高的行業(yè)。
基于TEE的醫(yī)療科研多方安全計(jì)算平臺(tái)
首先來說醫(yī)療行業(yè)。AI+醫(yī)療是一個(gè)發(fā)展較早的細(xì)分領(lǐng)域,但直到今天,Geoffrey Hinton 2016年的預(yù)言——AI將取代放射科醫(yī)生——依然沒有實(shí)現(xiàn)。在種種阻礙因素中,醫(yī)療領(lǐng)域的數(shù)據(jù)聚合是一個(gè)繞不開的難題,包括患者生命體征信息、疾病信息、影像檢驗(yàn)報(bào)告、互聯(lián)網(wǎng)診療記錄、藥品使用等各種不能離開醫(yī)院的基礎(chǔ)數(shù)據(jù)。
近幾年,采用TEE方案的聯(lián)邦學(xué)習(xí)方法在各醫(yī)療科研機(jī)構(gòu)的實(shí)踐中收獲了良好的效果,它可以為「使用中」(即處于計(jì)算或處理中)的數(shù)據(jù)提供保護(hù),與其他針對(duì)靜態(tài)數(shù)據(jù)和傳輸中的數(shù)據(jù)的保護(hù)方法一起,為數(shù)據(jù)流動(dòng)與共享「護(hù)航」。
三種狀態(tài)下的數(shù)據(jù)保護(hù)
為了保護(hù)這些使用中的數(shù)據(jù),TEE會(huì)在硬件中為它們單獨(dú)分配一塊隔離的內(nèi)存區(qū)域,所有相關(guān)數(shù)據(jù)的計(jì)算均在這塊區(qū)域中進(jìn)行,并且除了經(jīng)過授權(quán)的接口外,硬件中的其他部分均不能訪問這塊隔離的內(nèi)存中的信息,以此來實(shí)現(xiàn)隱私計(jì)算。
與一般的分布式機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方案相比,聯(lián)邦學(xué)習(xí)方法可以為醫(yī)療科研增添以下優(yōu)勢(shì):
●醫(yī)療數(shù)據(jù)不脫離本地,各參與方可接入各自數(shù)據(jù)訓(xùn)練全局模型;
●每個(gè)醫(yī)療科研參與方都可參與訓(xùn)練過程,模型損失可控;
●訓(xùn)練過程能更好地兼顧隱私和安全需求,各參與方能在不暴露數(shù)據(jù)及加密形態(tài)的前提下進(jìn)行聯(lián)合建模。
如果這種聯(lián)邦學(xué)習(xí)方法或方案能再加上一個(gè)前綴——「基于TEE」,那么它還會(huì)收獲更多強(qiáng)化功能,例如它可以通過硬件環(huán)境上的隔離,使安全保護(hù)機(jī)制獨(dú)立于軟件應(yīng)用、操作系統(tǒng)或硬件配置之外,使其保護(hù)的對(duì)象可以更好地應(yīng)對(duì)來自硬件驅(qū)動(dòng)程序、虛擬機(jī)乃至操作系統(tǒng)的攻擊。再如,它的用途,不僅僅是可以提供數(shù)據(jù)運(yùn)行態(tài)全鏈路的保護(hù),來確保數(shù)據(jù)中的機(jī)密、隱私和完整性得到更強(qiáng)的防護(hù),它還能對(duì)指定的應(yīng)用程序或算法的代碼進(jìn)行同樣可靠的防護(hù);又如,它還擁有更完備的遠(yuǎn)程鑒權(quán)能力,能讓相關(guān)數(shù)據(jù)和密鑰的傳遞更為可靠;最后,相比那些非硬件加速支持的聯(lián)邦學(xué)習(xí)及多方隱私計(jì)算方案,有TEE加持的方案,往往在兼顧安全防護(hù)能力和提升數(shù)據(jù)處理性能上有更好的表現(xiàn)。
正是這些優(yōu)勢(shì),給了眾多醫(yī)療科研機(jī)構(gòu)選擇基于TEE構(gòu)建自己的聯(lián)邦學(xué)習(xí)系統(tǒng)的理由。
以多年來一直深耕醫(yī)療AI與大數(shù)據(jù)技術(shù)創(chuàng)新的醫(yī)渡云為例,這家公司基于聯(lián)邦學(xué)習(xí)等隱私計(jì)算方法打造了一個(gè)多方安全計(jì)算解決方案,自下而上包含面向院內(nèi)外業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集系統(tǒng)、進(jìn)行數(shù)據(jù)加工治理的專病庫(kù)以及開展多方隱私計(jì)算的安全計(jì)算平臺(tái)等幾個(gè)部分,其中的多方安全計(jì)算平臺(tái)也支持TEE方式進(jìn)行構(gòu)建。
醫(yī)渡云多方安全計(jì)算解決方案整體架構(gòu)
而且,他們采用的是實(shí)現(xiàn)TEE的一種主流技術(shù)——英特爾?軟件防護(hù)擴(kuò)展(Intel?Software Guard Extensions,英特爾?SGX)。
英特爾? SGX技術(shù)實(shí)際作用示意圖
在工作時(shí),SGX技術(shù)會(huì)給相關(guān)數(shù)據(jù)分配一塊隔離區(qū)域,也叫「飛地(Enclave)」。我們可以把它理解成一個(gè)隔離醫(yī)院,但能入駐這個(gè)醫(yī)院的并不是已經(jīng)被感染的患者,而是那些健康群體,即需要受到嚴(yán)密保護(hù)的應(yīng)用代碼或關(guān)鍵數(shù)據(jù)。SGX技術(shù)能在CPU的支持下,在內(nèi)存等特定硬件環(huán)境中構(gòu)建出這樣一個(gè)飛地,讓各醫(yī)療科研機(jī)構(gòu)的數(shù)據(jù)分析、模型訓(xùn)練及推理所涉及的數(shù)據(jù)都運(yùn)行在各自的飛地中,并通過訪問控制為這些應(yīng)用代碼和數(shù)據(jù)提供更可信賴的安全保障。
這種飛地獨(dú)立于操作系統(tǒng)、虛擬機(jī)以及BIOS系統(tǒng)之外,也就是說,即便一些比你的應(yīng)用程序更底層的基礎(chǔ)軟件或系統(tǒng)在惡意攻擊中淪陷,飛地也可以通過基于硬件的、增強(qiáng)型的安全防護(hù)更有效地阻斷這些攻擊,盡力避免其中的數(shù)據(jù)或代碼被竊取或篡改。
那么,這個(gè)「飛地」有多大呢?這和你要使用的英特爾處理器的種類及型號(hào)有關(guān)。醫(yī)渡云解決方案使用的是英特爾去年發(fā)布的面向單路和雙路服務(wù)器的第三代至強(qiáng)?可擴(kuò)展處理器,它已經(jīng)全面內(nèi)置SGX技術(shù),可在雙路服務(wù)器上實(shí)現(xiàn)最大容量為1TB的保留加密內(nèi)存區(qū)域(Enclave Page Cache,EPC,單顆處理器最高支持512GB),這對(duì)于醫(yī)療科研機(jī)構(gòu)進(jìn)一步擴(kuò)展AI模型訓(xùn)練與推理的數(shù)據(jù)規(guī)模至關(guān)重要。
不過,如果你以為醫(yī)渡云的方案僅僅是要借SGX技術(shù)來實(shí)現(xiàn)更大、更強(qiáng)的安全「飛地」的話,那就是小看了全新至強(qiáng)? 可擴(kuò)展處理器在AI實(shí)踐中的價(jià)值了——它除內(nèi)置有SGX技術(shù)外,還有來自英特爾?高級(jí)矢量擴(kuò)展512(英特爾?AVX-512)技術(shù)和英特爾?深度學(xué)習(xí)加速(英特爾?DL Boost)技術(shù)的加成,也可在兼顧更優(yōu)安全能力的同時(shí),為醫(yī)渡云方案涉及的復(fù)雜計(jì)算需求提供有力支撐。
因此這款處理器在醫(yī)渡云的多方安全計(jì)算解決方案中同時(shí)發(fā)揮著加固安全與提升性能的雙重價(jià)值。正是得益于它帶來的綜合優(yōu)勢(shì),醫(yī)渡云已經(jīng)開始支持多家醫(yī)院和醫(yī)療科研機(jī)構(gòu)開發(fā)一系列基于該方案的聯(lián)合研究項(xiàng)目,同時(shí)也通過了中國(guó)信息通信研究院在隱私保護(hù)計(jì)算技術(shù)上的兩項(xiàng)認(rèn)證——《基于多方安全計(jì)算的數(shù)據(jù)流通產(chǎn)品技術(shù)要求與測(cè)試方法》及《基于聯(lián)邦學(xué)習(xí)的數(shù)據(jù)流通產(chǎn)品技術(shù)要求與測(cè)試方法》。
基于TEE的多源金融大數(shù)據(jù)隱私計(jì)算技術(shù)驗(yàn)證
另一個(gè)非常青睞TEE解決方案的是金融行業(yè)。與其他技術(shù)方案相比,以硬件為載體來為數(shù)據(jù)和代碼提供安全可信環(huán)境的TEE,在金融行業(yè)最關(guān)注的數(shù)據(jù)安全、性能以及可用性三個(gè)維度上,能取得接近「帕累托最優(yōu)」的效果,因此受到較多企業(yè)的青睞。
聯(lián)邦學(xué)習(xí)中不同安全隱私技術(shù)綜合評(píng)估
在這個(gè)行業(yè),企業(yè)通常需要將已有的大量AI應(yīng)用以聯(lián)邦學(xué)習(xí)模式高效、便捷地?cái)U(kuò)展到現(xiàn)有的分布式大數(shù)據(jù)平臺(tái)上(如Spark、Flink、Hadoop集群)。在此過程中,他們可能會(huì)遇到一些挑戰(zhàn),比如如何在開展聯(lián)邦學(xué)習(xí)時(shí)依然保持AI訓(xùn)練與推理的高效能?如何在應(yīng)用TEE技術(shù)特性時(shí)做到數(shù)據(jù)的全??尚?#xff1f;如何將二進(jìn)制應(yīng)用程序不做改動(dòng)地運(yùn)行在TEE環(huán)境中?
英特爾與中國(guó)銀聯(lián)電子商務(wù)與電子支付國(guó)家工程實(shí)驗(yàn)室組成的聯(lián)合研究團(tuán)隊(duì)通過開源的統(tǒng)一大數(shù)據(jù)分析與AI平臺(tái)——BigDL,驗(yàn)證了基于TEE的聯(lián)邦學(xué)習(xí)與實(shí)時(shí)預(yù)測(cè)方案,有助于解決上述問題。
如圖所示,基于英特爾?SGX技術(shù)的BigDL提供了自下而上可信的安全技術(shù)、不同層面的軟件框架以及用于連接大數(shù)據(jù)平臺(tái)和聯(lián)邦學(xué)習(xí)方法的端到端平臺(tái)。
基于英特爾?SGX技術(shù)的BigDL平臺(tái)架構(gòu)
我們重點(diǎn)來看一下安全技術(shù)層面。在這一層面,該平臺(tái)通過第三代英特爾?至強(qiáng)?可擴(kuò)展處理器集成的英特爾?SGX技術(shù),提供了所需的TEE環(huán)境;同時(shí),還通過加入Gramine-SGX這樣的開源LibOS組件,來加速既有Al模型或應(yīng)用程序在SGX技術(shù)上的無縫遷移。Gramine-SGX允許用戶在不修改相應(yīng)模塊代碼的情況下,通過系統(tǒng)調(diào)用的方式直接在SGX環(huán)境中執(zhí)行,大大降低了SGX技術(shù)的應(yīng)用門檻。同時(shí),這一組件的加入,也使英特爾開源的OpenVINO?工具套件和OneDNN等重要Al軟件工具能夠在SGX環(huán)境中方便地運(yùn)行。
一種典型的基于英特爾?SGX-BigDL平臺(tái)的預(yù)測(cè)方案架構(gòu)如下圖所示,用戶數(shù)據(jù)可以導(dǎo)入基于Gramine-SGX的SGX環(huán)境中,由BigDL平臺(tái)負(fù)責(zé)連通和調(diào)度預(yù)測(cè)推理所需的模型庫(kù)、框架和工具,在完成預(yù)測(cè)推理后,再向用戶輸出相應(yīng)結(jié)果,中間所涉及的數(shù)據(jù)和工作流程都可獲得更有效的安全保障。
典型的基于英特爾?SGX-BigDL平臺(tái)的預(yù)測(cè)方案
聯(lián)合團(tuán)隊(duì)的驗(yàn)證結(jié)果表明,基于英特爾?SGX-BigDL平臺(tái)部署的實(shí)時(shí)計(jì)算與預(yù)測(cè)推理方案,能在更好地保障端到端數(shù)據(jù)安全的前提下,依舊保持預(yù)期的性能。
Gartner曲線:聯(lián)邦學(xué)習(xí)技術(shù)還在上升期
「為什么我們要投入聯(lián)邦學(xué)習(xí)?」中國(guó)人工智能開源軟件發(fā)展聯(lián)盟副理事長(zhǎng)王健宗博士在前段時(shí)間英特爾聯(lián)合國(guó)際學(xué)術(shù)期刊《Science》推出的「架構(gòu)師成長(zhǎng)計(jì)劃」第二季系列課程中提出了這樣一個(gè)問題。
為了解釋這個(gè)問題,他向大家展示了去年的Gartner技術(shù)成熟度曲線。這份曲線圖顯示,聯(lián)邦學(xué)習(xí)當(dāng)前正處于高速發(fā)展期,未來將成為一項(xiàng)非常重要的計(jì)算技術(shù)。這也是Gartner首次將聯(lián)邦學(xué)習(xí)納入技術(shù)成熟度曲線。
Gartner技術(shù)成熟度曲線
在應(yīng)用方面,除了我們前面提到的醫(yī)療和金融場(chǎng)景,王健宗還系統(tǒng)地總結(jié)了聯(lián)邦學(xué)習(xí)在物聯(lián)網(wǎng)、政務(wù)等領(lǐng)域的應(yīng)用。從這里也可以看出,聯(lián)邦學(xué)習(xí)技術(shù)的應(yīng)用范圍正在不斷擴(kuò)大,越來越多企業(yè)正放下顧慮,更放心地參與到共同的AI應(yīng)用開發(fā)中來。這背后,以TEE為代表的安全計(jì)算實(shí)現(xiàn)方案功不可沒。
聯(lián)邦學(xué)習(xí)在行業(yè)場(chǎng)景中的應(yīng)用
值得一提的是,王健宗早在幾年前就曾帶領(lǐng)他在平安科技的團(tuán)隊(duì)開始構(gòu)建基于英特爾?SGX的TEE聯(lián)邦學(xué)習(xí)方案,也見證了這一技術(shù)地不斷迭代。他對(duì)第三代至強(qiáng)?可擴(kuò)展處理器1TB的EPC容量以及英特爾?SGX對(duì)云邊協(xié)同的支持印象深刻。他認(rèn)為,在現(xiàn)在大家都比較重視隱私保護(hù)、數(shù)據(jù)安全的環(huán)境下,英特爾?SGX為我們提供了一個(gè)更安全的可信計(jì)算環(huán)境。
對(duì)于聯(lián)邦學(xué)習(xí)未來的發(fā)展,王健宗主要看好三個(gè)方向:自動(dòng)化機(jī)器學(xué)習(xí)、零代碼聯(lián)邦和大規(guī)?;ヂ?lián)互通。他解釋說,聯(lián)邦學(xué)習(xí)現(xiàn)在仍然是一個(gè)比較復(fù)雜的技術(shù),有很多工程方面的工作。未來他希望能實(shí)現(xiàn)自動(dòng)化機(jī)器學(xué)習(xí),以及通過簡(jiǎn)單地拖拉拽,實(shí)現(xiàn)零代碼的聯(lián)邦學(xué)習(xí),進(jìn)而讓聯(lián)邦學(xué)習(xí)應(yīng)用到更多對(duì)數(shù)據(jù)、代碼安全性要求更高的領(lǐng)域。
相關(guān)稿件