12月22日-23日,以“智能涌現(xiàn)·發(fā)現(xiàn)未來”為主題的網(wǎng)易未來大會在浙江杭州舉辦。在AGI 論壇“AI
三人行”圓桌對話上,南京大學(xué)智能科學(xué)與技術(shù)學(xué)院副教授易子立、「靈動AI」創(chuàng)始人雷海波、AI 繪畫知名博主娜烏斯嘉三人,共同就《AI
生成視頻往何處去?》分享精彩觀點(diǎn),英諾天使基金合伙人王晟為本次對話主理人。
易子立首先教授表示,隨著AI
熱潮的來臨,很多企業(yè)已經(jīng)在嘗試使用AI工具,但文生圖、文生視頻的技術(shù)仍有待進(jìn)一步成熟。目前,AI生成視頻的主要技術(shù)路徑是擴(kuò)散模型,未來的趨勢有可能是歸回大模型訓(xùn)練的方式。國外在視頻生成底層技術(shù)方面具有一定的領(lǐng)先優(yōu)勢,國內(nèi)在像2D
數(shù)字人、AI 社交這樣的細(xì)分應(yīng)用上表現(xiàn)更好。相信伴隨算力水平的提升和技術(shù)范式的革新,將來國內(nèi)有可能在某些方面超越國外。
「靈動AI」 創(chuàng)始人雷海波
“「靈動AI」是將生成式AI圖像技術(shù)應(yīng)用于營銷設(shè)計端的創(chuàng)業(yè)企業(yè),我們過去20年一直在視覺設(shè)計和視覺影像行業(yè)探索”?!胳`動AI」 創(chuàng)始人雷海波在談及視覺大模型話題時表示,過去做設(shè)計社區(qū)、媒體和設(shè)計平臺,幾乎每天都與設(shè)計師、設(shè)計機(jī)構(gòu)打交道。據(jù)我所知,目前國內(nèi)一些頂尖藝術(shù)設(shè)計類高校,已在日常教學(xué)和設(shè)計項(xiàng)目中應(yīng)用了文生圖等大模型。因此,AI在生圖領(lǐng)域的能力毋庸置疑,但生成視頻,落地應(yīng)用可能還需要半年到1年的時間。
面對國內(nèi)大模型廠商為何競爭不過國外的問題。他直言,造成這一現(xiàn)象的原因,不僅僅是技術(shù)、算力、數(shù)據(jù)集方面的差距,從設(shè)計的維度來看,國內(nèi)廠商對美學(xué)理解還存在欠缺。事實(shí)上,當(dāng)下 Midjourney 生成圖的調(diào)性、氛圍、光影質(zhì)感,已經(jīng)遠(yuǎn)超越人類的表現(xiàn)。如果國內(nèi)大廠能做出類似 Midjourney 視覺模型,并結(jié)合高品質(zhì)的數(shù)據(jù)集,配合行業(yè)認(rèn)知和產(chǎn)業(yè)化落地能力,垂直應(yīng)用層面一定是有很大機(jī)會的。
被問及「靈動AI」的落地應(yīng)用場景,他回答的簡單而直接,“我們主要是面向前綴場景,比如營銷,特別是電商營銷。過去,數(shù)億的商家和數(shù)十億的SKU(單款商品)的營銷物料都是靠人工來實(shí)現(xiàn)的。現(xiàn)在試想,如果上傳的商品信息既能在文字、圖像等模態(tài)上保持不變,又能夠與文字、圖片、視頻等模態(tài)模型實(shí)現(xiàn)很好的融合,從而為商家產(chǎn)出AI商品圖、海報、短視頻,甚至是3D交互內(nèi)容,這個市場需求是很大的。今年,「靈動AI」主要發(fā)力點(diǎn)在文生圖、垂類模型的研發(fā)及探索行業(yè)應(yīng)用,但我們看到了文生圖、圖生視頻對創(chuàng)意生產(chǎn)力帶來的解放,更期待AI在3D領(lǐng)域的高質(zhì)量生成能力”。
作為AI領(lǐng)域的知識博主和模型訓(xùn)練師,娜烏斯嘉認(rèn)為,AI在視頻生成領(lǐng)域歸結(jié)為四類場景:原視頻風(fēng)格轉(zhuǎn)化、瞬息全宇宙、圖生視頻、場景轉(zhuǎn)換視頻。目前主要是廣告制作、預(yù)告片制作、推文和短視頻創(chuàng)作等領(lǐng)域嘗試較多。在圖片生成方面, AI 已能達(dá)到各種炫目的效果,但在視頻生成領(lǐng)域由于控制手段較少,表現(xiàn)力受到一定限制。例如:人物表情在視頻中的一致性不夠,容易出現(xiàn)“恐怖谷效應(yīng)”。她希望在視頻生成效果控制上,技術(shù)能夠做到更加精準(zhǔn)。但在AI的世界里,創(chuàng)造性的想法一定是大于技術(shù)。
英諾天使基金合伙人王晟
站在投資人的角度,王晟表示,目前生成式視頻的熱度非常高。今年,風(fēng)險投資主要表現(xiàn)為兩端集中:一是資金端集中,只有部分VC敢于真正的出手;二是項(xiàng)目端集中,VC的資金主要投向了計算能力相關(guān)項(xiàng)目,如GPU、芯片、高速無損網(wǎng)絡(luò)、大模型等。明年,大家比較期待的是多模態(tài)模型領(lǐng)域,以及多模態(tài)能力的落地應(yīng)用。
當(dāng)然,AI作為一項(xiàng)智能技術(shù),需要全社會不斷地對它加深認(rèn)知,需要政府、科學(xué)家、企業(yè)、媒體、資本等共同參與,這樣才能促使其獲得更好的良性發(fā)展。
據(jù)悉,「靈動AI」目前已上線近千個商品圖場景,初步形成AI工具矩陣。由于擁有特定風(fēng)格場景的LoRA模型,多個億級參數(shù)的專用AI模型以及智能審美評價系統(tǒng),在主體控制下,使生成商品圖呈現(xiàn)獨(dú)特的視覺特征和美學(xué)調(diào)性,從而為企業(yè)級用戶提供更好的服務(wù)。
相關(guān)稿件