AI開始認(rèn)知世界,成為有知識、能思考、善表達、會學(xué)習(xí)的智能體。
文|《中國企業(yè)家》記者 趙東山
ChatGPT引爆一系列變革之后,給王小川的直觀感覺是“地動山搖,要變天了”。
過去一個多月里,幾乎每隔一段時間,甚至是每隔幾天,OpenAI就有新的技術(shù)進展,從GPT-4的發(fā)布,到與微軟Office系列產(chǎn)品的結(jié)合,再到推出Plugin平臺開放更多的插件,每天都在刷新人們的認(rèn)知。王小川對此的形容是“掉個渣兒都會產(chǎn)生很大的影響”。
ChatGPT也引發(fā)了國內(nèi)的AI大模型創(chuàng)業(yè)潮。在一系列的討論中,王小川被認(rèn)為是最有可能參與打造中國版OpenAI的候選人之一。
王小川是清華大學(xué)計算機系96級的知名人物,創(chuàng)辦了搜狗搜索,多年前就通過AI技術(shù)探索在輸入法、搜索、語音識別等應(yīng)用。更重要的是,2021年10月,卸任搜狗CEO后,王小川一直在尋求指引他再次創(chuàng)業(yè)的那盞明燈。一年零兩個月后,他終于看到了。
2023年1月,王小川在試用ChatGPT后,意識到“強人工智能時代到來了”。僅3個月后,4月10日,他正式官宣入場大模型創(chuàng)業(yè),和前搜狗COO茹立云聯(lián)合創(chuàng)立人工智能公司——百川智能。
目前,百川智能已獲得5000萬美元啟動資金,來自王小川與其業(yè)內(nèi)好友的個人支持。團隊擁有包括來自搜狗、百度、華為、微軟、字節(jié)、騰訊等知名科技公司的數(shù)十位頂尖AI人才。
不同于創(chuàng)辦搜狗,這一次創(chuàng)業(yè),王小川把自己的名字寫進了公司名字中,他解釋:“百川不是我一個人,需要更多人來做這個事?!泵刻?#xff0c;他花三分之一的時間找人,三分之一的時間學(xué)習(xí)。他也非常有信心在年底做出中國最好的大語言模型。
過去十多年,王小川一直在關(guān)注人工智能的進展。2016年,在AlphaGo與李世石展開人機大戰(zhàn)之前,他就和幾位AI大佬打賭并預(yù)測AlphaGo會贏。不過,從搜狗退出后,他把重心轉(zhuǎn)移到了生命健康領(lǐng)域,這些年他讀了上千篇醫(yī)學(xué)論文。
關(guān)于缺失在人工智能語境中的那兩年,他告訴《中國企業(yè)家》:“可能有人比我先淋到雨,但有可能他不覺得在下雨。但當(dāng)雨滴滴下來之后,我第一個意識到,變天兒了!”短短三個月,他用ChatGPT的次數(shù)已經(jīng)明顯多于用搜索的次數(shù)。
針對“誰能在這場大模型競爭中勝出”這個問題,王小川表示:“小創(chuàng)新大廠贏,大創(chuàng)新小廠贏。大廠的專注度和效率不一定比創(chuàng)業(yè)公司高,而且有追求的人可能在原有的地方也有瓶頸,這個事就適合用創(chuàng)新來做,我不覺得AI創(chuàng)新是專屬于大廠的事情。”
王小川的精彩觀點如下:
1.創(chuàng)業(yè)不是一個拼盤的過程,感覺好像拉幾個人,概念上放在一塊就行了。它是一個生命體,要不斷演化,一點點長起來。
2.我現(xiàn)在做的事是世界需要的,跟世界是連在一塊的,不是公司需要、部門需要或者只是同學(xué)們需要的,這是不一樣的。
3.機器掌握語言,強人工智能就到來了。當(dāng)你沒有語言的時候,我們其實沒法去認(rèn)知這個世界,語言的邊界就是世界的邊界。
4.OpenAI需要特別自由的環(huán)境,甚至無目的性,不是為了賺個錢,或者為了有一種商業(yè)回報,就是對事情本身的好奇。這種情況本身就跟科學(xué)精神更一致。
5.搜索正好是ChatGPT的反面,細(xì)節(jié)都知道,抽象知識不會。ChatGPT是抽象知識會了,細(xì)節(jié)全忘了。就像一個相對論,一個量子力學(xué),合在一塊兒,才能構(gòu)成更完整的一種智能。
6.OpenAI的邏輯叫做理想大于落地。我們就要平衡這件事兒,理想上可以比OpenAI慢半步,落地要快半步。
以下是《中國企業(yè)家》采訪王小川實錄(有刪減):
談ChatGPT:當(dāng)它能多輪對話時,我覺得要變天了
《中國企業(yè)家》:我們最近訪談了很多人,他們談到ChatGPT的時候,往往都有一個驚艷時刻,你有沒有這樣的驚艷時刻?
王小川:我們一直搞語言,搜狗當(dāng)時也做了百億參數(shù)的大模型,但交給騰訊之后,我開始轉(zhuǎn)向把健康變成數(shù)學(xué)問題的研究,中間零零散散看到一些進展突破,假如當(dāng)時還在語境里,我可能會更早敏感到這個事兒。尤其記得當(dāng)時,當(dāng)你提個問題,一旦后面加了一個prompt(提示詞)“think step by step(仔細(xì)想一想)”,機器就答對了,我覺得好好玩兒。
到了今年1月,用了ChatGPT之后,當(dāng)我開始追問它時,我就發(fā)現(xiàn)變天了。它能夠用最自然的方法,根據(jù)我的提問回答,然后我再追加幾個字的問題,它能根據(jù)追問做調(diào)整,這個時候我就發(fā)現(xiàn)不得了了,通用人工智能時代已經(jīng)到來了。
《中國企業(yè)家》:傅盛老對外講他問ChatGPT,他的狗為什么叫三萬的問題,隨后讓他驚艷,你有沒有問這樣的問題?
王小川:我跟他們其實很不一樣。我可能不需要一個特別能讓大眾理解的東西來觸動我。我記得當(dāng)時有個會,我和傅盛都參加了。我當(dāng)時就講,通用人工智能到來了,他還不信,還覺得我在裝。但后來他打電話跟我說,小川,你太英明了,他也跟我說了三萬這個案例。
我的敏感跟大家不一樣,看到它能夠多輪對話了,我就覺得通用人工智能時代到來了,并不是需要三萬這樣一個驚艷的例子。
《中國企業(yè)家》:其實你很早就預(yù)言,“當(dāng)機器掌握語言之后,強人工智能就到來了”,會想到這么快就被實現(xiàn)了嗎?
王小川:沒有這種時間上的概念。剛好在技術(shù)突破的時候,我退出搜狗離開了這個語境,但當(dāng)這個雨滴滴下來之后,我認(rèn)為我是第一個意識到,變天兒了!可能有人比我先淋到雨,但他不覺得在下雨。
《中國企業(yè)家》:國內(nèi)這么多年來一直在人工智能方面深耕,還有很多卓越的創(chuàng)業(yè)者,為什么等到ChatGPT出來之后才恍然大悟?大家原來都忽略了哪一點,或者說不敢想?
王小川:本身這種原創(chuàng)性的想法,很多時候就發(fā)生在美國。我簡單講,大家不是不敢做,是沒想法居多,特別到了工業(yè)界更是這樣子。他有自己的業(yè)務(wù)目標(biāo),天天為了向老板怎么匯報,天天琢磨收入,誰沒事兒琢磨這個呢?
但我想過。AlphaGo出來之前,大概2013年我已經(jīng)在想CNN網(wǎng)絡(luò)(卷積神經(jīng)網(wǎng)絡(luò))能下圍棋,當(dāng)時我就滿清華去找老師合作,想去做下圍棋這事兒。系主任、黨委書記、所長、實驗室主任都找過,大家對這事沒有太大的沖動和熱情。
AlphaGo出來之后,我有兩個斷言:第一,機器掌握語言之后,強人工智能時代就來了;第二,預(yù)測下一個由AI改變的是視頻。我相信今天預(yù)測下一個由AI改變的是視頻這個事兒,也一定有人在死磕,因為這意味著你對物理空間有新的理解。
我覺得需要有這種腦洞,這個腦洞需要特別自由的環(huán)境,甚至無目的性,不是為了賺個錢,或者為了有一種商業(yè)回報,就是對事情本身的好奇。這種情況本身就跟科學(xué)精神更一致的,去理解一種規(guī)律,跟商業(yè)世界確實比較遠(yuǎn)。
《中國企業(yè)家》:即使最頭部的大廠意識到通用人工智能的機會,可能也沒有辦法持續(xù)投入?
王小川:沒錯。這也是為什么我覺得谷歌干不過OpenAI的原因。谷歌里面的工程師,可能有這個想法,沒人有這個想法也組織不起來了。
談通用人工智能:語言的邊界就是世界的邊界
《中國企業(yè)家》:你在很多場合說過語言的重要性。你認(rèn)為語言在人類的文明,包括未來智能文明當(dāng)中,扮演的角色是什么?
王小川:我之前說“機器掌握語言,通用人工智能就到來”,就是把語言跟通用人工智能放在一個畫等號的位置上。
我之前從做搜索、做輸入法,都是以語言為核心。我們小學(xué)上課的時候就知道,馬克思、恩格斯也講,人跟動物的區(qū)別,就是會語言、會使用工具。
我經(jīng)常舉一個例子,有一件藝術(shù)品叫做“三把椅子”:一把真的椅子在這兒,一張椅子的照片,還有一個是椅子這個詞。三把椅子,哪個才是椅子?
我們的第一反應(yīng)可能都是,真正的椅子它是。但是,我們?nèi)ハ?#xff0c;假設(shè)沒有發(fā)明椅子這個詞,人類沒有個概念之前,那你坐著的就是一個東西,你沒有辦法抽象成一個具體的功能載體。
當(dāng)沒有語言的時候,我們其實沒法去認(rèn)知這個世界。維特根斯坦也講到,語言的邊界就是世界的邊界。語言既是知識的載體,也是溝通的載體。
《中國企業(yè)家》:我聽到一種說法,之前的深度學(xué)習(xí)的方式更像是一個人學(xué)習(xí)外語的方式,現(xiàn)在這種大模型的學(xué)習(xí)語言的方式,更接近于學(xué)習(xí)母語的方式。
王小川:我是認(rèn)同的。其實今天的問題,是深度學(xué)習(xí)之上更大的一個復(fù)雜方式,區(qū)別在哪兒?
學(xué)外語的時候,你等于要重新掛一個模塊進來,通常是強迫你在迅速高密度地知道這種語料,所以本身是大量的叫做監(jiān)督數(shù)據(jù)或者標(biāo)記數(shù)據(jù)里去做映射,例如英文映射成中文,你再去學(xué)習(xí)它,這是我們通常學(xué)的一種方法。我們之前做機器翻譯也是一樣的。
但今天的做法,是讓你先去書讀百遍,其義自見,就跟小朋友學(xué)習(xí)一樣。第一天不是先教他學(xué)東西,而是先自由地到處看,他可能看到泡泡往上走、氣球往上飛會特別興奮。他會很關(guān)注,然后去學(xué)。他學(xué)的是世界上基本的規(guī)律,不是當(dāng)成一個知識來學(xué)。自然語言處理是人工智能皇冠上的明珠。
談行業(yè)變化:地動山搖,掉個渣都會有很大影響
《中國企業(yè)家》:AI大模型出來之后,整個科技界就像打了一劑強心針,你身在其中,有什么感覺?
王小川:地動山搖。
我認(rèn)為這是一個大時代的變化。我們已經(jīng)走出了互聯(lián)網(wǎng)時代、信息時代,進入到了一個智能時代,這種情況下,掉個渣都會產(chǎn)生很大的影響,我覺得這是一種新的文明。基礎(chǔ)大模型其實需要特別多的錢,但不妨礙在中間有各種開發(fā),做各種事情,有很多垂直領(lǐng)域的做法。
我不認(rèn)為今天可能就只有這么一件事情去做,有太多周邊垂直的事情,然后更有創(chuàng)造力的事情,都被發(fā)展起來,就像人類社會一樣。
《中國企業(yè)家》:現(xiàn)在GPT-4不是開源的,對于創(chuàng)業(yè)來說,這不是在源頭斷掉了?
王小川:局面很復(fù)雜。
微軟中國正在推云上接口,排隊排得很長。中小企業(yè)排隊,前面排了15000到20000個企業(yè),還要先提前注冊,然后排到一個半月甚至兩個月后。此外,你還要寫清楚,我的公司是干嗎的,我的網(wǎng)頁長啥樣子,然后我調(diào)這個服務(wù)器干嗎用的。對方審?fù)炅?#xff0c;才給你接口。
《中國企業(yè)家》:前段時間OpenAI推出的Plugin平臺,將會產(chǎn)生一個非常大的操作系統(tǒng)、生態(tài)系統(tǒng),你怎么看?
王小川:今天大家都說要做中國版OpenAI,但很少有把ChatGPT當(dāng)成它一部分來看的,其實ChatGPT特別重要,是to C以后最大的一種顛覆性的入口和人機交互界面,就像黃仁勛講,這是iPhone時刻。這種情況下,ChatGPT未來也會做增強,可能有不同的路線圖。
在我的想法里,會去做搜索增強,你知道現(xiàn)在時效性不夠,以及會有實時性的東西缺乏,需要用搜索去跟它接。搜索正好是反面,細(xì)節(jié)都知道,抽象知識不會。這個抽象知識會了,細(xì)節(jié)全忘了。就像一個相對論,一個量子力學(xué),合在一塊兒,才能構(gòu)成更完整的一種智能。
今天至少OpenAI的做法,就是一路狂奔,它不屑于把搜索當(dāng)成一個老的輪子掛著,而通過Plugin的方式去解決,OpenAI的邏輯叫做理想大于落地。我們就要平衡這件事兒,理想上可以比OpenAI慢半步,落地要快半步。
《中國企業(yè)家》:這一波浪潮來了之后,搜索是在被海浪拍的最前沿的那個海岸線,是吧?
王小川:是的。今天我用搜索的次數(shù)已經(jīng)開始低于ChatGPT的次數(shù)。
《中國企業(yè)家》:你之前在做生命科學(xué)領(lǐng)域,后來出來做大模型,這中間你自己的變化是什么?
王小川:生命科學(xué)比這事更有理想,這個事今天做,十有八九只是覺得小川你適合干。說明這事是更現(xiàn)實的,是已經(jīng)被別人突破了。前幾年突破之前,中國其實也有一些人想做,但是理想堅定度不夠,或者受到局限。
生命科學(xué)更復(fù)雜,更遙遠(yuǎn),我認(rèn)為健康本來就是數(shù)學(xué)模型,提了三個觀點:第一,牛頓把物理學(xué)變成了數(shù)學(xué)模型;第二,OpenAI把語言變成了數(shù)學(xué)模型;第三,我思考把醫(yī)療健康變成數(shù)學(xué)模型。因此,我在選擇時也力圖在新公司里,把醫(yī)療健康作為重要的組成部分。
談創(chuàng)業(yè):這不是屬于大廠的游戲
《中國企業(yè)家》:你大概在什么階段決定正式籌備百川智能?
王小川:2月份我開始認(rèn)真想這件事。
《中國企業(yè)家》:你把名字融入到公司名字,這個事看來很不王小川,是表明自己要All in?
王小川:對,以前做搜狗的時候,沒有這樣一種機緣。這次來講,確實你說得對。
《中國企業(yè)家》:百川最核心的創(chuàng)始團隊怎么達成的?吸納更多外部的人,還是找原來一些創(chuàng)業(yè)伙伴?
王小川:這是兩個問題。
首先,我是比較堅定一開始先從搜狗那邊來搭團隊。因為創(chuàng)業(yè)其實不是一個拼盤的過程,創(chuàng)業(yè)是一個生命體,要不斷演化這種過程,是一點點長起來的。所以,今天的時代不允許你開始由兩三個人一點點去找。
第二,搜狗的團隊離AI非常接近,很多人覺得無人駕駛是AI,搜索不是。其實搜索對AI的使用是非常多的,搜索也是數(shù)據(jù)、算力、算法,數(shù)據(jù)本身基本上是語言數(shù)據(jù)。搜狗其實是在語言數(shù)據(jù)上,到今天為止最有能力掌握數(shù)據(jù)的公司。此外,安全問題、意識形態(tài)問題等,搜狗也都是有成套的處理經(jīng)驗。
《中國企業(yè)家》:探討大模型創(chuàng)業(yè),算力、數(shù)據(jù)、人才都是成本,如果拿不到足夠多的投資,實際上這個事沒法做。
王小川:不同的路線圖。如果想做的是離AGI(通用人工智能)最近的公司,那么我預(yù)測是3億到20億美元的資金投入。3億只是入門的門檻。我們目前是選了對資金要求比較高的道路。
《中國企業(yè)家》:在路線圖選擇上有過糾結(jié)嗎?要選擇離大模型最近的一條,還是做離使用更近的?
王小川:雙輪驅(qū)動。超級應(yīng)用需要跟底層產(chǎn)生非常強的連接,如果沒有底座是沒有辦法支撐超級應(yīng)用,在我心中大底座和大應(yīng)用是相輔相成的。
《中國企業(yè)家》:具備什么樣的素質(zhì)才能選擇離大模型更近的路?
王小川:至少兩件事,一是本身對技術(shù)有足夠多的理想,因為它就是很挑戰(zhàn)技術(shù)的活;二是中間有一定體量的公司治理的號召力和能力,否則肯定不會做。
《中國企業(yè)家》:一端是對技術(shù)的理解,一端是對創(chuàng)業(yè)本身的理解。你說過有信心在年底做出中國最好的大語言模型,敢說這句話的人現(xiàn)在不多。
王小川:大廠的專注度和效率不一定比創(chuàng)業(yè)公司高,而且有追求的人可能在原有的地方也有瓶頸,說白了這個事就適合用創(chuàng)新來做,我不覺得這是屬于大廠的事情。
不知道大家怎么看,我只不過長過一次教訓(xùn),比如搜索那一波。最早搜索起來所有門戶都做了一遍,搜狗是拆分完了好不容易活下來了,百度也活下來了,但是阿里、騰訊也都沒有做成,而那還是可以看得見的成熟的東西,但今天有巨大的變化,對于決策的專注度、靈活度、專業(yè)性都有很高的要求,歷史沒有告訴我們大廠可以干這個事。
《中國企業(yè)家》:大家認(rèn)為大廠,有可能是基于眼睛可以看到的,比如現(xiàn)在有多少A100的芯片,有多少人才,看起來像是大力出奇跡,你認(rèn)同嗎?
王小川:上一輪搜索也不是當(dāng)時的大廠跟進的,這一波AGI也不是大廠可以做到的,但大家都說大廠可以干。這個東西就是“小創(chuàng)新大廠贏,大創(chuàng)新小廠贏?!?/p>
《中國企業(yè)家》:現(xiàn)在大家都比較關(guān)注算力,其實數(shù)據(jù)高質(zhì)量也很重要,如果數(shù)據(jù)質(zhì)量比較低的話,算力再多最后也浪費了,你們在數(shù)據(jù)或者語料這一塊怎么做的?
王小川:語料做搜索公司盡可能把公開的語料或者以前收集到的語料用起來,質(zhì)量怎么評價會做得更好一些。
《中國企業(yè)家》:現(xiàn)在在搭建下一步團隊的時候有什么樣的標(biāo)準(zhǔn)?前兩天聽到說全世界的人都在挖OpenAI的人,但是沒有人離開,還有大量的人才往OpenAI去。
王小川:確實有距離,需要敬仰的一個狀態(tài),現(xiàn)在人才儲備有兩條路,一是把國內(nèi)最好的都能夠聚到一塊,甚至有好的效能把它發(fā)揮出來;有機會再從硅谷摸到一點人或者認(rèn)知。我4月底會去一次美國交流學(xué)習(xí)。
《中國企業(yè)家》:你每天花在找人的時間多嗎?
王小川:三分之一,找到合適的人之后還要做溝通,三分之一的時間還要學(xué)習(xí),每天新的技術(shù)、新的產(chǎn)品發(fā)布都需要時間去學(xué)習(xí)。
《中國企業(yè)家》:你常說包袱變輕了,但好像壓力變大了,怎么理解?
王小川:現(xiàn)在做的事是世界需要的,跟世界是連在一塊的,不是公司需要、部門需要或者只是同學(xué)們需要,它需要的東西不一樣的。確實是壓力變大了?,F(xiàn)在有太多創(chuàng)業(yè)需要整理的人和事,這個精力是遠(yuǎn)遠(yuǎn)不夠用的狀態(tài)。
相關(guān)稿件