出品|虎嗅科技組
作者|齊健
編輯|陳伊凡
(相關(guān)資料圖)
頭圖|6penAI
“ChatGPT的爆發(fā)確實(shí)早于我們的預(yù)期?!?/p>
ChatGPT問世之后,戴文淵和身邊的同行們都迅速投入到了相關(guān)產(chǎn)品的研發(fā)中,一時(shí)間,圍繞ChatGPT討論最多的話題是:如何復(fù)現(xiàn)ChatGPT,以及圍繞芯片算力的問題怎么解決,甚至是如果要實(shí)現(xiàn)一個(gè)AGI(通用人工智能,Artificial general intelligence),除了GPT還有沒有別的方法。
雖然從2018年谷歌推出的上一代預(yù)訓(xùn)練語言模型BERT開始,戴文淵和他的第四范式已經(jīng)在研究AI大模型了,但直到GPT-3出現(xiàn)時(shí),整個(gè)產(chǎn)業(yè)界才作出判斷:大模型將會到達(dá)一個(gè)舉足輕重的位置。
作為國內(nèi)最早一波AI產(chǎn)業(yè)逐浪者,第四范式創(chuàng)始人兼CEO戴文淵將ChatGPT形容為“橫空出世”——這比他之前預(yù)想的時(shí)間節(jié)點(diǎn)要提前了一點(diǎn)。他清晰地記得6年前,AlphaGo給行業(yè)帶來的震撼,并在采訪中不斷提及,GPT的進(jìn)化速度比AlphaGo更加迅猛。
第四范式創(chuàng)始人兼CEO戴文淵
正在等待港交所IPO過會的第四范式,是國內(nèi)為數(shù)不多的AI獨(dú)角獸公司。其業(yè)務(wù)主要聚焦在B端市場的AI智能決策。今年2月底,第四范式在B端市場推出了聚焦企業(yè)軟件開發(fā)和應(yīng)用的大模型產(chǎn)品“式說”。
戴文淵坦言,雖然他們很早就開始研究BERT、GPT等AI大模型,但在GPT模型的商業(yè)化投入方面確實(shí)是追隨者?!?strong>作為AI科學(xué)家,對GPT這樣的技術(shù)我們肯定不能錯(cuò)過。但作為一名創(chuàng)業(yè)者,在三四年前,我還看不到基于GPT能力的商業(yè)化產(chǎn)出。”因此,多數(shù)AI公司或研究團(tuán)隊(duì),在當(dāng)年對GPT的態(tài)度都停留在“研究”而非“研發(fā)”。
AI從誕生的那一刻就是要提供“服務(wù)”的,其天生就具備商業(yè)屬性。在大模型剛剛冒頭的前幾年,國內(nèi)大模型研發(fā)的第一梯隊(duì)中,也曾傳出某公司CEO認(rèn)為大模型看不到商業(yè)價(jià)值,差點(diǎn)把整個(gè)團(tuán)隊(duì)裁撤的流言。而像OpenAI這樣執(zhí)著于一款短期看不到商業(yè)價(jià)值的產(chǎn)品的公司,在成功之后自然也更具傳奇色彩。
近日,在第四范式媒體開放日上,虎嗅與第四范式創(chuàng)始人兼CEO戴文淵進(jìn)行了一次對話。以下是部分對話實(shí)錄:
GPT爆發(fā)的速度比AlphaGo快得多
虎嗅:ChatGPT出現(xiàn)之后,許多AI從業(yè)者都進(jìn)入了一種“應(yīng)激反應(yīng)”,他們或是在大模型里看到了重新創(chuàng)業(yè)的機(jī)會,或是在做新的布局。ChatGPT誕生,給你的刺激是什么?
戴文淵:業(yè)內(nèi)有一些人是從BERT模型誕生就在關(guān)注大模型,直到GPT-3出現(xiàn)后,我們已經(jīng)可以預(yù)見未來生成式預(yù)訓(xùn)練模型會有爆發(fā)的一天,但沒想到會這么快。
ChatGPT出現(xiàn)之后,馬上就建立了市場信心,這是ChatGPT給我們帶來最大的幫助。從去年9、10月份時(shí),很多人還認(rèn)為生成式AI不靠譜,但ChatGPT出來了以后,整個(gè)市場就開始了從0到1的轉(zhuǎn)變。再往后,很多人就開始推出產(chǎn)品,在市場上推動商業(yè)化路線了。
虎嗅:在ChatGPT爆發(fā)的這三個(gè)月當(dāng)中,你和同行們都在討論什么?
戴文淵:同行之間聊得更多的是技術(shù),以及關(guān)于整個(gè)產(chǎn)業(yè)的問題。比如說如何復(fù)現(xiàn)一個(gè)GPT3.5?有沒有可能做出GPT-4?以及算力的問題。到現(xiàn)在討論得更多的是,我們?nèi)绻獙?shí)現(xiàn)AGI,是不是一定要用GPT去實(shí)現(xiàn),還有沒有別的方法?
虎嗅:你的客戶都在討論什么?
戴文淵:在過去的幾個(gè)月中,大家的認(rèn)知都在迅速提升。去年12月問得最多的是“你聽說過ChatGPT嗎?”到今年2月,問的是“ChatGPT我們能不能應(yīng)用它?”
在產(chǎn)業(yè)端,有些激進(jìn)的人甚至還不知道ChatGPT能做什么,就已經(jīng)迫切地要在業(yè)務(wù)中落地ChatGPT了,那個(gè)時(shí)候是 “市場在等產(chǎn)品”。差不多到2月,公司就必須把產(chǎn)品做出來,因?yàn)榭蛻舳荚诘饶恪?/p>
這其實(shí)有點(diǎn)像當(dāng)年的AlphaGo。AlphaGo剛出來的時(shí)候,市場也不知道它是什么,GPT這次的發(fā)展速度比AlphaGo快得多,AlphaGo出來后的一年,很多人都還是“我不知道它是什么,我只關(guān)心對我有沒有用”的狀態(tài)。
然而這次,這種狀態(tài)只持續(xù)了一個(gè)多月。大家很快就知道GPT大概能做什么,并且每天都會發(fā)現(xiàn)GPT能做的事情比想象得多。這次AI爆發(fā)的速度比AlphaGo快得多,帶來的機(jī)會也更多。
通用大模型不是通往AGI的唯一方法
虎嗅:近期,國內(nèi)廠商密集發(fā)布大模型產(chǎn)品,各種大模型之間差別大嗎?
戴文淵:不能說沒有區(qū)別,但都是基于GPT做的。雖然中國目前沒有OpenAI,但可能還會有更多的大模型。
對于我們自己來說,不是去對標(biāo)OpenAI,也并不是說OpenAI能做什么我就一定要做什么。比如我們的大模型也有畫畫的能力,但在畫畫能力上超越OpenAI并不是我們所考慮的。我們更重視發(fā)展那些經(jīng)過我們的思考和判斷后,發(fā)掘出來的用戶需要的能力。
虎嗅:國內(nèi)廠商密集發(fā)布大模型背后,也陷入互相挖人的競爭中,要組建一個(gè)AI大模型團(tuán)隊(duì),什么最重要?
戴文淵:我覺得從頂層去看這個(gè)問題的話,最重要的不是去競爭某個(gè)人或某幾個(gè)人,而是有一群志同道合的人一起,這樣的團(tuán)隊(duì)才會有戰(zhàn)斗力。如果某個(gè)團(tuán)隊(duì)全是靠雙倍工資挖來的人才,那他的戰(zhàn)斗力可能也會比較有限。
如果一個(gè)團(tuán)隊(duì)有共同的愿景,共同的目標(biāo)。那這些人其實(shí)是挖不走的。對我來說,打造團(tuán)隊(duì)最重要的是“認(rèn)同”。大家能否認(rèn)同我們正在做的事,以及你是不是特別想把這件事情做成。
虎嗅:算法、算力和數(shù)據(jù),這三大要素你認(rèn)為應(yīng)該如何排序?
戴文淵:數(shù)據(jù)最重要,但是這個(gè)問題要辯證地來看,數(shù)據(jù)充分到一定的程度以后,再多就不一定那么重要了。比如說《紅樓夢》看過一百遍了,再多看兩遍也沒那么重要了。
其次是算力。大模型在算力方面是有門檻的。但是對于大廠,或者有一定資金實(shí)力的AI公司來說,大家還是能做到這個(gè)“牌桌”前的。作為中國公司,我覺得算力需要考慮的問題是有沒有國產(chǎn)替代方案。
最后是算法,雖然我認(rèn)為算法未來可能會有改變,但目前來看Transformer在很長一段時(shí)間內(nèi)是比較固定的。但模型結(jié)構(gòu)會有一些變化,例如模型的稀疏化。
虎嗅:現(xiàn)在大模型訓(xùn)練很多用的都是英偉達(dá)的芯片,現(xiàn)在業(yè)界更多討論的是沒有英偉達(dá)之后呢?
戴文淵:一段時(shí)間以來,中國大多數(shù)GPU公司走的路線,是通過犧牲顯存、網(wǎng)絡(luò)帶寬的方式來追求計(jì)算能力的提升,迫近或者超過英偉達(dá)。但是對于大模型來說,我們其實(shí)需要這三者(計(jì)算能力、顯存、網(wǎng)絡(luò)帶寬)的折中,這是一個(gè)技術(shù)路線的問題。從追求極致的算力,調(diào)整為追求三者的平衡。目前可能還需要一點(diǎn)時(shí)間,這段時(shí)間里國產(chǎn)GPU的性能可能跟英偉達(dá)有差距,但這個(gè)差距可能比想象中小。
通常情況下如果CPU的性能相差2倍,那么軟件運(yùn)行速度就會慢2倍。但是GPU性能相差2倍,大模型的參數(shù)量不會縮小2倍,會少1倍多。導(dǎo)致的結(jié)果是假設(shè)我用了比你差2倍的GPU,我能跑1000億參數(shù),你可能能跑1000億多一點(diǎn)的參數(shù)。但對于大模型來說,1萬億參數(shù)和1000億參數(shù)有本質(zhì)的區(qū)別,“1000億”和“1000多億”,其實(shí)感受不到本質(zhì)的區(qū)別。
虎嗅:聽下來,這三者里所以大模型最容易構(gòu)筑壁壘的地方是數(shù)據(jù)嗎?
戴文淵:這個(gè)問題首先要理解通用模型和專用模型,通用模型就是培養(yǎng)了一個(gè)大學(xué)生,等到他開始工作了,在某一個(gè)領(lǐng)域積累專業(yè)的知識與數(shù)據(jù),當(dāng)他在一個(gè)行業(yè)或領(lǐng)域鉆得足夠深,就是專用模型。
所以數(shù)據(jù)的壁壘更適用于在垂直行業(yè)和領(lǐng)域,你的數(shù)據(jù)充分了,別人的數(shù)據(jù)沒有充分,就形成壁壘了。
行業(yè)和領(lǐng)域的概念也有所不同。比如Photoshop是一個(gè)領(lǐng)域,或者說OA(辦公自動化)系統(tǒng)、CAD(計(jì)算機(jī)輔助設(shè)計(jì))軟件是一個(gè)領(lǐng)域,在這個(gè)領(lǐng)域的數(shù)據(jù)會形成壁壘。
如果你用AI改造了一個(gè)軟件,那么這個(gè)軟件逐漸會變成一個(gè)領(lǐng)域模型。不僅僅是軟件,也是一個(gè)模型。
從某種角度來說,我們認(rèn)為可以通過改造越來越多的領(lǐng)域來實(shí)現(xiàn)一體AGI的路線。當(dāng)你把全部領(lǐng)域都改造完了以后,就形成了AGI。很難想象通過一個(gè)大模型最后把所有領(lǐng)域的問題都解決了,那樣的話模型量就太夸張了,可能現(xiàn)在的計(jì)算體系架構(gòu)下,要付出難以接受的代價(jià)。
To C不是大模型落地的最佳場景
虎嗅:B端和C端誰會更快落地大模型?
戴文淵:在我看來To C和To B各自有各自的機(jī)會,短期來看To B可能會落地更快。
因?yàn)門o B軟件在交互上更需要,也更容易升級。To C軟件的用戶體驗(yàn)經(jīng)過十幾年的打磨,已經(jīng)逼近用戶體驗(yàn)的上限,而B端的企業(yè)級軟件往往要面對更加復(fù)雜的策略和執(zhí)行,堆砌十幾層菜單和成千上萬的功能也不算多。
比如抖音,他作為一個(gè)短視頻平臺,用戶的操作只需要向上滑就好了,改成對話的形式,體驗(yàn)說不定還下降了。反觀B端軟件,我和一個(gè)合作伙伴聊天時(shí),他給我們展示所使用的軟件,下拉菜單甚至已經(jīng)超過了屏幕的大小。這就給升級創(chuàng)造了條件。
To C可能是在生產(chǎn)力方面更有價(jià)值,比如AIGC制圖,影視加工這些??赡鼙緛硪埡芏嗉夹g(shù)人員,現(xiàn)在可以用AI代替了,那你的成本就比別人低,效率更高,或者SKU(品類)更多,這是To C的機(jī)會。
虎嗅:第四范式的大模型產(chǎn)品,目前的開發(fā)、版本迭代情況如何?與其他大模型產(chǎn)品有何異同?
戴文淵:“式說”的定位是“基于多模態(tài)大模型底座的軟件開發(fā)平臺”,主要面對企業(yè)開發(fā),與其他大模型一樣具備語言能力,但是更偏向于基于AI大模型重構(gòu)企業(yè)軟件,也就是AIGS(AI-Generated Software)。
我們認(rèn)為,如果你要實(shí)現(xiàn)一個(gè)功能,通過鼠標(biāo)點(diǎn)菜單點(diǎn)三下才能完成的,那么這次操作的體驗(yàn)基本上不會比通過語音交互來實(shí)現(xiàn)更好。所以用新型的交互模式去替代老的交互模式,會使B端軟件的體驗(yàn)獲得一個(gè)很大的提升。
你可以回憶一下自己企業(yè)內(nèi)的報(bào)銷系統(tǒng)、HR系統(tǒng)、OA系統(tǒng),我們公司現(xiàn)在的報(bào)銷系統(tǒng)也挺難用的。但是你試想一下,如果你在報(bào)銷過程可以用聊天的方式完成。
你說:“我要報(bào)銷”,然后你把發(fā)票拍給軟件,大模型識別這是餐廳發(fā)票。
它問:“跟誰吃飯了?”
你答:“跟張三吃飯了”
它說:“我接收了?!?/p>
結(jié)束。
這種體驗(yàn)顯然比現(xiàn)在的報(bào)銷系統(tǒng)要強(qiáng)得多,這是用戶體驗(yàn)方面的提升。
另一方面是開發(fā)迭代周期的提升。原先是菜單式的功能和界面開發(fā),每次升級都是幾個(gè)月起。而現(xiàn)在新的交互模式,入口被一個(gè)萬能對話框取代了,界面已經(jīng)不重要了。ChatGPT每天都在提升,但是你感受不到它的界面發(fā)生了什么變化。
以前是界面層面的升級,現(xiàn)在是數(shù)據(jù)層面的升級。數(shù)據(jù)層面的升級都是以天計(jì)的,像抖音增加一個(gè)特效,也不需要改抖音的界面。
這么看就是用戶體驗(yàn)也提升了,開發(fā)者體驗(yàn)也提升了。
虎嗅:第四范式的大模型里提到了思維鏈COT的概念,它在大模型中是以什么形式存在的?
戴文淵:我們?nèi)粘S玫降能浖?,都是由一個(gè)個(gè)功能組成的,但我們用軟件去完成任務(wù)的時(shí)候,不只用到一個(gè)功能。比如Photoshop,你在Photoshop里調(diào)圖片亮度,這是一個(gè)功能,調(diào)對比度,也是一個(gè)功能。但是如果你想“把照片P好看點(diǎn)”,它就不是一個(gè)功能了,而是通過一個(gè)個(gè)功能疊加實(shí)現(xiàn)的任務(wù),最后按照順序執(zhí)行,實(shí)現(xiàn)“把照片P好看點(diǎn)”。
這個(gè)利用不同功能,一步步完成任務(wù)的過程,就是思維鏈COT(Chain of Thoughts),是一個(gè)多步推理的過程。COT相當(dāng)于是大模型當(dāng)中的數(shù)據(jù)。你可以把AI想象成一個(gè)每天站在軟件使用者背后的人,每天就看他干什么,看多了也就學(xué)會了?!笆秸f”就是在用戶使用過程當(dāng)中,讓AI去收集他的思維鏈,以思維鏈為數(shù)據(jù),然后再來做微調(diào)和反饋,從而形成AI能力。
基于大模型的思維鏈,就需要AI有很強(qiáng)的推理能力。雖然沒有Photoshop軟件的能力,但AI有操作的能力,所以即便AI沒見過這個(gè)軟件,也可以利用COT去學(xué)習(xí)它的使用方法。
虎嗅:我們通常去評價(jià)一個(gè)大模型產(chǎn)品好不好,是看效果,那么大模型的落地效果要怎么量化?
戴文淵:最明顯的量化指標(biāo)就是“降本增效”。我舉一個(gè)B端的例子,比如原來IT部門去迭代一個(gè)軟件,需要10個(gè)人開發(fā)半年,現(xiàn)在可能兩個(gè)人開發(fā)兩天就搞定了。不說最后效果,就開發(fā)效率提升這件事就非常直觀。對于企業(yè)來說,同樣的人力情況下,本來只能開發(fā)2個(gè)功能,現(xiàn)在可以開發(fā)200個(gè)功能。
虎嗅:你一直提到B端的應(yīng)用,安全對于ToB產(chǎn)品來說特別重要?,F(xiàn)在各國家和地區(qū)也都在提及ChatGPT產(chǎn)品對數(shù)據(jù)安全的威脅,AI大模型在訓(xùn)練、應(yīng)用過程中,如何保障數(shù)據(jù)安全?
戴文淵:在今天這個(gè)時(shí)間節(jié)點(diǎn)上,數(shù)據(jù)安全最關(guān)鍵的,特別是敏感數(shù)據(jù)的私有化部署,這個(gè)東西暫時(shí)是繞不開的。可能在過去可以基于技術(shù)做一些數(shù)據(jù)的可信交換,但是現(xiàn)在不是把數(shù)據(jù)給你,是把數(shù)據(jù)給GPT。
我們現(xiàn)在也在研究一些基于GPT的可信的聯(lián)合計(jì)算,比方說基于GPT的聯(lián)邦學(xué)習(xí)。這樣的方向,我覺得未來是可期的。
標(biāo)簽:
參與評論