第四範式戴文淵:依靠中國市場數據優勢,作出全球領先的AI企業

近日,“AI 大神”、第四範式公司創始人、CEO 戴文淵做客格隆匯高端訪談《格隆博士會客廳》。戴文淵表示,人工智能的格局其實比想象中的更復雜,它裡面主要有算法、算力、數據這幾個對象。

算法就好像蒸汽機的一個構造圖紙一樣,知道了這個圖紙,就能造出一個蒸汽機。就比如Transformer這個算法,一般看懂了這個論文,就可以構造一個Transformer算法的系統。

算力就是在雙方同樣擁有Transformer算法的情況下,顯卡越強性能越強。它就像是計算機的智商數據,類比來說,就是你學過多少東西,哪怕智商高的人沒學習也不行,可能智商低的人多努力最後也能達到。

在大家彼此的算法都差不多的情況下,其實信息差很快會被拉平,因此真正會拉開差距的其實還是算力和數據。所以如果最後要看AI的綜合結果,需要同時看算力和數據兩個方面。

往後或許不能說AI完全是一個指數級的上漲趨勢,因爲數據指數級增加也是會到頭的。

目前數據量供應沒有到天花板的時候,隨着算力的指數級增加,這個模型的參數就是指數級往上漲。

一旦到數據見頂的時候,算力再指數級增加已經不能帶來有效的參數的指數級增加了,所以那個時候可能瓶頸就會在數據上。

因此OpenAI也花了很多錢去投數據,他們投在數據上的花銷,或許沒有比算力少多少。

數據還有一個瓶頸來自於產生數據的對象。即便現在可以用模型產出新的數據給模型,但如果這些數據不經過人的挑選,它還是不會產生新的信息量。就比如,自己說的話再被自己聽回去對自己本身不會有什麼樣的改進。

最後有效的數據能增加多少,取決於能調動多少人、多少力量去貢獻數據。

中國市場是擁有最大的的數據樣本,整個中國市場能找到很多的數據收集場景,並且規模可能是最大的,這就意味着能給到人工智能最多的學習材料。在AI領域,戴文淵認爲,科技從業者都是爲了這個科技進步在努力,自己作爲科研工作者,目標是做一個業界領先的東西。這可能需要充分利用自己所處的環境,看看怎麼在這個環境做最領先的事情。