對話『火山引擎』總裁譚待:字節AI“蛻變” 的這一年

“2023年不及格,2024年字節跳動的AI戰略是滿分。 ” 這是崑崙萬維創始人周亞輝年中對其競爭對手的評價。

作爲跟隨火山引擎『春、夏、秋、冬』四場AI show的參與者,鯨哥也在北京、深圳、上海等地見證了字節多個AI產品的首發。『春的豆包,進化速度超快;夏的智能體,走向GPT 5的捷徑;秋的視頻生成大模型,不再期待Sora』

作爲2024年最後一道大題的回答,火山引擎總裁譚待用豆包視覺理解模型,來給這一年的發佈收尾。

“拍一下,什麼都知道 ” ,ChatGPT 4o發佈時曾帶給大家太多驚喜。大模型理解真實世界的那一刻彷彿觸手可得,但4o的完全體遲遲不上線。這次豆包視覺理解模型帶來了現貨,而且上線打出0.003元/千Token,比行業價格低85%,讓大家都用得起。

調用下字節的豆包大模型API,很多AI應用就能呈現出好的效果。鯨哥已經預感到搜題教育、社交陪伴、拍照社區等多個賽道,可能會迎來創業熱。要知道字節跳動CEO樑汝波曾批評組織遲鈍 ,2023年才討論GPT,現在已經成爲行業上雲用AI的重點選擇。

這也是周亞輝對字節跳動的精準評價,字節廣告收入和To B收入會對等。鯨哥分析字節的AI能在一年內實現蛻變的三板斧:1、佈局全,從雲☁️到模型到開發️,尤其各種大模型幾乎做全了;2、B和C互相反哺,從技術能力到數據相輔相成;3、大力出奇跡,B端打性價比,C端猛投放,讓企業用得起,用戶能感受到AI實效。

在鯨哥向譚待詢問,字節AI是如何實現『逆襲』的這一問題時,譚待認爲更準確是『厚積薄發,豆包大模型目標就是要做行業第一』。在更多市場關心的問題時,譚待也向媒體講出了行業視角的理解。以下內容略有編輯:

多模態模型發展還在早期

Q:現在通用語言模型的能力,比如說對話的市場需求多大?今年的調用量增長比較迅猛,後面會持續嗎?你們對它的商業化潛力有什麼判斷?

譚待:對話是一個很通用的場景,但是實際上大模型本身在很多場景,特別是生產力的場景也會非常大。從我們自己的角度來看,包括今天上午我公佈的一些垂直領域的增長情況,比如說在信息處理增長了 39 倍。

在企業很具體的場景,在客服、銷售上面也長得非常快。其實現在是呈現一個多元化的發展,並不是說只是從娛樂角度來看。你得加上深度推理的、圖像視覺理解的需求,還有各種各樣的功能,這樣才能處理更復雜的任務。

Q:想問一下 9 月之後有幾家國內公司都有提到自己在做推理模型這方面,就想問一下字節這邊在推理模型這塊有沒有佈局?方便介紹一下目前的進展嗎?

譚待:肯定有佈局,你說的推理佈局類似 O1 是吧?肯定有做。你今天看到我們的有些雖然沒有叫這個名字,但是我們有些能力已經具備這個雛形了,比如說解數學物理代碼。但一個完整的話但是我們的邏輯還是做得比較完善了再推出,這塊大家敬請期待,不會太久。

Q:我注意到榮耀不止和我們有合作,還有和其他廠商有合作。我想有一些合作伙伴他們在選擇我們這個行業以及大模型時貨比三家,對於我們來說有沒有一些影響?或者說我們除了提供更低的價格,我們怎麼能夠服務得更好?

譚待:其實國內安卓手機比蘋果多,國內安卓手機大部分都在和豆包合作。其實手機的場景很多,所以對手機廠商來說,他會在某些場景用豆包,某些場景用其他的,或者某一個場景他混合使用。對企業來說,肯定也需要一個多雲或者多模型的策略,這個我覺得很正常。最終還是說你的能力更好、成本更低,他就會用誰,這筆賬就很好算。

Q:最近又傳出蘋果和百度的合作好像要談崩了,大家都比較期望和豆包進行合作,這個我感覺比較意外,我想知道您的想法。

譚待:端側本身,當然我想說今天其實我們也不只是講到端上,我們講到跟榮耀、跟 VIVO 的合作,我們還有很多場景適合來做,比如說汽車。我們和奔馳有非常強的合作,除了奔馳以外,國內八成以上的汽車品牌都在跟我們做合作。我覺得大模型本身讓硬件終端智能化這件事情,可能性有很大的提升。

Q:現在業界有些觀點,因爲語料數據的耗盡,認爲大模型預訓練可能會告一階段,不知道您怎麼看?您剛剛講到字節在 AI 推理上已經有佈局了,在這個前提下是不是在 AI 推理上有更多的機會?

譚待:你說的Ilya最近講的這個,他的上下文應該是說原來方式的性價比現在已經不高了,現在我們在 CoT(思維鏈)階段,我們在強化學習階段,那塊的 Scaling law(尺度定律) 其實還在早期,所以其實潛力會更大。我覺得他最終想表達的還是說 AI 還有很大的提升機會。

我記得我上學的時候學系統優化,最重要的是找到當前瓶頸最大的那塊把它給優化起來。我覺得這個東西是階段性的,想把 pretrain(預訓練)的東西解決一下,然後把 post-train(後訓練)解決一下,然後這個時候有更好的數據合成的能力,就是 pretrain 的空間又更大了,或者模型就有提升。整體上還是有很多可以做的事情,而且這個東西都是循環往復的。

就好比 AI 本身,我記得一九六幾年的時候就開始做這個事情,當時覺得做一會就沒有空間了,後邊隨着 80 年代又有一波,到後面深度學習,再到現在的 Transformer、強化學習這都會有。本質上因爲互聯網化、在線化這個事情,到數據本身使用度越來越高,雲讓計算更加容易,這兩個東西疊加我覺得未來還是能帶來更多的突破。

Q:有個問題想問一下這次 OpenAI 的發佈會,可以看得出來 OpenAI 從以前的技術標杆導向型,逐漸往應用型發展,我想問問您覺得連 OpenAI 這種標杆企業已經往應用端走,大模型發展遇到了瓶頸?

譚待:我明白你的問題,我首先跟你有不同的觀點,我覺得 OpenAI 首先是一個做技術和做應用都非常棒的公司。大模型什麼時候火的?不是發了一篇論文,GPT 論文已經發了好幾年了也沒那麼火,他是因爲把 ChatGPT 這個產品做出來了,大家用了以後覺得太棒了,所以他一開始其實就是做應用,而且做得還不錯。

但後面因爲隨着模型的提升,能解決的問題越來越多,應用的形態要發生變化,簡單的 chatbot 的 UI/UX 已經不足以支持當前的需求和能力了,所以就不斷地做應用的創新。我始終認爲技術和應用就是齊頭並進的,並不存在我把技術做好我是技術公司。Google 也是一樣的,Google 以前大家覺得技術很強,也是把搜索引擎這個產品形態以及搜索引擎廣告的商業模式走通了,我認爲這兩者就是相輔相成的,在全球,在美國、在中國都一樣。

Q:比如說 AI 往硬件落地,今天下面有個耳機也會豆包這個詞,我覺得可能也有往相應的智能硬件落地的可能性,您是怎麼看待這個空間?因爲現在也有人在談類似 AI 眼鏡這樣的場景。

譚待:前面在問是不是 2C/2B,我覺得第一是 2C/2B 齊頭並進,第二是物理 / 虛擬也是齊頭並進。爲什麼?你的物理世界也是服務於人的,服務於人就要和人打交道,聽覺、語言、視覺都要做,那這些事以前其實做不好的,但是大模型能夠做好這些事情,所以反而我覺得大模型比過去的很多技術都更容易連接數字世界和物理世界。

大模型推動雲業務增長

Q:豆包好像今年特別的火,我們感覺字節跳動這邊好像 2C 的產品好像活躍度也比較高,我想問問您覺得現在大模型的未來到底是在 2B 市場還是在 2C 的市場?

譚待:就像我們的數據來看,在工作、娛樂、生產力的場景其實是差不多的,所以我覺得大模型就是 2C 和 2B 齊頭並進,因爲你想娛樂要處理信息,獲取知識要處理信息,處理工作要處理信息,企業自己運轉也要處理信息,我覺得這跟以前互聯網剛開始 2C 然後再 2B,我覺得這個直接就是 2C/2B 是齊頭並進的。

Q:今年也快過完了,想問一下今年大模型帶動了多少公有云的收入,包括今天有沒有達到預期?明年可能會有哪些計劃?

譚待:我現在不看帶動多少雲的收入,看的是有多少客戶用了我們大模型以及用得有多深。從這個角度來說,我覺得做得還是可以的,我們在整個市場份額上都做到了比較大的領先。

Q:我最近聽運營商的朋友說,因爲最近中國電信在發一些大模型的產品,有些運營商也在發,我們的很多合作伙伴也在做 2B 的這塊。怎麼看競爭?

譚待:說實話從我的角度現在不太關心競爭,因爲這個市場還在很早期,可能這個市場千分之一剛剛開發出來。更關心的是到底用戶的需求有哪些沒有被滿足。

比如說語言的場景,有些簡單的事情被滿足了,複雜的還沒有被滿足,所以我們的 doubao pro 這次做了更新的升級。

視覺之前都沒有滿足好,模型又不好用,價錢又貴,我們這次推出來後希望一次做到位,就跟我們當初推出語言模型一樣,推出一個好的模型而且把價格一次性做到位。

當然我覺得在 2B 的領域大家都是有競爭有合作的,我們也會和運營商一起做一些項目,我們也會和第三方的 SaaS 廠商做一些項目,這我覺得很正常,主要還是因爲這個事情價值非常大,空間也非常大。

Q:作爲字節跳動旗下的雲服務的提供者,我們相對於其他玩家來說算是後來者,但是我們這兩年的勢頭很猛,你會怎麼定位大模型,大模型的投入包括產出推動我們雲計算增長這樣一個角色做得怎麼樣?

譚待:謝謝對我們的關注,我原來講過很多次,我們作爲一個後來者爲什麼有信心進入到這個市場?第一,我們相信這個市場非常大,因爲是可以用 GDP 裡面數字化的佔比,數字化雲的滲透率來算出來空間的,這個空間是非常大的,而且會越來越多。

第二,規模優勢,火山一開始就把抖音、頭條的內部規模和外部規模統一來建設,所以一開始就是中國最大的規模,我做雲這個事情我肯定能堅持到最後。

第三,你想做得更快,一定要在新的技術變革中做到第一。新的技術變革是什麼?其實就是 AI 和大模型,所以這塊我們的目標就是第一,而且我們在朝這個方向在前進。

Q:剛剛您提到了豆包大模型要爭當行業第一,想問一下您,您認爲您這麼有信心的表態背後您認爲豆包大模型的核心競爭力是什麼?當前我們還存在多大的人才缺口?

譚待:我自己覺得做好模型有很多點,包括算法、人才、數據、工程都很重要,但我覺得如果只說一點的話我覺得很重要的一點,大模型這個東西跟過去所有的技術不一樣,以前過去的技術 2C 端跟 2B 端是割裂的,大家天天刷抖音,但是你天天刷抖音是不是會天天用火山引擎的雲?

你看重抖音的價值和你看重火山引擎的價值是完全不一樣的,你個人用雲這個沒有需求。但是大模型不一樣,大模型的 C 端和 B 端其實背後都是同一個東西,就是那個模型本身,因爲所有的能力都是內化到模型本身了,這個事情是有一個 C 和 B 協同的方式。

就包括今天 PPT 裡面,有好多人問我企業怎麼做 AI 轉型,這不是開玩笑,第一 CEO 自己下個豆包 APP,你天天聽報告有什麼用,你自己天天用就知道它能幹什麼不能幹什麼,然後你就可以想說企業哪些場景可以用,哪些場景不可以用。

火山引擎做對了什麼

Q:這一年您覺得火山引擎的哪些業務發展是最快的,到底是中間的智能體 Agent 的相關業務,還是說某些垂類的場景?

譚待:我在準備這次大會的時候我也在想,過去一年我做了什麼,未來我做什麼,我認爲有兩個事情很重要。

第一,圍繞大模型全軟件棧,包括模型本身,模型本身要越來越強,越來越豐富,成本要做到合理可持續,落地要更容易,我們做了很多這方面的事情。

當然企業不能只用個 API,還要開發,要開發平臺,所以我們有火山方舟,包括我們這回推出來記憶功能,我覺得這是一個很重要的能力,包括怎麼基於模型做 AI 搜索和推薦,這個我覺得也很重要,比如企業要做知識庫,以前所有的知識庫做得都不太好,因爲很難真正地去洞察,以前搜索引擎很重要的是通過點擊通過反饋來做,但是企業內部的搜索沒有那麼多的反饋是很稀疏的,這個必須回到語義本身來做這個事情,傳統的 NLP 很難做好這個事情,大模型是很大的突破,而且能解決多模態的問題。包括開發平臺釦子、HiAgent 這是一個環境,我覺得我們做得還可以。

第二,因爲 AI 的出現,所有的基礎架構從 CPU 轉向 GPU 爲核心之後,其實過去講雲原生這套東西它好但是它需要變,所以我們認爲未來 10 年其實 AI 雲原生是更重要的事情,今天是我們在業界首先提出這個概念,而且我們不只是提出概念我們還做出了對應的產品,比如說怎麼把計算實例通過 vRDMA 去支持高吞吐、PD 分離的推理,怎麼去做 GPU 直連的 Cache(緩存),這個跟以前 CPU 的 cache 是完全不一樣的。

包括我們的 PCC 去做好私密雲,以後大家各個場合都用模型,你們的數據怎麼做端到端加密,這個必須要用軟硬件的整體方案來做這個事情,要做到技術上絕對的可靠才行,這個也是我們在國內首先推出了這個產品。包括大數據,數據飛輪也是一樣的,怎麼樣做好非結構化數據全模態的數據湖。

Q:今年每次參加火山引擎的會都發現 token 量又漲了好多倍,今天您也舉了不同行業分別消耗量多了十幾倍到幾百倍的案例,就想問火山引擎在幫助客戶把模型用好用深這個方面有哪些經驗?體系化的經驗。因爲我們關注到 AI 應用被用起來沒有像火山這麼多。

譚待:很重要的一點是,我們在最開始發佈火山引擎的時候就說了同時組建了一個算法和服務的團隊,我覺得這個非常重要。因爲一開始企業可能對 AI 有一些不同的理解,有的時候想得太容易了,有的時候想得太難了。其次,我們畫個圖,根據模型能力強和弱、場景價值高和低,我們肯定希望找到一個產品市場匹配(PMF)來做這個事情。

在這個過程中:

第一,需要做好匹配,以及做好你最後發現效果不好有可能是 Prompt 優化的問題,也可能需要精調,或者說可以在交互界面上做處理來做這個事情,這個就需要又懂業務又懂算法的人來做這個事情,我們自己首先組建了這樣一個團隊,這樣就能針對不同的客戶和場景深入跟客戶做好共創。

Q:剛剛提到的團隊大概多大?

譚待:大幾十人。

第二,我現在發現場景很重要,場景不僅需要模型還需要平臺,所以我們有釦子、有 HiAgent,還有對應的 AI 諮詢的團隊,可以幫這些企業看哪個場景好,哪個場景不好。長期更重要的是,這件事情需要夥伴和生態跟我們一起來做。

Q:從您的角度來觀察今天火山引擎市場份額的增長,主要取決於哪些因素?

譚待:剛剛講了對火山來說兩個最重要的事情。

第一,把規模優勢做好,做好了以後每年自然就會增長,因爲規模大、彈性高、成本便宜,自然而然企業會遷移過來,或者有企業選擇你,這是一個很重要的因素。

第二,通過豆包,通過模型我們把這個事做好也能夠得到很多關注,得到很多新的合作機會。

Q:開發平臺上你們有公有化和私有化兩個產品 HiAgent 和釦子,模型化豆包可以私有化部署嗎?

譚待:HiAgent 會搭載一個可以私部的豆包模型。

Q:你們怎麼看這個市場上大模型的私有化部署需求?還是你們更傾向於大家用公有云來用?

譚待:模型更新太快了,最好的模型一定是在雲上,如果要求很高,雲上做 POC(Proof of Concept,概念驗證)做各種落地會非常容易。

比如說我們有釦子、HiAgent,這兩個產品定位是不一樣的,釦子是開發平臺,HiAgent 最後想要做的比如企業要做好自己的 AI 中臺和能力中心,不僅需要解決開發的問題,還要解決集成數據各種問題。HiAgent 要往前更走一步,兩者定位有個差別。

現在我們能看到很好的案例,客戶用釦子快速搭建做原型的設計,然後再基於 HiAgent 做一個企業內部的實現,因爲企業有監管的要求或者其他要求,做一個內部真正線上化的實現。我自己覺得未來混合這個模式還是會持續存在的,如果你想用最好的模型,想快速地實驗快速的創新一定要用雲上的版本。

而且我剛剛說了技術上我們現在有很多技術上的突破可以很好地解決安全的問題,比如說我們的 PCC 是從硬件層面來實現端到端的加密,不可能有人能夠去把這個數據下下來,或者破譯裡面的東西,這個是從技術的角度,100% 能夠做到的,包括蘋果手機也用的類似的方案。覺得通過技術是能夠解決性能的問題,這樣大家能夠去既獲得技術的便利也能夠解決安全合規的問題。

Q:雲廠商出海現在提的比較多,字節本身也是全球化部署,出海這塊你們是怎麼佈局的?

譚待:我們也很重視出海,我們很多行業的客戶自己都在出海我們就好好服務他,我們有很多遊戲的客戶,直播的客戶,互娛的客戶,還有汽車,汽車出海是很重要的一點,我們也和他們一起攜手對海外,把我們一些相關的經驗也變成工具能更好地服務他們。