Scale AI:從數據標註,到AI應用落地

文|許英博 陳俊雲 劉銳 楊澤原 中信證券研究

Scale AI是美國人工智能數據標註領域的獨角獸。公司成立於2016年,最初業務爲AI數據標註外包,逐漸拓展爲企業級數據集成商,協助客戶進行AI開發和部署。公司客戶亦由B端企業逐漸擴展至G端。2021年以來,公司估值從73億美元,顯著提升至138億美元,增幅近90%。2024年,公司年化收入(ARR)已超10億美元,而2018年僅爲1700萬美元,2018-2024年CAGR超100%。我們認爲,公司的商業模式轉變,以及快速增長的營收和估值表明,生成式人工智能浪潮正在重構企業的數據需求和軟件應用形態。高質量數據對AI應用效果至關重要,尤其在自動駕駛、金融、醫療等專業性較高的垂直領域。此外,AI亦給北美原有高度專業化細分的數據服務產業鏈帶來變化,甚至最終徹底重構軟件和數據服務產業鏈。這一變化,將給軟件和數據產業鏈帶來中長期的新的投資機遇,相關機遇亦值得中國軟件行業借鑑。

▍報告緣起:爲什麼我們認爲Scale AI值得重視?

1)Scale AI早期主要業務係爲自動駕駛公司提供數據標註外包服務,在2022年後與OpenAI等合作,逐步轉型爲以數據標註和治理爲核心的AI基礎設施公司,從數據標註逐步拓展至以其企業級數據平臺爲基礎爲政企客戶提供從AI數據治理到生成式AI應用的落地部署和商業閉環的全流程服務,這一商業模式幫助客戶解決了在垂類細分場景下數據質量差、AI應用難以落地的問題,整體提升了下游AI應用的落地速度和迭代節奏。

2)根據The information報道, Scale AI的年化收入從2018年的1700萬美元快速上升至2023年的約7.6億美元,5年CAGR達到113%。至2024年5月,公司的ARR(年化收入)已經突破10億美元,且幾乎完全來源於AI相關的數據業務。公司估值同樣快速上升,由2021年的73億美元上升至2024年5月F輪融資時的138億美元,增長超過89%。在全球AI相關公司中,除算力產業鏈以及基座模型相關公司(如Open AI、Anthropic等),Scale AI的營收和市值規模首屈一指。

3)我們認爲,公司營收和市值規模在過去三年內快速增長,體現出在AI產業鏈環節中,數據產業對於AI應用大規模落地的重要性正逐步被行業和市場所認知。

▍公司商業模式解析:從數據標註外包商向數據集成商轉變。公司以高質量數據標註爲核心,並以此爲基礎爲B端和G端客戶提供一站式的AI應用落地部署服務。

1)公司早期業務係爲自動駕駛企業提供數據標註外包服務,從2020年起,隨着Scaling Law下大模型參數規模的快速膨脹及所需訓練數據量的上升,Scale開始與OpenAI進行合作,爲其提供大規模數據標註服務。在該過程中,公司將自己在數據標註業務中的know-how沉澱於其數據引擎平臺上,結合AI標註能力,更高效地爲客戶完成其業務數據的分類、標註和標準化治理。

2)公司從數據標註外包服務商拓展爲企業級數據集成商,通過企業級AI數據平臺爲客戶打通AI數據全鏈路服務,加速客戶AI應用開發和部署節奏。Scale並不提供大模型產品,但在標註處理完客戶的私有數據後,Scale AI可以爲客戶比較和測試第三方公司提供的主流大模型(如Google、Anthropic、OpenAI),並通過客戶數據對大模型進行微調,最終結合客戶的具體使用場景將大模型進行落地部署。公司的AI平臺可以幫助沒有能力選擇相關技術供應商的客戶完成AI應用落地所需的技術工作及相關供應商的選擇。

3)數據質量對AI在垂類場景落地重要度提升,綁定核心標註人員構築公司競爭壁壘。對於專業場景而言,通過RAG方法對模型進行微調需要高質量垂類數據,而垂類數據的標註對於精準度和專業性有一定要求。Scale僱傭了數十名相關領域的博士進行數據標註,並藉此機會與擁有專業數據標註能力的相關人員進行了綁定,通過和重要行業客戶的合作完成了行業知識的積累。

4)公司業務由B端向G端衍生,G端落地速度快。公司積極與美國多個政府部門進行合作,2022年,公司與美國國防部簽訂訂單,單筆金額達到2.5億美元,公司爲美國政府與軍方提供了大模型測試與評估、多諾萬AI平臺、開源數據集評估等多項服務。公司的多諾萬AI平臺接入了美國軍方的數據源,並通過該平臺對軍方收集的戰場圖像進行標註。在獲取數據後,公司在該平臺上通過調用並微調第三方模型完成私有數據集上的大模型訓練,進而通過微調模型對軍方實時提供的戰場圖片進行判讀、毀傷評估和態勢感知,大幅提高了軍方對戰場情報的分析效率和反應速度。

▍公司當前情況:經歷7輪融資,頭部大廠進行背書。

1)公司目前經過7輪融資,歷史總融資額超16億美元。公司E輪及之前融資主要以Y Combinator爲代表的財務投資者爲主。公司最近一輪融資爲2024年5月份的F輪融資,包括Meta、英偉達在內的頭部科技公司共計爲Scale AI注資達10億美元。

2)除融資外,公司同樣在業務上與頭部大廠達成了深度合作關係。Scale AI自2019年開始與Open AI進行合作,並深度參與了GPT-2及以後GPT模型的數據標註工作。Open AI同時將Scale視爲優先合作伙伴,優先推薦企業客戶使用Scale提供的微調服務。我們認爲,頭部科技公司主導的產業資本對Scale AI的投資與Scale AI估值水平的快速上升或反映出AI數據基礎設施產業或成爲AI行業下一階段的重要發展方向。

▍Scale AI的經驗與借鑑:數據標註業務產業鏈價值提升,北美數據產業融合發展趨勢明顯。

1)在Scaling Law的行業趨勢下,大模型迭代所需的算力以及對應用於訓練的數據均呈現指數級增長。以Open AI爲例,從GPT1-GPT3,其模型參數規模在2018-2020年由1.17億個增長至1750億個,訓練數據集由4.5GB指數級增長至570GB,GPT4約爲1PB。根據Epoch AI的預計,全球的公開高質量文本數據將在2027年耗盡。特定企業內部則擁有龐大的私有數據集,以金融業爲例,根據SaaStr網站主持人Harry Stebbings對Scale AI創始人 Alex Wang的訪談,摩根大通內部擁有約150PB的專有數據集,但數據因未經清洗和加工,較難爲大模型使用。同時,在特定任務領域,例如醫療、金融風控等場景,經過專業人員邏輯性標註的專業數據可降低模型出現幻覺的概率和提高模型準確度。在該種趨勢下,我們看到用於AI訓練和推理的垂類數據標註的難度和產業價值均在提升。

2)從數據產業鏈的角度來看,北美數據產業鏈正從高度分工的業態趨於融合發展。數據軟件本身的功能邊界趨於模糊,同時各賽道龍頭公司通過內生髮展或併購方式向產業鏈各環節進行衍生,以Palantir爲代表的數據集成商公司成長顯著。我們認爲這一產業趨勢的背後是B端客戶對於以AI爲核心的數智化轉型存在明確訴求,而該種轉型需要企業完成自己內部的數據治理、數據分析平臺、數據湖倉等環節的構建,但單一企業很難擁有該種技術能力。因此,從數據本身的數量、質量和管理等方面考量,專注於幫助企業完成AI從數據到應用落地的數據產業集成商的出現是中短期內的產業發展趨勢。

▍投資策略:

參考美國產業發展經驗,我們認爲率先沉澱出平臺能力的數據公司有望把握先發優勢,構建長期壁壘,建議關注國內相關映射概念標的。國內當前以AI爲對象的數據產業發展尚在早期。對於國內數據產業而言,我們認爲相關公司將逐步從集成制、項目制的公司向垂類領域進發,率先鎖定垂類領域的相關專家、客戶,並能夠通過垂類項目經驗沉澱出平臺能力的公司將持續受益。建議關注國產數據治理概念及數據平臺型公司。

▍風險因素:

全球地緣政治衝突的風險;細分市場需求走弱的風險;數據平臺開發進度不達預期的風險;行業競爭加劇的風險;AI下游發展不及預期的風險;雲廠商Capex投入不及預期風險;核心客戶流失風險;核心管理人員流失風險;推薦公司業績不達預期的風險;推薦公司產品研發進度不及預期的風險;推薦公司的客戶AI相關IT開支意願波動的風險。

本文源自:券商研報精選