AI圈公開的秘密:天下模型一大抄

作者:卜淑情

來源:硬AI

抄襲已經成爲AI世界公開的秘密。

據The Information週一的文章,許多初創公司的AI聊天機器人很可能是採用了OpenAI和其他公司的數據開發的。這些機器人在某些任務上可以媲美GPT-4,但收費只是後者的一小部分。

初創公司在開發過程中沒有披露使用OpenAI的技術。不過,The Information報道稱,OpenAI首席執行官Sam Altman去年夏天告訴初創公司創始人,可以接受初創公司以這種方式使用OpenAI的技術。

雖然Altman的迴應讓一些初創公司鬆了一口氣,但這種做法實質上損害了OpenAI的增長,Altman隨時可能改變主意。

在初創公司中,抄襲已成常態

初創公司抄襲OpenAI的具體做法是,先開通GPT-4的會員,然後向它提出一系列問題,例如“這行代碼有什麼問題?”他們使用這些問題和答案來訓練自己的競品模型。

採取這一策略的初創公司不在少數。

Unsloth AI聯合創始人Daniel Han估計,他大約一半的客戶從GPT-4或Anthropic的Claude模型中獲取數據,並用它來改進自己的模型。許多公司也從ShareGPT獲得此類數據,ShareGPT是一個開發人員分享使用OpenAI模型生成答案的網站。

小型開發商的模型通常基於Meta Platforms或Mistral AI免費提供的流行開源模型,但通過融合OpenAI模型的答案,可以顯著提高這些模型輸出內容的質量。Han表示,一些開發人員正在使用一項名爲OpenPipe的服務來自動化這一過程。

“在一個尚未建立明確規則的新生態系統中,就會發生這種情況,”Menlo Ventures董事總經理Matt Murphy表示,該公司投資了OpenAI的競爭對手Anthropic。Murphy說:

目前尚不清楚OpenAI、谷歌、Anthropic和其他大型開發商會在多大程度上允許初創對手利用他們的數據進行追趕。

Radical Ventures合夥人Rob Toews表示:

如果那些在開發模型時暗中依賴其他AI服務的開發商被曝光,它們可能會面臨尷尬的處境。

比如,總部位於巴黎的Mistral使用Meta的開源AI 模型Llama 2創建了自己的AI,但直到無意泄露才披露這一事實,引起了一些開發者的不滿。Mistral已經籌集了數億美元的資金。

大公司也一樣?

實際上,初創公司利用OpenAI數據訓練模型的做法,與OpenAI等AI巨頭的做法並無二致。

OpenAI首席技術官Mira Murati上個月在回答有關該公司是否使用谷歌旗下YouTube以及Meta Platforms旗下Facebook和Instagram的數據來訓練生成AI視頻的Sora時表現出了猶豫和困惑。

如果OpenAI真的使用了這些數據,也不足爲奇。

據《紐約時報》最近的報道,OpenAI創建了一個名爲Whisper的語音識別工具,用於轉錄YouTube視頻,以此來改進GPT-4。此前,也有媒體曾報道稱,OpenAI暗中使用YouTube數據訓練其早期的AI模型。

就在本月早些時候,YouTube CEO Neal Mohan還表示,他不贊成OpenAI使用YouTube視頻來開發像Sora這樣的文生視頻模型。

這種行爲也導致OpenAI招致了侵權官司。《紐約時報》公司去年12月起訴OpenAI及其最大支持者微軟,指控他們在訓練模型時非法複製了該報的新聞文章。訴訟稱,OpenAI的聊天機器人“可以逐字逐句地生成時報內容”。

作爲迴應,OpenAI辯稱,它已努力與新聞出版商建立合作關係,其訓練做法屬於美國版權原則“合理使用”所允許的範圍。

儘管如此,OpenAI和谷歌都與Axel Springer等出版商達成了數百萬美元的許可協議,並與Reddit等主要網站達成了更大的交易。

即使是科技巨頭也難以抗拒捷徑的誘惑。

The Information報道稱,谷歌曾轉錄YouTube視頻,Meta僱傭承包商總結受版權保護的書籍,Adobe使用Midjourney的AI生成照片,均是爲了訓練自家AI模型。一位谷歌工程師因擔憂公司使用OpenAI的ChatGPT數據而辭職。

初創公司Lamini的CEO Sharon Zhou表示,AI開發的快速步伐和激烈競爭迫使開發者求助於有爭議的訓練數據來源,如受版權保護的內容或LLM。

Zhou說: