☰

OpenAI轉錄超過100萬小時YouTube視頻來訓練GPT-4

鞭牛士報道，4月7日消息，據The Verge報道，本週早些時候，《華爾街日報》報道稱，人工智能公司在收集高質量訓練數據方面遇到了困難。

今天，《紐約時報》詳細介紹了一些公司處理此問題的一些方法。毫不奇怪，它涉及到屬於人工智能版權法模糊灰色區域的事情。

故事從 OpenAI 開始，該公司迫切需要訓練數據，據報道開發了Whisper 音頻轉錄模型來克服困難，轉錄了超過 100 萬小時的 YouTube 視頻來訓練其最先進的大型語言模型 GPT-4。

據《紐約時報》報道，該公司知道這在法律上存在問題，但相信這是合理使用。 OpenAI 總裁格雷格·布羅克曼 (Greg Brockman) 親自參與了所使用視頻的收集。

OpenAI 發言人 Lindsay Held 在一封電子郵件中告訴The Verge，該公司爲其每個模型策劃了獨特的數據集，以幫助他們瞭解世界並保持其全球研究競爭力。

赫爾德補充說，該公司使用衆多來源，包括公開數據和非公開數據的合作伙伴，並且正在考慮生成自己的合成數據。

《紐約時報》的文章稱，該公司在 2021 年耗盡了有用的數據供應，並在耗盡其他資源後討論了轉錄 YouTube 視頻、播客和有聲讀物。那時，它已經用數據訓練了模型，這些數據包括來自 Github 的計算機代碼、國際象棋走棋數據庫和來自 Quizlet 的作業內容。

谷歌發言人 Matt Bryant 在一封電子郵件中告訴The Verge，該公司看到了有關 OpenAI 活動的未經證實的報告，並補充說「我們的 robots.txt 文件和服務條款都禁止未經授權的抓取或下載 YouTube 內容」，這與該公司的條款相呼應。

YouTube 首席執行官尼爾·莫漢 (Neal Mohan)本週就 OpenAI 使用 YouTube 訓練其 Sora 視頻生成模型的可能性發表了類似的言論。

布萊恩特表示，當我們有明確的法律或技術依據時，谷歌會採取技術和法律措施來防止此類未經授權的使用。

據《紐約時報》消息人士透露，谷歌還從 YouTube 收集了文字記錄。布萊恩特表示，該公司根據我們與 YouTube 創作者的協議，在一些 YouTube 內容上訓練了模型。

《紐約時報》寫道，谷歌的法律部門要求該公司的隱私團隊調整其政策語言，以擴大其對消費者數據的處理範圍，例如谷歌文檔等辦公工具。

據報道，新政策是在 7 月 1 日特意發佈的，目的是利用獨立日假期週末的分散注意力。

Meta 同樣也遇到了良好訓練數據可用性的限制，在《紐約時報》聽到的錄音中，其 AI 團隊討論了在努力追趕 OpenAI 的過程中未經許可使用版權作品的情況。

該公司在瀏覽了互聯網上幾乎可用的英語書籍、散文、詩歌和新聞文章後，顯然考慮採取一些措施，例如支付圖書許可費用，甚至直接收購一家大型出版商。

在劍橋分析醜聞發生後，該公司做出了以隱私爲中心的變革，因此它使用消費者數據的方式顯然也受到了限制。

谷歌、OpenAI 和更廣泛的人工智能訓練界正在努力應對模型訓練數據快速蒸發的問題，吸收的數據越多，模型就會變得越好。

《華爾街日報》本週撰文稱，到 2028 年，公司可能會超越新內容。

《華爾街日報》週一提到的這個問題的可能解決方案包括對模型創建的“合成”數據進行訓練，或者所謂的課程學習，其中包括以有序的方式向模型提供高質量的數據，希望它們能夠使用更少的信息來建立概念之間更智能的聯繫，但這兩種方法都尚未得到證實。

但這些公司的另一個選擇是使用他們能找到的任何東西，無論他們是否獲得許可，並且基於去年左右提起的多起訴訟，可以說，這種方式有點令人擔憂。

相關資訊