英偉達等巨頭被曝違規使用YouTube數據訓練模型 涉17萬個視頻

財聯社7月17日電,據媒體報道,包括蘋果、英偉達、Salesforce和Anthrophic在內的一些大型科技公司,被曝在訓練AI模型時使用了來自谷歌旗下視頻網站YouTube的未授權數據。這些公司使用了一個由第三方提供的數據集,其中包含從YouTube上抓取的大量視頻字幕文本,違反了YouTube禁止從平臺上未經許可抓取內容的規定。報道指出,這些科技公司在訓練AI模型時都使用了一個名爲“YouTube Subtitles(YouTube字幕)”的數據集,大小爲5.7GB,包含4.89億個單詞,來自Youtube上超過4.8萬個頻道中的17.35萬個視頻。該數據集由視頻字幕的純文本組成,包括視頻博主上傳的部分和Youtube自動轉錄的文本,除了英語外,通常還附帶日語、德語和阿拉伯語等語言的翻譯。