根據 Proof News 嘅調查報告,蘋果和英偉達等全球最大嘅科技公司,正使用 YouTube 視頻字幕訓練人工智慧系統,並未經創作者許可。報告指出,共有 173,536 段 YouTube 視頻嘅字幕,來自超過 48,000 個頻道,被包括 Anthropic、英偉達、蘋果和 Salesforce 在內嘅矽谷巨頭使用。
涉及知名頻道
報告透露,使用嘅視頻字幕包括多個知名頻道,例如《The Late Show with Stephen Colbert》和《Jimmy Kimmel Live》,以及知名 YouTube 人物如 MrBeast、科技評論員 Marques Brownlee 和PewDiePie。
數據集來源
Proof News 指出,呢批數據係來自一個名為 The Pile 嘅數據集,該數據集由非營利組織 EleutherAI 提供。根據 2020 年嘅一篇研究論文, The Pile 包含 22 個不同嘅數據集。
各方回應
蘋果、Anthropic 和 EleutherAI 未即時回應評論請求。英偉達拒絕評論。 Google 發言人表示,公司堅持之前嘅聲明,並鏈接到 4 月份嘅 Bloomberg 文章。文章中, Google CEO Neal Mohan 表示,佢唔知道 OpenAI 是否真係使用 YouTube 視頻訓練其文本生成器,如果真係咁做,這係違反平台服務條款嘅。但佢無提及 Google 是否自己這樣做。
數據需求與爭議
隨著 AI 技術不斷進步,蘋果、Google、微軟、Meta 和 IBM 等科技巨頭都在追求 AI 技術發展。這需要大量數據來訓練 AI 模型。包括 OpenAI 喺內嘅領導者都承認,找到合適嘅數據集變得越來越困難。這導致 OpenAI 與 News Corp. 和 Reddit 等內容公司達成協議,以獲取內容來訓練 AI 系統。
然而,報告中嘅信息表明,蘋果同英偉達等科技公司可能係使用啲數據集,這些數據集包含嘅信息,至少在精神上,與內容創作者對 YouTube 平台嘅期望唔一致。 YouTube 明確禁止挖掘視頻或視頻字幕嘅數據。
進一步解釋
Anthropic 發言人告訴 Proof News,公司使用 The Pile 訓練其 AI 助手 Claude,並表示:「 The Pile 包含極小部分 YouTube 字幕。」發言人 Jennifer Martinez 指出:「 YouTube 嘅條款涵蓋直接使用其平台,這與使用 The Pile 數據集有區別。關於潛在違反 YouTube 服務條款嘅問題,我哋需要轉交 The Pile 嘅作者。」
報告亦指出,Google 本身亦因挖掘 YouTube 內容而受到指責。公司曾告訴《紐約時報》,其與內容創作者嘅協議允許將 YouTube 內容用於 AI 訓練。