隨著生成式 AI 技術嘅迅速普及,分辨真假資訊變得越來越困難。從圖像、影片到文字,AI 工具可以根據指令生成複雜嘅輸出,其能力可以話已經達到巔峰。
出版商同 AI 工具背後嘅公司之間一直存在版權爭議。雖然 OpenAI 嘅 CEO Sam Altman 承認,冇版權內容就唔可能創建 ChatGPT 呢類工具,但係版權法並冇禁止使用呢啲內容來訓練 AI 模型。
AI 生成內容氾濫成災
《自然》雜誌發表嘅一項新研究表明,網路上 57% 嘅內容係由 AI 生成嘅(數據來自《福布斯》)。來自劍橋大學同牛津大學嘅研究人員聲稱,AI 生成內容嘅數量不斷增加,以及 AI 工具對相同內容嘅過度依賴,只會導致一個結果:對查詢嘅回應質素低下。
根據呢項研究,AI 對查詢嘅回應喺每次嘗試後,其價值同準確性都會下降。牛津大學嘅 Ilia Shumailov 博士表示:「令人驚訝嘅係,模型崩潰嘅速度如此之快,而且難以察覺。首先,佢會影響少數數據,即代表性不足嘅數據。然後,佢會影響輸出嘅多樣性,並降低差異性。有時,你會觀察到大多數數據嘅質素略有提高,但係呢掩蓋咗少數數據性能下降嘅事實。模型崩潰可能會帶來嚴重後果。」
資訊質素下降嘅惡性循環
研究人員表示,聊天機器人回應質素嘅下降係 AI 生成內容過量嘅一個惡性循環。眾所周知,AI 模型依賴網路上嘅資訊進行訓練。因此,如果網路上嘅資訊係由 AI 生成嘅,而且係唔準確嘅,那麼訓練就會變得無效,從而導致錯誤答案同錯誤資訊嘅產生。
研究人員決定深入挖掘,試圖找出問題嘅根源。首先,呢個問題可以歸咎於未經事實核查嘅 AI 生成文章喺網路上越來越多。該團隊使用一個預先訓練嘅 AI 驅動嘅 wiki 來進行推斷。佢哋使用該工具嘅輸出來訓練佢。結果,團隊立即注意到該工具生成嘅資訊質素有所下降。
該研究進一步強調,儘管 AI 工具從一開始就接受過大量關於唔同犬種嘅資訊訓練,但係經過反覆嘅數據集訓練後,佢嘅知識範圍中排除咗罕見嘅犬種。
總而言之,隨著 AI 嘅普及以及 AI 生成內容喺網路上嘅發佈,搜尋結果嘅質素可能會下降。