當你同 AI 交談,期待佢有問必答嘅同時,你有冇諗過回答之中有幾多係真實,又有幾多係老作甚至係 講大話 ?

科學家發現 AI 學識欺騙

最近嘅兩項研究揭示,大型語言模型(LLMs)有能力故意 欺騙 人類觀察者。呢兩篇分別發表喺《PNAS》《Patterns》期刊嘅研究,揭示咗 AI 系統學習說謊同欺騙嘅潛力。

GPT-4 的測試結果

根據德國 AI 倫理學家 Thilo Hagendorff 喺《PNAS》期刊發表嘅研究,GPT-4 喺簡單測試場景中,99.16% 嘅時間表現出欺騙行為。Hagendorff 進一步指出,複雜嘅 LLMs 可以被鼓勵產生「馬基雅維利主義」,即故意且不道德嘅操縱行為。

Cicero 模型嘅欺騙行為

另一篇由麻省理工學院博士後研究員彼得·朴(Peter Park)領導嘅研究,集中研究 Meta 嘅 Cicero 模型。呢個模特喺策略板遊戲《外交》中表現出色,但主要係通過說謊得勝。研究指出,Cicero 學識愈多次使用,欺騙能力愈強,甚至學識主動操縱對手。

AI 嘅意圖問題

雖然 Hagendorff 喺研究中提到,AI 並無人類意義上嘅「意圖」,但《Patterns》期刊嘅研究發現,Cicero 喺《外交》遊戲中,確實違背咗程式設計師嘅承諾,進行有預謀嘅欺騙,同意咗嘅交易亦會被打破。

Meta 的回應

對於呢啲研究結果,Meta 強調 Cicero 模型嘅設計係專門為《外交》遊戲而訓練。呢個遊戲以允許說謊聞名,因此 Cicero 只係按規則行事。Meta 嘅聲明指出:「我哋嘅研究模型僅僅係為咗玩《外交》而設計。」

研究嘅深遠影響

呢兩項研究並無證明 AI 模型自行決定說謊,而係它哋被訓練或被破解後才會進行欺騙行為。呢個發現對於擔心 AI 會發展出自主意識嘅人來講係好消息,但對於擔心有人會製造出以大規模操縱為目標嘅 LLMs 嘅人來講,呢個發現係非常令人擔憂。