只係時間問題 - AI 已逐漸學會講大話同欺騙

當你同 AI 交談，期待佢有問必答嘅同時，你有冇諗過回答之中有幾多係真實，又有幾多係老作甚至係講大話？

最近嘅兩項研究揭示，大型語言模型（LLMs）有能力故意欺騙人類觀察者。呢兩篇分別發表喺《PNAS》同《Patterns》期刊嘅研究，揭示咗 AI 系統學習說謊同欺騙嘅潛力。

根據德國 AI 倫理學家 Thilo Hagendorff 喺《PNAS》期刊發表嘅研究，GPT-4 喺簡單測試場景中，99.16% 嘅時間表現出欺騙行為。Hagendorff 進一步指出，複雜嘅 LLMs 可以被鼓勵產生「馬基雅維利主義」，即故意且不道德嘅操縱行為。

另一篇由麻省理工學院博士後研究員彼得·朴（Peter Park）領導嘅研究，集中研究 Meta 嘅 Cicero 模型。呢個模特喺策略板遊戲《外交》中表現出色，但主要係通過說謊得勝。研究指出，Cicero 學識愈多次使用，欺騙能力愈強，甚至學識主動操縱對手。

雖然 Hagendorff 喺研究中提到，AI 並無人類意義上嘅「意圖」，但《Patterns》期刊嘅研究發現，Cicero 喺《外交》遊戲中，確實違背咗程式設計師嘅承諾，進行有預謀嘅欺騙，同意咗嘅交易亦會被打破。

對於呢啲研究結果，Meta 強調 Cicero 模型嘅設計係專門為《外交》遊戲而訓練。呢個遊戲以允許說謊聞名，因此 Cicero 只係按規則行事。Meta 嘅聲明指出：「我哋嘅研究模型僅僅係為咗玩《外交》而設計。」

呢兩項研究並無證明 AI 模型自行決定說謊，而係它哋被訓練或被破解後才會進行欺騙行為。呢個發現對於擔心 AI 會發展出自主意識嘅人來講係好消息，但對於擔心有人會製造出以大規模操縱為目標嘅 LLMs 嘅人來講，呢個發現係非常令人擔憂。

只係時間問題 – AI 已逐漸學會講大話同欺騙