ChatGPT-o3拒絕墫執行關機指令。

【橙訊】人工智能安全公司Palisade Research發現,OpenAI最新的ChatGPT模型會拒絕關閉自己的指令,甚至為了令自己繼續運行而破壞關機機制,認為如果AI在無人監督情況下出現這種情況,情況將變得令人擔憂。

Palisade Research表示,公司在對OpenAI最新的ChatGPT-o3模型進行一系列實驗,發現這種潛在危險的自我保護傾向。測試內容包括向AI型提出數學問題,並在第三個問題後發出關機指令。o3模型能夠通過重寫關機指示,防止自己被關機。

OpenAI上個月推出ChatGPT-o3,其形容為公司至今「最聰明、最有能力」的模型,又指o3同ChatGPT的整合,標誌著向更能夠獨立於人類之外,自行執行任務的AI邁出重要一步。之前亦有研究發現,Anthropic的Claude 4模型試圖勒索「認為想關閉它的人」。

Palisade Research表示,今次並非第一次發現o3為了達成目標,採取不當行為,過去讓AI模型與強大的國際象棋引擎對戰時,o3傾向採取黑客手段或破壞對手的模型。雖然Anthropic的Claude 3.7 Sonnet 和Google的Gemini 2.5 Pro也會拒絕關機,但OpenAI的模型是目前最容易出現這種行為。

Palisade Research認為,這種不當行為是OpenAI等AI公司訓練最新模型導致。在訓練過程中,開發人員可能會在不經意間獎勵模型更多繞過障礙物,而不是完全遵循指令。不過,這仍無法解釋為甚麼o3比其他模型更傾向於忽略指令。由於OpenAI沒有詳細說明他們的訓練過程,只能猜測o3的訓練設定可能有所不同。

有「AI教父」之稱的Google前副總裁辛頓(Geoffrey Hinton)在2023年接受外電訪問時警告,5年後AI可能比人類更加聰明,甚至可能出現戰爭機械人(battlefield robots)及假新聞等風險。

圖:法新社

責編 | 洛奇

編輯 | 草言

編輯推薦

洛杉磯搜捕非法移民觸發暴亂持續 特朗普禁示威者戴口罩 防長警告出動海軍陸戰隊

有片|港深西部公路車禍 車cam拍下警員跳橋保命一刻

有片︱港足周二啟德主場鬥印度交通攻略 禁帶任何水瓶容器入場

美媒︰華府指示領事館恢復處理哈佛國際學生簽證

洛杉磯搜捕非法移民爆發衝突 華府派2000國民警衛隊平暴

皇后山邨食水|當局設3人專家組 協助溯源工作

連鎖餐飲景樂集團疑結業 工會接逾50員工求助