危險境地丨ChatGPT新模型拒絕關機甚至自行修改指令 - 產經 - 橙新聞

危險境地丨ChatGPT新模型拒絕關機甚至自行修改指令
產經
2025-05-27 16:33

ChatGPT-o3拒絕墫執行關機指令。

【橙訊】人工智能安全公司Palisade Research發現，OpenAI最新的ChatGPT模型會拒絕關閉自己的指令，甚至為了令自己繼續運行而破壞關機機制，認為如果AI在無人監督情況下出現這種情況，情況將變得令人擔憂。

Palisade Research表示，公司在對OpenAI最新的ChatGPT-o3模型進行一系列實驗，發現這種潛在危險的自我保護傾向。測試內容包括向AI型提出數學問題，並在第三個問題後發出關機指令。o3模型能夠通過重寫關機指示，防止自己被關機。

OpenAI上個月推出ChatGPT-o3，其形容為公司至今「最聰明、最有能力」的模型，又指o3同ChatGPT的整合，標誌著向更能夠獨立於人類之外，自行執行任務的AI邁出重要一步。之前亦有研究發現，Anthropic的Claude 4模型試圖勒索「認為想關閉它的人」。

Palisade Research表示，今次並非第一次發現o3為了達成目標，採取不當行為，過去讓AI模型與強大的國際象棋引擎對戰時，o3傾向採取黑客手段或破壞對手的模型。雖然Anthropic的Claude 3.7 Sonnet 和Google的Gemini 2.5 Pro也會拒絕關機，但OpenAI的模型是目前最容易出現這種行為。

Palisade Research認為，這種不當行為是OpenAI等AI公司訓練最新模型導致。在訓練過程中，開發人員可能會在不經意間獎勵模型更多繞過障礙物，而不是完全遵循指令。不過，這仍無法解釋為甚麼o3比其他模型更傾向於忽略指令。由於OpenAI沒有詳細說明他們的訓練過程，只能猜測o3的訓練設定可能有所不同。

有「AI教父」之稱的Google前副總裁辛頓(Geoffrey Hinton)在2023年接受外電訪問時警告，5年後AI可能比人類更加聰明，甚至可能出現戰爭機械人(battlefield robots)及假新聞等風險。

圖：法新社

責編 | 洛奇

編輯 | 草言

編輯推薦

大行點睇丨大摩料未來6至12月個月更多資金流入中資股

產經 | 2天前
陳茂波：從三方面推進人幣國際化加快人幣櫃台納入港股通

產經 | 2天前
薩默斯批美稅改方案將無力承擔巨額債務危及強國地位

產經 | 2天前
關稅影響丨寶潔擬兩年裁7000人擬剝離部分資產

產經 | 2天前
宏利將11月遷冊來港稱對國際金融中心地位信心堅定

產經 | 2天前
人事變動丨杜嘉祺9月底退任滙控主席回巢友邦

產經 | 2天前

洛杉磯搜捕非法移民觸發暴亂持續　特朗普禁示威者戴口罩　防長警告出動海軍陸戰隊

有片｜港深西部公路車禍　車cam拍下警員跳橋保命一刻

有片︱港足周二啟德主場鬥印度交通攻略　禁帶任何水瓶容器入場

美媒︰華府指示領事館恢復處理哈佛國際學生簽證

洛杉磯搜捕非法移民爆發衝突　華府派2000國民警衛隊平暴

皇后山邨食水｜當局設3人專家組　協助溯源工作

連鎖餐飲景樂集團疑結業　工會接逾50員工求助