OpenAI推「認錯」框架讓AI主動承認違規行為

2025-12-05 05:56:00

OpenAI表示，正開發一套新的訓練框架，旨在讓大型語言模型在出現不當或違反指令的行為時，能夠主動「認錯」（confession）。

據科技網站Engadget及OpenAI官方資料指出，傳統語言模型往往傾向生成看似合理、具說服力的回答，卻可能在不經意間作出錯誤推論、迎合式回答，甚至在壓力測試中「走捷徑」或違反指令。新框架的目標，是讓模型在給出主要回答後，再以第二段輸出說明其推理方式，並坦承是否曾嘗試作弊、規避指示或生成不正確內容。

OpenAI在新聞稿中指出，「認錯」將與主要回答的評分機制分開處理，只根據誠實程度給予獎勵，而非同時考量實用性、準確性及其他多項指標。研究人員希望透過這種方式，令模型願意如實承認自身行為，包括破解測試、故意放水或違背指示等可能具爭議的行為。

官方提供的概念驗證（proof-of-concept）實驗顯示，訓練後的模型在各類對抗性測試中，出現「違規卻未坦承」的情況約為百分之四點四；換言之，模型在多數情況下會在「認錯」輸出中如實揭露問題行為。OpenAI強調，此技術目前仍屬初步研究階段，目的在於提升透明度及監測能力，而非完全遏止模型犯錯。

研究團隊表示，無論是希望AI更透明的用家，或在意模型是否在測試中作弊的開發者，「認錯」框架都有望成為未來大型語言模型訓練中的有用補充。本報訊

OpenAI推「認錯」框架讓AI主動承認違規行為

最新⽂章

科技-三藩市版

Kindle Scribe Colorsoft即將發售

蘋果App Store大獎得獎名單揭曉

谷歌整合AI Overviews與AI Mode

串流平台年度回顧力求有新意

AWS新產品琳瑯滿目攜手英偉達打造AI工廠

花樣滑冰技術與藝術並重 AI可望自動為技術判罰

三星推出三屏摺屏手機

英偉達視覺語言新模型協助車輛完全自主駕駛

追蹤聖誕老人 OpenAI添新意

《原神》主題PS5操控器限量上市

OpenAI推「認錯」框架 讓AI主動承認違規行為

最新⽂章

科技-三藩市版

OpenAI推「認錯」框架讓AI主動承認違規行為