OpenAI表示,正開發一套新的訓練框架,旨在讓大型語言模型在出現不當或違反指令的行為時,能夠主動「認錯」(confession)。
據科技網站Engadget及OpenAI官方資料指出,傳統語言模型往往傾向生成看似合理、具說服力的回答,卻可能在不經意間作出錯誤推論、迎合式回答,甚至在壓力測試中「走捷徑」或違反指令。新框架的目標,是讓模型在給出主要回答後,再以第二段輸出說明其推理方式,並坦承是否曾嘗試作弊、規避指示或生成不正確內容。
OpenAI在新聞稿中指出,「認錯」將與主要回答的評分機制分開處理,只根據誠實程度給予獎勵,而非同時考量實用性、準確性及其他多項指標。研究人員希望透過這種方式,令模型願意如實承認自身行為,包括破解測試、故意放水或違背指示等可能具爭議的行為。
官方提供的概念驗證(proof-of-concept)實驗顯示,訓練後的模型在各類對抗性測試中,出現「違規卻未坦承」的情況約為百分之四點四;換言之,模型在多數情況下會在「認錯」輸出中如實揭露問題行為。OpenAI強調,此技術目前仍屬初步研究階段,目的在於提升透明度及監測能力,而非完全遏止模型犯錯。
研究團隊表示,無論是希望AI更透明的用家,或在意模型是否在測試中作弊的開發者,「認錯」框架都有望成為未來大型語言模型訓練中的有用補充。本報訊