人工智能越先進 「幻覺」越嚴重

研究人員發現了聊天機器人更加智能後的一個明顯缺點。雖然AI模型可預見地會隨著技術的進步變得更加準確,但也更有可能錯誤地回答超出其能力範圍的問題,而不是說「我不知道」。給他們輸入提示的人類則更有可能將它們自以為是的幻覺信以為真,從而造成錯誤信息的涓滴效應。

西班牙瓦倫西亞理工大學(Universitat Politecnica de Valencia)教授埃爾南德斯-奧拉羅(Jose Hernandez-Orallo)告訴《自然》雜誌:「如今,它們幾乎甚麼都回答。這意味著更多的正確答案,但也有更多的錯誤答案。」

他帶領AI研究所的同事們研究了三個大型語言模型(LLM)系列,包括 OpenAI的GPT系列、Meta的LLaMA和開源的BLOOM。他們測試了每個模型的早期版本,繼而是進階版本,但不是如今最先進的,因而未知這種趨勢在最新模型上是否依然存在。

研究人員對每個模型進行了數千個問題的測試,涉及 「算術、謎語、地理和科學」。他們還測試了AI模型轉換信息的能力,如按字母順序排列。

數據顯示,聊天機器人給出的錯誤答案(而不是完全回避問題)比例隨著模型的升級而上升。因此,AI有點像一位教授,隨著掌握的科目越來越多,他越來越相信自己掌握了所有問題的黃金答案。

讓事情變得更加複雜的是,人類給聊天機器人提示並閱讀它們的答案。研究人員讓志願者對AI機器人的答案準確性進行評分,結果發現他們「出人意料地經常把不準確的答案錯誤地歸類為正確答案」,錯誤比例在10%到40%之間。「人類無法監督這些模型」,埃爾南德斯-奧拉羅總結道。

研究團隊建議開發人員提高AI回答簡單問題的正確性,並讓聊天機器人拒絕回答複雜問題:「我們需要人類明白:『我可以在這個領域使用它,而不應該在那個領域使用它』。」

但AI不會這麼做。經常說「我不知道」的機器人很可能會被認為沒用,公司也就賺不到錢了。結果最多是用小字寫下「ChatGPT可能會出錯」之類的警告。

這就要求人們避免相信和傳播「幻覺」類錯誤信息。為了追求準確,請對聊天機器人的回答進行事實核查。本報訊

科技-三藩市版