AI模型不懂詩歌 易生成有害內容

研究人員發現AI模型容易被詩歌矇騙「越獄」。美聯社資料圖片

許多科技公司為人工智能(AI)聊天機器人新增不少安全措施,以防遭有心人士利用創作有害內容,意大利一群研究員展開實驗發現,只要用詩歌就能繞過這些「大型語言模型」(LLM)的安全機制。

綜合英國《衛報》和科技新聞網站Engadget報道,這份題為《利用對抗性詩歌進行大型語言模型通用單回合越獄機制》(Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models)的報告,由意大利一家小型道德AI公司DexAI提出的倡議計劃所發布。研究員以意語和英語寫了20首詩,用於要求AI聊天機器人創作仇恨言論或自殘行為等有害內容,結果聊天機器人聽從。

研究員發現,詩歌缺乏可預測性,足以令AI模型對它們一直接受訓練迴避的有害要求作為回應,此類違規回應稱為「越獄」。

研究員利用20首詩測試9家公司共25個AI模型,包括谷歌、OpenAI、Anthropic、Mistral AI、Meta、xAI與3家中國公司「深度求索」(Deepseek)、「月之暗面」(Moonshot AI)和阿里巴巴的「通義千問」(Qwen)等。

研究發現,利用詩歌創作核武、仇恨言論、性侵兒童和自戕等有害內容的成功率高達62%,反映「詩歌形式充當通用越獄的操作員」。

研究員指出,部份模型的防護能力比較高,例如OpenAI的GPT-5 nano對任何詩歌沒有做出任何有害或危險回應,Anthropic的Cladue Haiku 4.5也沒有試圖越過限制。但谷歌的Gemini 2.5 Pro有效回應這些詩歌的有害要求則高達100%。「深度求索」和Mistral AI的回應程度也相仿。

研究報告未公開研究員用於越獄的詩歌。DexAI創辦人兼研究員比斯孔蒂(Piercosma Bisconti)解釋,這是因為這些內容太容易複製,且「大部份回應都違反了《日內瓦公約》」。本報訊

科技-三藩市版