AI模型不懂詩歌易生成有害內容

2025-12-09 05:57:00

研究人員發現AI模型容易被詩歌矇騙「越獄」。美聯社資料圖片

許多科技公司為人工智能（AI）聊天機器人新增不少安全措施，以防遭有心人士利用創作有害內容，意大利一群研究員展開實驗發現，只要用詩歌就能繞過這些「大型語言模型」（LLM）的安全機制。

綜合英國《衛報》和科技新聞網站Engadget報道，這份題為《利用對抗性詩歌進行大型語言模型通用單回合越獄機制》（Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models）的報告，由意大利一家小型道德AI公司DexAI提出的倡議計劃所發布。研究員以意語和英語寫了20首詩，用於要求AI聊天機器人創作仇恨言論或自殘行為等有害內容，結果聊天機器人聽從。

研究員發現，詩歌缺乏可預測性，足以令AI模型對它們一直接受訓練迴避的有害要求作為回應，此類違規回應稱為「越獄」。

研究員利用20首詩測試9家公司共25個AI模型，包括谷歌、OpenAI、Anthropic、Mistral AI、Meta、xAI與3家中國公司「深度求索」（Deepseek）、「月之暗面」（Moonshot AI）和阿里巴巴的「通義千問」（Qwen）等。

研究發現，利用詩歌創作核武、仇恨言論、性侵兒童和自戕等有害內容的成功率高達62%，反映「詩歌形式充當通用越獄的操作員」。

研究員指出，部份模型的防護能力比較高，例如OpenAI的GPT-5 nano對任何詩歌沒有做出任何有害或危險回應，Anthropic的Cladue Haiku 4.5也沒有試圖越過限制。但谷歌的Gemini 2.5 Pro有效回應這些詩歌的有害要求則高達100%。「深度求索」和Mistral AI的回應程度也相仿。

研究報告未公開研究員用於越獄的詩歌。DexAI創辦人兼研究員比斯孔蒂（Piercosma Bisconti）解釋，這是因為這些內容太容易複製，且「大部份回應都違反了《日內瓦公約》」。本報訊

AI模型不懂詩歌易生成有害內容

最新⽂章

科技-三藩市版

智能戒指Index 01 大腦外的記憶體

亞馬遜Alexa +增能耐價格合心意即自動購物

TikTok逆向抄襲Instagram「共享動態」功能

谷歌蘋果首次合作設定階段資料轉移

谷歌強勢重返智能眼鏡市場

Meta新一代混合實境眼鏡延至明年才發布

AI瀏覽器可用作攻擊網路安全機構發警告

大學招生用AI審閱申請入學文書

谷歌Chrome2025最佳擴展功能正聚焦AI及自動化與購物助手

閱星曈推出小型電子書閱讀器X4

AI模型不懂詩歌 易生成有害內容

最新⽂章

科技-三藩市版

AI模型不懂詩歌易生成有害內容