新測試顯示,當前市面上八款具備即時搜尋功能的人工智能(AI)搜尋工具,對60%新聞來源相關查詢回答得不正確,由電動車特斯拉創辦人馬斯克創立的xAI開發的Grok 3錯誤率更幾乎100%。
《哥倫比亞新聞評論》(Columbia Journalism Review)托爾數碼新聞中心(Tow Center for Digital Journalism)發布研究報告稱,目前有四分之一美國民眾利用AI模型作為傳統搜尋引擎的替代品,錯誤率高的情況令其可靠度成疑。
該研究發現,八個接受測試的平台錯誤率差異甚大。在200條測試查詢中,Perplexity對37%測試查詢提供非正確資訊,OpenAI的ChatGPT錯誤率則為67%。Grok 3錯誤率更高達94%,是眾平台中最高。
透過測試,研究員將實際新聞文章的直接摘錄輸入到AI模型,然後要求每個模型辨別新聞文章的標題、原有出版商、出版日期和連結。他們在8種不同生成式AI搜尋工具中運行1,600個查詢。
新研究揭露這些AI模型的共同趨勢:當缺乏可靠資訊時不會拒絕回應,而是經常產生虛構內容,即聽起來合理但實際上不正確或靠推測出來的答案。研究員強調,這種行為並非侷限於一種工具,而是持續出現在所有受測試模型中。
令人驚訝的是,這些AI搜尋工具的高級付費版本在某些方面的表現更糟。月費20元的Perplexity Pro和40元的Grok 3高級服務比它們的免費版本更經常提供不準確答案。儘管這些高級模型正確回答提示的數量較多,但它們不願拒絕不確定回答,藉此拉高整體錯誤率。本報訊