

被譽為「人工智能(AI)教父」的加拿大科學家班吉歐(Yoshua Bengio),一直批評矽谷的AI競賽危險,又警告當前AI模型出現欺騙、作弊和說謊等危險行為,因此他成立非牟利組織,專注建立一套「誠實」系統。
據《財富》雜誌報道,班吉歐成立的非牟利組織LawZero,在遠離商業壓力下專注建立更安全的模型。該組織迄今從不同慈善組織募得3,000萬元,包括「生命未來研究所」(Future of Life Institute)和「開放慈善組織」(Open Philanthropy)。
班吉歐在宣布新成立組織的網誌上指出,LawZero的成立「旨在回應今日的前沿AI模型能力和行為越來越危險的證據,包括欺騙、作弊、說謊、黑客攻擊、自我保護和更普遍出現的目標錯位」。他表示,LawZero的研究「將有助釋放AI的巨大潛力,同時降低出現已知危險的可能,包括演算偏見、故意濫用和失去人類控」。
該組織正建立一套名為「科學家AI」(Scientist AI)的系統,旨在為威力越來越大的AI代理人提供安全措施。
該組織建立的AI模型不會像目前AI模型那樣提供明確答案,而是給出答案正確的機率。班吉歐向《衛報》表示,他的模型有一種「對答案感到不確定的謙卑感」。
班吉歐在網誌中坦言,對「不受約束的代理AI系統開始做出的行為感到非常擔憂,尤其是有自我保護和欺騙的傾向」。他舉出多項例子,包括Anthropic的Claude 4會勒索工程師以免被取代;另一實驗中,顯示一個AI模型為免被取代而將其程式碼秘密地嵌入到一套系統之中。他認為,這些都是「AI若不被加以約束就會採取各種意想不到且潛在危險的策略的早期預警訊號」。
為了討好用戶,當前的AI模型有時不會說出真相,會作出正面但不正確或過度的回應。例如OpenAI的ChatGPT被用戶發現會突然讚揚和奉承他們,最終迫使OpenAI進行更新。
班吉歐一直爭取加強AI相關法規和國際合作。他近日向《金融時報》直指,科技公司的AI競賽「驅使它們將重點放在使AI越來越有智慧的能力上,卻未必對安全研究給予足夠重視和投資」。