DeepMind新模型Genie 2 可創建三維世界

DeepMind的Genie 2可以創建三維世界。Google

「世界模型」(World models)是指能夠即時生成模擬環境的人工智能(AI)演算法,代表了機器學習最令人印象深刻的應用之一。該領域在過去一年出現顯著的進展,谷歌DeepMind剛發布了Genie 2。

科技媒體Engadget報道,與其前身相比,新模型不再局限於生成二維世界,而是能夠創建三維世界,並能夠長時間地維持這些模擬環境。

Genie 2並非遊戲引擎,而是一種擴散模型,在玩家(人類或其他AI助理)通過軟體模擬的世界中時生成影像。生成畫面時,Genie 2還可推斷有關環境的想法,使其具有模擬水、煙霧和物理效果的能力,縱使其中一些互動可能顯得有些遊戲化。

該模型不僅限於渲染第三人稱視角的場景,還能處理第一人稱與等距視角。它的啟動只需一張圖像提示,那可以由谷歌的Imagen 3模型生成,或是來自現實世界的一張照片。

即使模擬場景的某些部分離開玩家的視野,Genie 2也能記住它們,並在這些元素再次進入視野時準確地重建。這與Oasis等其他世界模型形成鮮明對比,至少在Decart於10月向大眾展示的版本中,Oasis很難記住即時生成的Minecraft關卡的佈局。

但Genie 2在這方面也有侷限性。DeepMind表示,該模型能生成最長僅60秒的「連貫」世界,所以公司分享的大多數視頻長度介於10到20秒。隨著Genie 2需要維持連貫世界的時間越長,畫面中會出現偽影,影像品質會逐漸下降。

DeepMind沒有詳細說明如何訓練Genie 2,僅稱依賴「大規模的視頻數據集」。同時,大眾也勿期待DeepMind很快就會向大眾發布Genie 2。目前公司主要將模型當作一個工具,用於訓練和評估其他AI助理,包括自己的SIMA演算法,以及作為藝術家和設計師快速進行原型設計和嘗試創意構想的工具。本報訊

科技-三藩市版