DeepMind新模型Genie 2 可創建三維世界

2024-12-07 05:58:00

DeepMind的Genie 2可以創建三維世界。Google

「世界模型」（World models）是指能夠即時生成模擬環境的人工智能（AI）演算法，代表了機器學習最令人印象深刻的應用之一。該領域在過去一年出現顯著的進展，谷歌DeepMind剛發布了Genie 2。

科技媒體Engadget報道，與其前身相比，新模型不再局限於生成二維世界，而是能夠創建三維世界，並能夠長時間地維持這些模擬環境。

Genie 2並非遊戲引擎，而是一種擴散模型，在玩家（人類或其他AI助理）通過軟體模擬的世界中時生成影像。生成畫面時，Genie 2還可推斷有關環境的想法，使其具有模擬水、煙霧和物理效果的能力，縱使其中一些互動可能顯得有些遊戲化。

該模型不僅限於渲染第三人稱視角的場景，還能處理第一人稱與等距視角。它的啟動只需一張圖像提示，那可以由谷歌的Imagen 3模型生成，或是來自現實世界的一張照片。

即使模擬場景的某些部分離開玩家的視野，Genie 2也能記住它們，並在這些元素再次進入視野時準確地重建。這與Oasis等其他世界模型形成鮮明對比，至少在Decart於10月向大眾展示的版本中，Oasis很難記住即時生成的Minecraft關卡的佈局。

但Genie 2在這方面也有侷限性。DeepMind表示，該模型能生成最長僅60秒的「連貫」世界，所以公司分享的大多數視頻長度介於10到20秒。隨著Genie 2需要維持連貫世界的時間越長，畫面中會出現偽影，影像品質會逐漸下降。

DeepMind沒有詳細說明如何訓練Genie 2，僅稱依賴「大規模的視頻數據集」。同時，大眾也勿期待DeepMind很快就會向大眾發布Genie 2。目前公司主要將模型當作一個工具，用於訓練和評估其他AI助理，包括自己的SIMA演算法，以及作為藝術家和設計師快速進行原型設計和嘗試創意構想的工具。本報訊

DeepMind新模型Genie 2 可創建三維世界

最新⽂章

科技-三藩市版

監測生態健康人工智能助力

生成式AI為虎作倀假評論肆虐網路平台

數據中心用電大電網更新未跟上

沉浸式展覽虛實結合穿越古今

200款幼齡評級程式研究稱含有不當內容

蘋果擬開發智能門鎖無線耳塞增健康功能

谷歌Gemini總結PDF文件概要

OpenAI公布下一代推理模型o3

與OpenAI競爭谷歌推出新AI推理模型

LG透明OLED電視售價高達6萬元