
Google旗下DeepMind昨日(12日)發布全新AI模型,利用其Gemini 2.0語言模型,專門訓練用於控制機器人的模型,名為Gemini Robotics和Gemini Robotics-ER。據悉該AI模型能讓機器人更適應複雜環境,完成各種高難度任務,環境適應力、指令理解能力、操作彈性都大大提升。
助理解複雜動態環境
Google DeepMind機器人部門主管Carolina Parada稱,Gemini Robotics在Gemini多模態理解基礎上,加入物理動作,以作為新輸出模式直接控制機器人。而Gemini Robotics-ER模型具空間理解能力,能理解複雜動態環境,並執行感知、狀態判斷、空間理解及生成程式碼等控制機器人所需步驟,成功率較Gemini 2.0高2至3倍。
據Google DeepMind於YouTube發布的影片顯示,新AI模型訓練的機器人能夠流暢摺出紙狐狸、按語音指令整理桌面、熟練拉開拉鍊,並完成迷你籃球灌籃動作。
向通用型機器人進發
另外,DeepMind也和初創公司Apptronik合作,計畫用這項技術打造人形機器人。Apptronik今年前僅獲2,800萬美元融資,但在今年2月參與由Google牽頭的A輪融資,成功籌集3.5億美元。另外,國際科技界視Apptronik為Tesla擎天柱機器人的競爭對手。今年3月,Apptronik與平治達成合作,其Apollo機器人已進駐平治工廠參與汽車生產,執行搬運、裝配等體力工作。同時選定值得信賴的測試夥伴一同合作,指導Gemini Robotics-ER的未來,包括Agile Robots、Agility Robotics、Boston Dynamics、Enchanted Tools等公司。
DeepMind首席軟體工程師Kanishka Rao表示,Gemini Robotics的通用性是之前最好模型的兩倍,實現向通用型機器人的重大飛躍。
Carolina Parada亦表示,雖然過去通用機器人技術分別在適應不同的情境、快速回應指令與環境變化、類似人手的敏捷性領域取得進展,但現在只用單一模型就可以大幅提升這3方面的表現。
加州大學柏克萊分校機器人學教授Ken Goldberg指出,此技術為機器人領域帶來重大突破,相信建基於Google在大數據及運算方面的強勢。他認為,這些新機器人模型最大特點為可在雲端順暢運作,估計因能夠利用Google超大型語言模型的高運算能力。
MIT教授兼豐田研究院機器人研究副總裁Russ Tedrake則表示,Gemini雖邁出重要一步,但通用型機器人實際應用前仍有大量工作待完成。