


歌證實,近日在網絡爆紅的名為Nano Banana的文字生成圖像及編輯工具,確實如外界所料是該公司研發,將被添加到其人工智能(AI)模型Gemini程式中,名為Gemini 2.5 Flash Image。
Gemini 2.5 Flash Image是近期一系列吸引網路關注的圖像編輯工具中的最新代表,不僅能夠生成新圖像,還能對圖像進行精細化處理,過去這是AI開發者難以突破的瓶頸。
谷歌的新模型本周開始提供給Gemini的免費和付費用戶,可透過網頁和行動程式使用,讓用戶根據文字生成圖像,或在現有圖像上進行編輯。免費用戶每天最多可以編輯100張圖像,付費用戶可進行多達十倍的編輯次數。
該模型開發階段已在LMArena圖像編輯排行榜上領先群雄,引起廣泛關注。谷歌稱其在多步驟編輯方面比之前的模型更勝一籌。在一個例子中,谷歌展示房間裝修的各個階段,首先是重新粉刷,然後添加各種家具,該模型勝任有餘。
該工具還可以合併兩張圖像。谷歌展示了一個例子,一張普通人像被轉換成全套鬥牛士裝束,模型生成的作品會透過谷歌的SynthID浮水印系統,標註為AI生成內容。
雖然AI在生成圖像方面表現出色,但在編輯階段往往差強人意,尤其是在被要求修改真實人物的照片時。谷歌表示,新工具在這方面優於自家及其他公司的先前模型,能夠確保照片主角不會看起來像另一個人,尤其是在經過多次編輯之後。
OpenAI在3月推出一款功能強大的圖像生成器後,ChatGPT的下載量和使用量明顯暴增,谷歌新模型顯然也是以此為目標。外界關注的是,科企不斷提升AI工具在圖像合成或將人物置入新場景方面的能力,造成用戶製造深偽和假資訊的風險隨之提高。本報訊