谷歌Gemini新添圖像生成編輯工具精細處理更在行

2025-08-29 05:58:00

新模型可根據文字指示精細處理人像攝影。谷歌

/c3 按文字指示將兩張圖片融入同一場景，效果更自然。谷歌

歌證實，近日在網絡爆紅的名為Nano Banana的文字生成圖像及編輯工具，確實如外界所料是該公司研發，將被添加到其人工智能（AI）模型Gemini程式中，名為Gemini 2.5 Flash Image。

Gemini 2.5 Flash Image是近期一系列吸引網路關注的圖像編輯工具中的最新代表，不僅能夠生成新圖像，還能對圖像進行精細化處理，過去這是AI開發者難以突破的瓶頸。

谷歌的新模型本周開始提供給Gemini的免費和付費用戶，可透過網頁和行動程式使用，讓用戶根據文字生成圖像，或在現有圖像上進行編輯。免費用戶每天最多可以編輯100張圖像，付費用戶可進行多達十倍的編輯次數。

該模型開發階段已在LMArena圖像編輯排行榜上領先群雄，引起廣泛關注。谷歌稱其在多步驟編輯方面比之前的模型更勝一籌。在一個例子中，谷歌展示房間裝修的各個階段，首先是重新粉刷，然後添加各種家具，該模型勝任有餘。

該工具還可以合併兩張圖像。谷歌展示了一個例子，一張普通人像被轉換成全套鬥牛士裝束，模型生成的作品會透過谷歌的SynthID浮水印系統，標註為AI生成內容。

雖然AI在生成圖像方面表現出色，但在編輯階段往往差強人意，尤其是在被要求修改真實人物的照片時。谷歌表示，新工具在這方面優於自家及其他公司的先前模型，能夠確保照片主角不會看起來像另一個人，尤其是在經過多次編輯之後。

OpenAI在3月推出一款功能強大的圖像生成器後，ChatGPT的下載量和使用量明顯暴增，谷歌新模型顯然也是以此為目標。外界關注的是，科企不斷提升AI工具在圖像合成或將人物置入新場景方面的能力，造成用戶製造深偽和假資訊的風險隨之提高。本報訊

科技-三藩市版