阿里推新AI圖像生成模型 生成過程中不斷調整及優化

阿里巴巴(9988)的通義千問推出新模型Qwen VLo,用戶可更容易從文字和視覺內容生成和修改圖像。新模型是Qwen2.5-VL的升級,據報Qwen VLo能夠以一種漸進式生成方式,從左到右、從上到下逐步清晰地構建整幅圖片。在生成過程中,模型會對預測的內容不斷調整和優化,從而確保最終結果更加和諧一致,此生成機制提升了視覺效果,亦為用戶提供更靈活、更可控的創作體驗。

據官方介紹,以往的多模態模型在生成過程中容易出現語義不一致的問題,例如將汽車誤生成其他類型的物體,或者無法保留原圖的關鍵結構特徵。Qwen VLo 通過更強大的細節捕捉能力,能夠在生成過程中保持高度的語義一致性。例如,當用戶輸入一張汽車的照片並要求「更換顏色」時,Qwen VLo能準確識別車型,還能保留其原有的結構特征,同時完成色彩風格的自然轉換,讓生成結果既符合預期又不失真實感。

另外,用戶可通過自然語言提出各種創意性指令,如「將這張畫風改為梵高風格」、「讓這張照片看起來像 19 世紀的老照片」或「給這張圖片添加一個晴朗的天空」。Qwen VLo能靈活響應這些開放性指令,並生成符合用戶預期的結果。

Qwen VLo又支持包括中文、英文在內的多種語言指令。不過阿里官方提醒,Qwen VLo仍屬於預覽階段,還有很多不足的地方,在生成的過程可能存在不符合事實、不完全和原圖一致的問題,開發團隊還在持續叠代。

即時財經