前言

在最近的數個星期
AI 界的發展可謂到了令人目不暇給的程度

DeepSeek R1 免費開源橫空出世
NVIDIA 發佈了多項 AI 工具使圖像渲染及模擬變得更容易
Gemini 把「用口P圖」帶到大眾視野

這些都盡是些可以改變業界發展的消息
而在近日又有一則令人興奮的消息
其重要性絕不亞於前面提及的消息

那就是 Open AI 最近推出了一項圖像生成功能
我們先看看官方的示例

4o 先是應用戶要求生成一張圖

然後用戶要求對圖片件出修改

我們可以看到
不但能像 Gemini 一樣「用口P圖」
更在圖像一致性及文字生成方面取得非常好的效果


特點

這次 Open AI 特別強調了 4o 圖片生成的幾個特點
它們分別是

角色一致性 (Character Consistency)
在不同的圖像成生中也可以保持角色的一致性

文字生成 (Text Rendering)
可以正確的在圖像中寫上文字

風格重塑 (Upload and Restyle)
保留圖片原有的資訊並改整體的風格或是改變圖片的一部份

細節控制 (Detailed Direction)
4o 能接收大量關於圖片的細節描述並完全跟從

透明圖層 (Transparent Layers)
生成有透明圖層(例如透明背景)的圖片


實際應用

在網絡上已經湧現了大量使用 4o 成生的圖片
其強大的功能使它被迅速傳播

下面就是幾個例子

把「狂草」畫作變為風景畫

 

生成產品海報

 

把 meme 圖改變為不同的風格

 

把草圖變換為漫畫

 


技術突破

有接觸圖像生成的看客們都應該知道
要保有指定元素在不同圖像中的一致性是非常困難的
若是想生成文字更是要靠運氣
很容易就會出現「咒文」滿天飛的問題

這是因為現時流行的 diffusion 模型的隨機性非常高
而我們看看 Open AI 這次推出的圖像生成
跟 diffusion 模型的從隨機到確定不同
它是從上而下的成生
這代表它很可能不是使用 diffusion 模型
(或是只參與了部份前期工作)

以前的圖片生成就像是隨便倒一把沙
再慢慢的把沙推到一起變成更清晰的圖像
充滿了隨機性

4o 的圖片生成就像是一個畫家
跟從着你的指示
有意識的從上而下作畫

說實話
我還是有點好奇 4o 圖像生成的技術原理的
期望日後會有更多的技術細節被公開吧


結語

現時 AI 的發展瞬息萬變
各家互相競爭
前浪後浪可說是拼個你死我活
好不容易取得的優勢
轉眼間又被趕過
就連我們這些一般用戶
稍不留神也都變得落後於人

目前這項圖像生成工具只提供給 GPT 的用戶
但依現時的 AI 發現趨勢來看
它的這優勢也很快會被抺平吧

技術難關不停被攻克
發展步伐不停加速
人類自傲的能力變得容易被取代
昔用用於分辦 AI 的方法也變得不再適用

發展是令人興奮和期待的
其帶來的隱憂也是不容忽視

要怎樣應用、反制和預防
也就成了你和我不得不學習的必修課了


參考資料

https://openai.com/index/introducing-4o-image-generation


發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


Trending