早前我曾在下面這篇帖文預言過
由於再不停的堆疊模型的提升空間
在 AI 的賽道上
未來的跑道有二
分別是小和專
但是顯然我還是太小看 AI 了
先是 Gemini 用口 P 圖
然後到 4o 的確定性圖像生成
到最近的 o3 圖像「福爾虎克」
那裏小了 那裏專了?
反而是愈來愈大
愈來愈廣了
這也得歸功於「多模態學習(Multimodal learning)」
不同種類的數據
不論是文字、圖像、影片、音訊還是其他資料
都一律轉換為同一類型的 token
這樣 AI 就可以以相同的方式
去理解和處理文字和圖像
也可以使不同類型的媒體資料更好的連結起來
具體一點說
這使得模型可以更好的使生成的圖像更貼合文字
也能使 AI 更好的以文字理解圖像
繼而進行文字推理等操作
同理
其他媒體資料也可以做到類似的轉換和關聯
這使得 AI 在處理多媒體的能力上大有進步
再進一步的拓展下去
一些媒體以外的資料
例如雷達影像和機械活動資料等
也都可以進行類似的連結
這可以使得機械在輔助人類
或是探索世界等層面上有更好的發展
結語
隨着模型上下文協定(Model Context Protocol, MCP)的出現
再加上多模態學習使 AI 取得比之前更強的跨媒體處理能力
距離達成通用型人工智慧(artificial general intelligence,AGI)
或強人工智慧(strong AI)又近了一步
看來達成之時也是指日可待
還得看是社會適應得快
還是 AI 發展得快了
參考資料
https://zh.wikipedia.org/zh-tw/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%AD%A6%E4%B9%A0
https://zh.wikipedia.org/wiki/%E9%80%9A%E7%94%A8%E4%BA%BA%E5%B7%A5%E6%99%BA%E6%85%A7
發佈留言