更新時(shí)間:2025-03-26 18:14:38來源:安勤游戲網(wǎng)
感謝本站網(wǎng)友 華南吳彥祖、軟媒用戶1392612 的線索投遞!
剛剛,OpenAI 深夜直播,GPT-4o 的原生圖像生成大升級(jí)!奧爾特曼親自上陣組隊(duì),演示了自拍變梗圖、相對(duì)論漫畫等功能,不過相對(duì)隔壁谷歌發(fā)布的新模型,OpenAI 的這波動(dòng)作著實(shí)有點(diǎn)不夠看。
就在谷歌剛剛?cè)映龅乇碜顝?qiáng)模型 Gemini 2.5 Pro 不久,OpenAI 也有動(dòng)作了。
奧爾特曼親自帶隊(duì),展示了 GPT-4o 圖像生成技術(shù)的各種大升級(jí),比如制作梗圖、文本渲染、多輪交互生成和指令遵循等。
整個(gè)直播中最亮的演示,莫過于這張官方玩梗的表情包了。
目前,這項(xiàng)功能已經(jīng)在 ChatGPT 和 Sora 中,向所有 Plus、Pro、Team 和免費(fèi)用戶推出。
當(dāng)然,新版 Sora 生圖的時(shí)間,也比以往更長(zhǎng)了。但 OpenAI 看來,生圖的質(zhì)量和其具備的世界知識(shí),讓用戶值得等待那多出的幾秒。
GPT-4o 原生圖像生成來了!
在直播中,奧爾特曼介紹道,從今天起,ChatGPT 中的原生圖像生成功能正式推出!
GPT-4o 的全模態(tài)能力,從此也融合進(jìn)了 Sora 中。
OpenAI 多模態(tài)研究的負(fù)責(zé)人 Gabe 介紹說,兩年前剛開始這個(gè)項(xiàng)目時(shí),他對(duì)于 GPT-4 這個(gè)強(qiáng)大的模型會(huì)怎樣原生支持圖像模型非常好奇。
一年后,當(dāng)模型完成訓(xùn)練時(shí),他看到了令人興奮的跡象。從 GPT-2 以來,他已經(jīng)很久沒有這種感覺 —— 這是一個(gè)瘋狂時(shí)刻。
給出以下 prompt,GPT-4o 就生成了符合要求的圖像,完全還原了要求。
接下來,三個(gè)人用手機(jī)來了張自拍,GPT-4o 立刻把三人自拍轉(zhuǎn)換成了動(dòng)漫風(fēng)格的版本。
甚至他們開始官方玩梗,讓模型添加一段「Feel The AGI」在圖片上,一張表情包就此誕生。
這個(gè)過程,就體現(xiàn)了 4o 作為全能模型的強(qiáng)大能力。
因?yàn)樗粌H僅是一個(gè)語言模型,還包括圖像、音頻,所有輸入和輸出的模態(tài)。它可以理解、生成這些模態(tài),并且無縫地在它們之間工作。
用 OpenAI 的話說,「我們終于邁向了這種真正集成的多模態(tài)模型」。
接下來,他們讓模型畫出一幅描述相對(duì)論的漫畫,要求通俗易懂,還要加入一些幽默元素。
這個(gè)提示詞非常模糊,因此看看模型會(huì)生成什么樣的圖,就格外令人期待了。果然,生成效果令人驚喜。
注意,這個(gè)過程中,模型很可能利用了自己的世界知識(shí),對(duì)提示詞進(jìn)行了擴(kuò)展。
然后,他們給了模型一張卡片,希望生成同樣風(fēng)格的圖像,但要求主角不再是卡片中的巨貓國(guó)王,而是某位研究者的狗狗。
另外,卡片上還需要出現(xiàn)一些細(xì)節(jié),比如模型的名字和年份,以及狗狗的體重和身高。
可以看到,生成圖像在文本渲染方面非常驚艷,所有數(shù)據(jù)都準(zhǔn)確無誤。
最后一個(gè)演示,是基于此前幾人生成的內(nèi)容,制作一個(gè)紀(jì)念幣。
而且,還要求圖使用了一個(gè)特殊的十六進(jìn)制代碼,且加上生成圖像的文本和日期。
可以看到,生成結(jié)果非常驚艷!此前曾出現(xiàn)的藝術(shù)熊、收音機(jī)、愛因斯坦漫畫、研究者的狗狗以及模型名稱和日期,全部都出現(xiàn)在了紀(jì)念幣上。
模型之所以精準(zhǔn)完成這樣復(fù)雜的要求,是因?yàn)樗怯梅亲曰貧w的方式訓(xùn)練的,因此它能夠理解上下文中的文本和多張圖片,以非常和諧的方式在紀(jì)念幣上呈現(xiàn)出來。
和 GPT-4o 聊天,定制各種圖像
相關(guān)資訊
其他推薦