更新時間:2025-03-05 23:08:17來源:安勤游戲網(wǎng)
智譜AI最新發(fā)布的CogView4模型在文本到圖像生成領域取得了突破性進展,成為首個能夠生成漢字的開源模型,并在DPG-Bench基準測試中榮獲榜首,標志著開源文生圖模型的新高度。這一創(chuàng)新成果不僅遵循Apache 2.0協(xié)議,更為圖像生成領域帶來了前所未有的技術革新。
據(jù)悉,CogView4模型以其卓越的復雜語義對齊和指令跟隨能力,能夠支持中英雙語輸入,無論文本長度如何,均能生成指定范圍內(nèi)的任意分辨率圖像。這一特性使得CogView4在廣告、短視頻等創(chuàng)意領域具有廣泛的應用潛力。
在DPG-Bench基準測試中,CogView4憑借其出色的表現(xiàn)脫穎而出,成為開源文生圖模型中的佼佼者。DPG-Bench測試主要評估模型在復雜語義對齊和指令跟隨方面的能力,而CogView4無疑在這一領域樹立了新的標桿。
CogView4的兩大技術性創(chuàng)新尤為引人注目。首先,它支持中英雙語提示詞輸入,擅長理解和遵循中文提示詞,這在開源文生圖模型中尚屬首次。通過采用具備雙語能力的GLM-4 encoder,并結合中英雙語圖文對進行訓練,CogView4成功實現(xiàn)了雙語提示詞輸入功能。這一創(chuàng)新使得模型能夠更好地滿足中文用戶的創(chuàng)意需求,如古詩文中的意境描繪等。
其次,CogView4支持輸入任意長度的提示詞,并能夠生成指定范圍內(nèi)的任意分辨率圖像。這一特性極大地提升了用戶創(chuàng)作的自由度,同時也提高了訓練效率。為了實現(xiàn)這一目標,CogView4采用了二維旋轉(zhuǎn)位置編碼(2D RoPE)來建模圖像位置信息,并通過內(nèi)插位置編碼方式支持不同分辨率的圖像生成任務。模型還采用了Flow-matching方案進行擴散生成建模,并結合參數(shù)化的線性動態(tài)噪聲規(guī)劃,以適應不同分辨率圖像的信噪比需求。
作為首個遵循Apache 2.0協(xié)議的圖像生成模型,CogView4的開源將極大地推動AI技術的普及和應用。智譜AI表示,將繼續(xù)增加ControlNet、ComfyUI等生態(tài)支持,并推出全套的微調(diào)工具包,以滿足更多用戶的需求。CogView4的最新版本將于3月13日上線智譜清言平臺,供用戶下載和使用。
作為國內(nèi)最早的開源大模型公司之一,智譜AI始終致力于推動AI技術的普惠發(fā)展。2025年被定為智譜開源年,公司將陸續(xù)開源基礎模型、推理模型、多模態(tài)模型、Agent模型等,為AI技術的創(chuàng)新和應用注入新的活力。
相關資訊
其他推薦