商湯開源「日日新 SenseNova U1」:8B 小模型直出複雜訊息圖、風格連貫圖文創作

| 李兆城 | 30-04-2026 14:54 |
商湯開源「日日新 SenseNova U1」:8B 小模型直出複雜訊息圖、風格連貫圖文創作

在人工智能技術競賽中,大參數模型固然佔據話語權,但如何將模型「精簡化」且維持高效能,才是企業落地的關鍵。商湯科技發佈並全面開源其原生「理解生成統一模型」日日新 SenseNova U1 系列。這項技術基於商湯自主研發的 NEO-unify 架構,讓多模態 AI 進入全新的統一化階段,能同時處理複雜的圖像理解與高質素的視覺生成任務。

SenseNova U1 系列最受市場關注之處,在於其打破了傳統多模態模型「拼接式」的設計缺陷。以往的模型往往像是一個由不同語系的成員組成的協作小組,視覺編碼器負責看圖,語言骨幹負責推理,兩者之間依賴「適配器」傳譯訊息,這不僅造成效率低下的問題,更會在數據傳遞過程中產生訊息損耗。

突破拼接式設計瓶頸 同一大腦實現自然融合

商湯研發的 NEO-unify 架構捨棄了這種「拼接」方式,直接去除了視覺編碼器(VE)與變分自編碼器(VAE),重新構建了一個統一的表徵空間。這意味著 SenseNova U1 像是一個同時精通多種語言與技能的天才,無需經過中轉翻譯,即可在同一個「思考過程」中直接處理圖像與文字訊息。

這種「原生統一」的設計,讓模型在規模相對精簡的情況下,依然能展現強大的理解與生成能力。圖像與語言不再是接力傳球,而是在同一個大腦中自然融合,大幅減少了訊息損耗,為 AI 模型在輕量化裝置上的高效運行提供了技術基石。

輕量化模型以小博大 生成複雜訊息圖達商業級水平

商湯此次開源的是其輕量版系列 SenseNova U1 Lite,當中包括基於稠密骨幹網絡的 8B-MoT,以及基於混合專家(MoE)架構的 A3B-MoT。儘管參數規模相對較小,但性能卻展現出「以小博大」的實力,在多項基準測試中表現卓越。

特別是在圖像生成領域,SenseNova U1 Lite 產出的圖像質素,已能媲美部分大型商用閉源模型。更令業界驚訝的是,它在處理開源模型長期面對的短板,例如複雜訊息圖(infographics)生成時,展現出極強的排版與文字掌控力,企業可以利用較低的運算成本,直出專業級的圖表與數據視圖。

業內首創連續圖文創作 風格連貫提升創作效率

除了單一圖像的產出,SenseNova U1 更是業內首個實現「連續性圖文創作輸出」的模型。憑藉 NEO-unify 架構的優勢,模型能將圖文底層的融合信號保留在上下文之中。這解決了以往 AI 生成多張圖畫時,風格難以維持統一的痛點。用戶現在可以通過單次調用,生成一系列風格高度連貫、敘事邏輯一致的圖文作品。

對於商務科技應用而言,這項能力將顯著提升市場營銷與內容創作的效率。由於訊息保留在統一的表徵空間內,AI 的思考更具連貫性,產出的作品不僅質量更高,亦能更貼合用戶的連續指令要求。

全面開源推動 AGI 生態 未來將賦能具身智能

商湯目前已將 SenseNova U1 Lite 全面開源,開放予 GitHub 與 Hugging Face 等平台供開發者部署,並計劃將此技術賦能予旗下的辦公智能助手「辦公小浣熊」。商湯認為,原生統一的多模態智能是通往通用人工智能(AGI)的必經之路,未來該系列模型亦有望成為機器人的「具身大腦」,實現從環境感知到邏輯推演,再到精準執行任務的全流程閉環。

商湯科技表示將持續擴展這一技術路徑,計劃未來推出參數規模更大的 U1 系列模型,目標是以遠低於傳統的計算成本,達到國際頂尖模型的水平。通過積極建設開源生態,商湯正聯同社區開發者,共同定義未來智能互動的新標準。

Source:SenseTime

相關文章

Page 1 of 9