
阿里雲(Alibaba Cloud)宣布推出其「通義」大模型家族的首個端到端全模態(Omni-modal)人工智能模型 Qwen2.5-Omni-7B,特別為全模態感知設計,能夠同時處理文本、圖像、音頻、視頻等多種形式的輸入,並能即時生成文本和自然流暢的語音應答,為在手機、筆記本電腦等終端設備上部署多模態AI應用而設。
阿里雲指出,Qwen2.5-Omni-7B 的 70億(7B)輕量級參數規模,使其成為開發高效能、具成本效益且實用價值高的AI智能體(AI Agent)的理想基礎模型,尤其在智能語音應用領域前景廣闊。例如,它可以透過即時語音導航協助視障人士辨識周圍環境,或者分析影片中的食材並按步驟提供烹飪指導,甚至能打造出真正理解客戶需求的智能客服對話體驗。
創新架構實現高效多模態處理
Qwen2.5-Omni-7B 的卓越性能源於其創新的架構設計,阿里雲介紹三大核心技術:首先是「Thinker-Talker」架構,該架構巧妙地將文本內容的生成(由Thinker部分負責)與語音的合成(由Talker部分執行)分開處理,有效降低不同模態任務間的相互干擾,確保輸出內容的高質量和語音的自然度。
其次是 TMRoPE(Time-aligned Multimodal RoPE)位置編碼技術,這項技術通過精確的時間軸對齊,實現視頻和音頻輸入的精準同步,使得模型能夠生成內容連貫、時序準確的多模態輸出。最後,通過「Block-wise Streaming Processing」(區塊串流處理)技術,模型能夠實現低延遲的音頻響應,為用戶帶來無縫、流暢的實時語音交互體驗。這些架構上的突破,使得模型在處理各種模態任務時,均能展現出可媲美同等參數規模的單一模態專用模型的性能。
海量數據訓練與開源共享
據悉,Qwen2.5-Omni-7B 基於海量的多模態數據進行了預訓練,涵蓋圖文、影片文、影音、音文以及純文本數據,確保模型在各項任務中都能展現出穩健和全面的能力。憑藉創新的架構和高質量的預訓練數據,該模型在語音指令跟隨等任務上表現出色,性能甚至接近純文字輸入的水平。在需要整合視覺、聽覺和文本輸入進行識別、解讀與推理的複雜任務上(如OmniBench基準測試),Qwen2.5-Omni更達到行業領先水平。
此外,通過情境學習(in-context learning)和強化學習(reinforcement learning)的優化,Qwen2.5-Omni-7B 在語音理解和生成方面的穩定性也得到顯著提升,有效減少注意力偏移、發音錯誤和不當停頓等問題。目前,該模型已在 Hugging Face 和 GitHub 上開源,開發者亦可透過 Qwen Chat 和阿里雲的開源社區 ModelScope 獲取。阿里雲表示,至今已開源超過200個生成式AI模型,持續為AI社群貢獻力量。此模型的發布,是繼去年9月推出Qwen2.5系列及今年1月發布Qwen2.5-Max等模型後的又一重要里程碑。
Source:阿里雲
【延伸閱讀】