• Facebook
  • Instagram
  • 科技焦點
    • iPhone
    • 電腦
    • 智能家居
    • 5G流動
    • 數碼
    • 科技
    • 汽車
    • 人工智能
  • 網絡生活
    • 網絡熱話
    • 筍買情報
    • 生活情報
    • 旅遊筍料
    • 熱門話題
  • 遊戲動漫
    • 熱門遊戲
    • 電競裝備
    • 動漫玩具
  • 教學評測
    • 應用秘技
    • 新品測試
    • Apps 情報
  • EduTech
    • EduTech Today
    • EduTech Pro
    • EduTech@School
  • IT Times
    • 業界頭條
    • AI 策略
    • 名家專欄
  • 生成式AI與雲端應用
  • Enterprise Digital Transformation
  • 特集
  • 科技焦點
    • 科技焦點

    • iPhone
    • 電腦
    • 智能家居
    • 5G流動
    • 數碼
    • 科技
    • 汽車
    • 人工智能
  • 網絡生活
    • 網絡生活

    • 網絡熱話
    • 筍買情報
    • 生活情報
    • 旅遊筍料
    • 熱門話題
  • 遊戲動漫
    • 遊戲動漫

    • 熱門遊戲
    • 電競裝備
    • 動漫玩具
  • 教學評測
    • 教學評測

    • 應用秘技
    • 新品測試
    • Apps 情報
  • EduTech
    • EduTech

    • EduTech Today
    • EduTech Pro
    • EduTech@School
  • IT Times
    • IT Times

    • 業界頭條
    • AI 策略
    • 名家專欄
  • 生成式AI與雲端應用
  • Enterprise Digital Transformation
  • 特集

阿里雲推輕量級全模態AI模型 Qwen2.5-Omni-7B 攻終端設備

| Simon Chan | 27-03-2025 14:57 |
阿里雲推輕量級全模態AI模型 Qwen2.5-Omni-7B 攻終端設備

阿里雲(Alibaba Cloud)宣布推出其「通義」大模型家族的首個端到端全模態(Omni-modal)人工智能模型 Qwen2.5-Omni-7B,特別為全模態感知設計,能夠同時處理文本、圖像、音頻、視頻等多種形式的輸入,並能即時生成文本和自然流暢的語音應答,為在手機、筆記本電腦等終端設備上部署多模態AI應用而設。

阿里雲指出,Qwen2.5-Omni-7B 的 70億(7B)輕量級參數規模,使其成為開發高效能、具成本效益且實用價值高的AI智能體(AI Agent)的理想基礎模型,尤其在智能語音應用領域前景廣闊。例如,它可以透過即時語音導航協助視障人士辨識周圍環境,或者分析影片中的食材並按步驟提供烹飪指導,甚至能打造出真正理解客戶需求的智能客服對話體驗。

創新架構實現高效多模態處理

Qwen2.5-Omni-7B 的卓越性能源於其創新的架構設計,阿里雲介紹三大核心技術:首先是「Thinker-Talker」架構,該架構巧妙地將文本內容的生成(由Thinker部分負責)與語音的合成(由Talker部分執行)分開處理,有效降低不同模態任務間的相互干擾,確保輸出內容的高質量和語音的自然度。

其次是 TMRoPE(Time-aligned Multimodal RoPE)位置編碼技術,這項技術通過精確的時間軸對齊,實現視頻和音頻輸入的精準同步,使得模型能夠生成內容連貫、時序準確的多模態輸出。最後,通過「Block-wise Streaming Processing」(區塊串流處理)技術,模型能夠實現低延遲的音頻響應,為用戶帶來無縫、流暢的實時語音交互體驗。這些架構上的突破,使得模型在處理各種模態任務時,均能展現出可媲美同等參數規模的單一模態專用模型的性能。

海量數據訓練與開源共享

據悉,Qwen2.5-Omni-7B 基於海量的多模態數據進行了預訓練,涵蓋圖文、影片文、影音、音文以及純文本數據,確保模型在各項任務中都能展現出穩健和全面的能力。憑藉創新的架構和高質量的預訓練數據,該模型在語音指令跟隨等任務上表現出色,性能甚至接近純文字輸入的水平。在需要整合視覺、聽覺和文本輸入進行識別、解讀與推理的複雜任務上(如OmniBench基準測試),Qwen2.5-Omni更達到行業領先水平。

此外,通過情境學習(in-context learning)和強化學習(reinforcement learning)的優化,Qwen2.5-Omni-7B 在語音理解和生成方面的穩定性也得到顯著提升,有效減少注意力偏移、發音錯誤和不當停頓等問題。目前,該模型已在 Hugging Face 和 GitHub 上開源,開發者亦可透過 Qwen Chat 和阿里雲的開源社區 ModelScope 獲取。阿里雲表示,至今已開源超過200個生成式AI模型,持續為AI社群貢獻力量。此模型的發布,是繼去年9月推出Qwen2.5系列及今年1月發布Qwen2.5-Max等模型後的又一重要里程碑。

Source:阿里雲

【延伸閱讀】

  • AWS 與 IBM Consulting 攜手推動企業數碼轉型:生成式 AI 的應用與未來展望
  • Amazon Bedrock SLA保障再升級:DeepSeek-R1全託管無伺服器模型正式加入
  • AWS推出全方位指南 助企業加速生成式AI創新
  • 《解決DeepSeek模型安全疑慮》Amazon Bedrock Guardrails助企業防「越獄」攻擊及資料外洩

 

科技

相關文章

商湯林達華:AI Agent 邁向「自我進化」機械人料三年內加速落地

終於可以輕鬆轉會! Apple / Google 「拆牆」互通 網民興奮:iPhone Android 互轉不再遺失資料

香港教育科技聯盟正式成立!香港電腦學會夥AiTLE建構生態圈培育人才

颱風樺加沙|Microsoft Aurora AI 颱風預測超準確 實測效果表現優異【附香港使用方法】

Page 1 of 9

科技焦點

  • iPhone
  • 5G流動
  • 電腦
  • 數碼
  • 智能家居
  • 科技
  • 汽車
  • 人工智能

網絡生活

  • 網絡熱話
  • 生活情報
  • 筍買着數
  • 旅遊筍料
  • 熱門話題
  •  
  •  

遊戲動漫

  • 熱門遊戲
  • 電競裝備
  • 動漫玩具

教學評測

  • 應用秘技
  • 新品測試
  • Apps 情報

IT Times

  • 業界頭條
  • AI 策略
  • 名家專欄

其他

  • 私隱政策
  • 免責聲明
  • 聯絡/關於我們

© 2025 e-zone. All Rights Reserved.