
阿里巴巴於今日(8月27日)宣佈,正式開源其最新的語音驅動生視頻(Speech-to-Video)模型Wan2.2-S2V。這項創新技術專為數字人影片創作而設,用戶僅需提供一張人像圖片及一段音訊,即可生成電影級品質、能夠流暢說話、唱歌甚至表演的虛擬人像影片,大幅降低內容創作的技術門檻。
Wan2.2-S2V為阿里Wan2.2視頻生成系列的新成員,此模型展現高度靈活性。它支援從肖像、半身到全身等多種畫幅形式,並能根據文字指令(prompt)生成相應的人物動作與場景,滿足創作者的精準敘事需求。模型不僅能應用於真人形象,亦支援卡通、動物等風格化角色,並可輸出480P及720P解像度,兼顧社交媒體與專業展示等不同場景。
技術突破降算力消耗 穩定生成長影片
Wan2.2-S2V的技術核心在於結合了文本引導的全局運動控制,以及音訊驅動的細膩局部動態,使生成的角色表情及動作更顯自然生動。更重要的是,模型採用了創新的幀處理技術,能將任意長度的歷史幀壓縮為單一特徵,此舉大幅降低了運算資源消耗,並成功解決過往在生成長影片時容易出現的不穩定問題。
目前,Wan2.2-S2V模型已在Hugging Face、GitHub及阿里雲旗下開源社區ModelScope上架,供全球開發者及用戶下載。
Source:Alibaba
【延伸閱讀】
