商湯「悟能」具身智能平台 冀AI實現物理世界自我進化

| 李兆城 | 28-07-2025 22:16 |
商湯「悟能」具身智能平台 冀AI實現物理世界自我進化

商湯科技(SenseTime)在上海舉行的WAIC 2025大模型論壇上,正式發佈其全新的「悟能」具身智能平台。該平台為機械人、智能汽車等終端設備賦予強大的感知、導航及多模態交互能力,被視為推動AI從數碼世界走向物理世界,並實現更高層次自主化與智能化的關鍵一步。

商湯科技建基於其在視覺感知、大裝置及「日日新」大模型等多方面的穩固技術基礎,以名為「開悟」的世界模型作為「悟能」平台的核心引擎。商湯科技董事長兼首席執行官徐立在發布會上表示:「世界模型和具身AI的結合,將開啟AI發展的下一個階段,完成由『工具』向『人』的躍遷,加速邁向AGI(通用人工智能)時代。」他期望「悟能」平台能協助各類具身智能企業,幫助他們完成與現實世界互動的夢想。

三大核心引擎:賦予機械感知、導航與交互能力

「悟能」平台的核心能力,主要圍繞感知、導航和交互這三大方面構建。在感知層面,憑藉商湯在視覺AI領域逾十年的深厚積累,平台能為機械狗、人形機械人等各類終端硬件,賦予對萬物進行精準識別、理解與分割的能力。此能力具備強大的場景適配性,可完全嵌入端側晶片運行,實現更高效、敏捷的即時反應。

在導航能力上,平台整合了商湯旗下智能汽車業務「絕影」在純視覺自動駕駛方案上的技術。這項原本用於車輛的端到端智能輔助駕駛技術,現可泛化適配至機械人等設備,使其能夠在複雜多樣的環境中,實現精準的路徑規劃和自動避障。發布會的演示顯示,不論是體型較小的機械狗在園區小徑奔走,還是自動駕駛車輛在城市道路行駛,均能流暢地規劃路徑並迴避障礙物。

而在交互層面,基於「日日新」大模型的支援,「悟能」平台賦予機械人更具人性化的交互能力。演示中,一部搭載該平台的人形機械人,能以風趣幽默或嚴謹務實等多種語言風格,生動地講解電影內容,展現出其具備深度理解、長效記憶及穩定溝通的亮點。

「開悟」世界模型:為AI進化構建4D真實世界數據

要讓AI在物理世界中學習進化,高質量的現實世界數據至關重要。「悟能」平台的核心引擎——「開悟」世界模型,正正解決這個數據匱乏的行業痛點。該世界模型具備強大的多模態深度理解能力,能僅憑自然語言描述,便生成具備空間與時間一致性的逼真模擬數據,例如生成完全符合物理規律的七路攝影機視角行車影片。

更令人矚目的是,「開悟」世界模型還具備編輯真實世界的能力。它可以在真實影片場景中,對車輛等元素進行替換、刪除或增補,從而創造出更多樣化、更極端的訓練場景。這種強大的生成與編輯能力,能有效提升終端設備的智能水平與泛化能力。未來,商湯科技期望透過「悟能」平台,助力整個具身智能產業實現感知、理解與生成能力的躍進,將與物理世界交互的不確定性挑戰,轉化為產業升級的確定性路徑。

Source:商湯

相關文章

Page 1 of 9