
商湯技術交流日2025|商湯科技(SenseTime)發布「日日新」(SenseNova)大模型的最新V6版本,商湯科技董事長兼CEO徐立博士接受ezone.hk專訪,深入闡述新一代模型的迭代思路、技術路徑選擇、商業化策略以及對通用人工智能(AGI)時代的整體佈局。徐立強調,「日日新V6」的進化並非盲目追求參數規模的擴張,而是將重心放在多模態能力的深度融合與提升,並致力於將先進的AI技術轉化為惠及普羅大眾日常生活的實用工具。
徐立在訪談中回顧行業發展的歷程。他指出,業界早期曾普遍認為單純擴大模型參數是提升性能的不二法門,然而這條路徑在數據獲取和算力成本方面都面臨著巨大挑戰。商湯科技基於對人類學習模式的觀察,即多模態學習往往比單純依賴文本更高效,選擇了一條不同的技術路徑。「我們更看重如何利用多模態數據,例如圖像、視頻等信息,來反哺和提升純文本模型的能力。」他解釋道,過往的多模態模型往往只是將不同模態的能力簡單疊加,而「日日新V6」的核心突破在於實現跨模態的深度融合與互相促進,使模型能更全面、更深入地理解複雜的世界信息。
多模態深度融合 突破語言模型認知瓶頸
徐立認為,現有的許多大型語言模型(LLM)由於主要依賴文本數據進行訓練,其對世界的理解存在天然的局限性,忽略大量蘊藏在圖像、視頻、音頻等非文本模態中的寶貴知識。「日日新V6」通過創新的架構設計,將視覺等其他模態的信息有效融入模型訓練過程,顯著提升模型的文本理解、邏輯推理乃至常識認知能力。他舉例說明,即使是解決一道幾何題,讓模型學習包含繪製輔助線等視覺步驟的解題過程,最終也能幫助模型更好地掌握抽象的解題邏輯,哪怕最終輸出的是純文本答案。商湯的模型在去年的權威評測中,同時獲得文本和多模態能力的雙料冠軍,也初步驗證了這條多模態融合技術路線的有效性。
在模型開發過程中,徐立亦坦誠借鑒同業的優秀實踐。他特別提到 DeepSeek 模型及其團隊,「我們也有參考 DeepSeek 的方法,尤其是在思維鏈的構建方面。」他認為,DeepSeek 為行業貢獻關於如何構建更有效思維鏈的重要思路,其開源的舉動也極大地促進了整個行業對這項關鍵技術的理解和應用。
AI之道在於「百姓日用」 發掘長尾場景價值
談及通用大模型的應用落地,徐立提出「AI之道,無異於百姓日用」的核心觀點。他認為,相較於商湯過往在計算機視覺領域專注的大型項目,通用大模型的價值更能體現在解決普通人日常生活中那些看似瑣碎、繁雜的「長尾」問題上。「真正 AGI 的能力,應該是幫大家解決生活中那些很瑣碎的小事。」
他分享一個來自成都用戶的真實案例:該用戶的太太是一名中學老師,每天需要花費大量時間批改作業並記錄學生的錯題。這位用戶嘗試多種不同的 AI 模型後發現,商湯的「日日新」模型能夠最有效地處理包含大量數據和複雜表格的圖片信息,並進行合理的分析和整理,極大地減輕他太太的工作負擔。徐立強調,類似這樣能夠處理非結構化數據、解決用戶實際痛點的應用,才是通用 AI 真正應該發力的方向,亦是其價值所在。
AI 2.0時代 場景落地締造商業閉環
基於「百姓日用」的理念,徐立進一步闡述商湯在 AI 2.0 時代的商業化策略。他認為,單純銷售通用的基礎大模型本身,很難形成可持續的商業模式。更為關鍵的是,必須將強大的模型能力與具體的應用場景深度結合,通過解決實際問題來創造價值,並形成商業閉環。「核心還是要從大量的用戶需求中,篩選出那些具有共性的、真正高頻的場景,然後把應用產品打磨成熟,通過規模化的複製去實現商業價值。」
他以數據分析場景為例,指出許多中小企業和跨境電商每天都需要處理海量的非結構化數據,如採購單、物流單、用戶評論等。商湯的「日日新」大模型能夠高效地處理這些信息,提取關鍵洞察,幫助企業優化運營決策。這種從實際需求出發、能直接帶來效率提升的應用,更容易獲得用戶的認可並產生付費意願。除了數據分析,商湯亦在金融、辦公協作等多個垂直行業積極探索場景落地。
技術優化結合場景深耕 探索盈利路徑
在盈利模式方面,徐立表示,商湯原有的、以計算機視覺為核心的智慧城市、智慧商業等業務板塊已具備盈利能力。而在新興的生成式 AI 領域,商湯的策略並非僅僅依賴模型本身的銷售,而是通過其在「大裝置」(SenseCore)基礎設施層面積累的深厚功力,實現模型與算力的深度聯合優化。
「商湯的差異化競爭優勢在於對模型和算力的深度理解和聯合優化能力。」徐立強調,即使在外部算力資源緊張或成本高昂的情況下,商湯也能通過軟件層面的持續優化,在同等硬件條件下實現比競爭對手更高的推理性能和效率。這種技術壁壘使得商湯能夠以更具性價比的方式,為客戶提供高質量的生成式 AI 服務,從而構建可持續的盈利模式。
「1+X」戰略激發活力 內部創業孵化潛力項目
為進一步激發組織內部的創新潛能,商湯近年來推行了「1+X」戰略。該戰略旨在將公司內部一些處於早期發展階段、但具有巨大市場潛力的創新型項目,通過引入外部市場化融資的方式,分拆為獨立運營的公司(即「X」)。商湯作為母公司(即「1」),在背後提供核心技術、基礎設施及品牌支持,同時通過股權激勵等方式,賦予創業團隊更大的自主權和更強的內驅力。
徐立認為,這種模式有助於打破大型企業內部可能存在的流程束縛和資源分配限制,讓有潛力的項目能夠更聚焦於產品打磨和市場開拓,從而提高成功的機率。「像商湯醫療,包括原來的蘿蔔機器人項目,都是通過這種方式進行了市場化融資。」他透露,這些被分拆出去的團隊成員,對項目的前景充滿信心,甚至願意抵押個人資產進行投資。雖然「1+X」戰略短期內可能對商湯的合併報表利潤影響不大,但長遠來看,這是一種孵化未來增長點、實現更大價值的有效途徑。
審視 AI Agent 熱潮 模型智能仍是核心關鍵
對於當前市場上備受關注的 AI Agent(智能代理)概念,徐立表達他的看法。他認為,儘管 Agent 的概念非常吸引人,但其真正能夠發揮多大作用,歸根結底取決於其所依賴的底層大模型的智能水平。「如果模型本身不夠聰明,Agent 能完成的複雜任務就非常有限。」
他指出,Agent 的核心技術挑戰在於如何更智能、更有效地規劃和調用各種 API(應用程序接口)來完成用戶指定的任務。然而,如果底層模型連基本的理解、推理和規劃能力都不足,那麼即使 API 調用流程設計得再精妙,也無法實現真正意義上的智能代理。徐立以日常的查發票、做報銷等流程為例,認為 AI Agent 的真正價值應該體現在處理那些無法預先精確定義的、開放式的複雜問題上,而不僅僅是簡單的、基於規則的流程自動化(RPA)。他觀察到,目前許多 Agent 的發展方向仍然偏重於後者,這與 AGI 的終極目標尚有距離。
Source:ezone.hk
【延伸閱讀】