
AI已從單純的語言模型,轉向能同時處理圖像、影片及文字的「多模態」(Multimodal)大模型。商湯科技聯合創始人、香港中文大學信息工程學系副教授林達華接受訪問時分享,多模態技術正處於由「初級拼接」邁向「原生融合」的關鍵轉折點。
市面上雖湧現不少多模態大模型,但林達華分析,當前大部份模型仍處於「初級階段」。他形容,現時主流做法猶如「為大腦裝上眼睛」,即是將一個處理視覺的編碼器,簡單連接到一個語言模型(LLM)上。這種「外掛式」的設計雖然能快速賦予模型看圖說話的能力,但其理解能力往往流於表面,難以處理深層次的複雜邏輯。
林達華指出,商湯憑藉過去十年在計算機視覺領域的深厚積累,正致力研發「原生多模態」架構。有別於拼湊式的設計,新架構在每一個運算模塊中,都能同時處理視覺與語言數據。他強調,只有從底層架構進行創新,才能突破現有技術的天花板,讓AI真正理解醫療影像中的病理關聯,或是在複雜的工業場景中作出精準判斷。
落地關鍵指標 從80分跨越至99分
林達華又指,AI模型在基準測試(Benchmark)中屢創新高,但在實際商業應用中,企業更看重的是「實用性」與「可靠性」。林達華提出一個「由80分到99分」的落地理論。他解釋,通用的基礎模型就像完成義務教育的學生,具備聽說讀寫的「80分」能力,這在各行各業都是通用的。然而,要真正落實到醫療診斷、工業檢測等關鍵領域,必須達到「99分」甚至更高的準確度,否則難以被客戶採納。
要填補這近20分的差距,林達華認為關鍵在於「反饋循環」。他以教育及機械人領域為例,這類場景的「反饋」獲取相對容易:改卷系統能即時對錯,機械人能否成功抓取物件亦是一目瞭然。相反,金融諮詢報告的好壞往往需要長時間驗證,反饋成本極高,因此落地速度相對較慢。商湯的策略是深入特定行業,引入專家反饋進行強化學習,將通用模型打磨成行業專用的「專家模型」,從而實現真正的商業價值變現。
具身智能新趨勢 機械人「大腦」可持續升級
在近年大熱的「具身智能」及人形機械人,林達華表示,雖然目前技術已能解決空間理解問題,但要機械人操作複雜機器(如飛機駕駛艙),仍需長時間的專業訓練。他預期,未來一至三年內,隨著多模態能力的滲透,不同場景的機械人應用將會加速落地。
他強調,機械人的核心價值不在於硬件的肢體動作,而在於其「大腦」的交互與理解能力。商湯作為通用大腦,意味著機械人的硬件雖然不變,但背後的模型可以不斷升級。隨著多模態能力的提升,機械人不僅能執行指令,更能與人類進行深層次交流,甚至在執行任務受阻時主動尋求解決方案。
國產晶片部署 雙位數佔比抗風險
面對美國對華實施的高端晶片出口管制,算力供應成為外界關注焦點。林達華透露,商湯早於六年前已預視到相關風險,並著手部署國產晶片的適配工作。目前,商湯除了使用NVIDIA晶片外,亦與華為(昇騰)、寒武紀等國產晶片廠商保持緊密合作。
林達華表示,商湯已掌握一套高效的國產晶片適配方法論。「一個新模型訓練出來,我們僅需一至兩個星期,就可以完全在國產晶片上運行。」他更透露,目前國產算力在商湯的整體算力中已佔據「雙位數」比例,且呈上升趨勢。這證明商湯在供應鏈管理上具備強大的抗風險能力,即使面對外部封鎖,仍能保障模型研發與商業服務的連續性。
自主進化Agent AI將具備職場成長力
展望AI技術的未來發展,林達華認為「AI Agent」目前多是按人類設定的流程(SOP)執行任務。他預計未來的AI是將具備「自我進化」能力,不僅是單向執行指令,更能在與用戶的交互中,通過反饋不斷學習與修正。AI的角式會更像一名職場新人,通過實際工作積累經驗,從初級員工成長為資深專家。
林達華強調,商湯的目標不是要AI取代人類團隊,而是解放人類的生產力。以醫療為例,AI可以處理繁瑣的文書與初步診斷,讓醫生專注於疑難雜症與關懷病人。這種「人機協作、共同進化」的模式,將是AI技術真正融入社會、創造深遠價值的必由之路。
Source:ezone.hk
