
商湯技術交流日2025|商湯科技今日(10日)舉行技術交流日,發布其最新的「日日新V6」多模態大模型。是次發布會不僅展示「日日新V6」在技術上的顯著提升,更重點介紹在各行各業的廣泛應用,將通用人工智能技術融入普羅大眾日常生活。
據指,「日日新V6」的多模態理解能力,能夠處理包括圖片、文字和視頻等多種形式的複雜問題。除了一系列自家工具的升級外,也首次聯合展出搭載「日日新」多模態大模型的通用人形機械人,機械人不僅能「看」能「聽」,還具備深度思考和推理能力,在展示區與現場人士互動。
技術躍升:「日日新V6」核心能力全面升級
在發布會中,商湯CEO徐立介紹「日日新V6」的核心技術突破。他指出,隨著互聯網文本數據的消耗殆盡,多模態數據成為補充人類智能的關鍵要素,而多模態的學習方式也更為高效。因此,「日日新V6」從商湯過往的視覺能力延伸至原生多模態模型,是一個自然而然的過程。
徐立強調,「日日新V6」在多個方面實現顯著提升。首先,通過構建多模態的長思維數據,模型能夠處理更複雜的問題,最長可達64K的上下文長度,超越現有主流模型。其次,模型融合多模態強化學習引擎,能夠更好地與現實世界互動並獲取知識。此外,「日日新V6」還具備全局記憶能力,使得在實時交互中能夠串聯上下文,進行更連貫的思考。
強勁推理與多模態性能領先業界
徐立重點展示「日日新V6」強勁的推理能力,尤其是在理科推理和數據分析方面。根據行業標準測試,其數據分析能力已大幅領先GPT-4o等國際頂尖模型。同時,在多模態推理能力方面,「日日新V6」相較於上一代版本提升超過100%,即使在純文本推理能力上也有顯著提升。
徐立表示,中國的大模型在許多情況下已經能夠同步甚至超越西方同類模型,「日日新V6」在多項核心指標上均處於行業前列,能夠比肩甚至領先國際最佳水平。他還特別提到了模型在音視頻理解和交互方面的優勢,通過與大裝置的聯動,服務成本得以大幅降低,使得更廣泛的用戶能夠使用視頻交互API。
應用場景落地 AI融入百姓日常生活
除了技術能力的提升,「日日新V6」更著重於實際應用場景的落地。徐立認為,通用人工智能的發展趨勢是走向百姓日常生活,真正服務於普羅大眾。活動的分享區也展示多個案例,展示「日日新V6」如何在不同行業中發揮作用。
例如,在財務審核報銷方面,模型能夠自動識別和分析各種表單、發票等文件,快速發現潛在的風險點,大大提升了審核效率。在商品比價方面,模型能夠自動搜索不同電商平台的商品信息,提取關鍵信息進行比較,為用戶提供最佳購買建議。此外,模型還能分析客戶在社交媒體上的反饋,幫助商家及時了解用戶意見並改進產品和服務。
拓展應用邊界 視頻解說與教育輔助
「日日新V6」還有視頻內容創作、教育輔助方面的潛力。例如,模型能夠自動將長視頻剪輯成短視頻,並生成解說腳本,大大簡化視頻內容生產流程。在教育領域,模型能夠解析幾何題的解題思路,甚至識別手寫作業中的錯誤,並提供針對性的指導,實現更個性化的學習輔助。
Source:ezone.hk