
香港時間 12 月 4 日,AWS re:Invent 2025 進入第三日。AWS Agent AI 副總裁 Swami Sivasubramanian 發表主題演講,系統闡述建構可靠 AI Agent 的核心技術路徑。他指出,AI Agent 正從「技術奇蹟」轉變為可帶來實際業務價值的工具,但大多數企業正陷入「概念驗證(PoC)困局」,無數出色的 Agent 原型無法進入生產環境。
Swami 博士圍繞「易於建構(Easy to Build)」、「高效(Efficiency)」、「可信(Trust)」及「可靠(Reliability)」四大支柱,發布多項重大創新。值得注意的是,Amazon Nova Act 服務的可靠度已達 90%,Amazon Bedrock 強化微調功能的準確度提升 66%,而 Amazon Nova Forge 則開創「開放訓練模型」新範式。
易於建構:Strands SDK 下載破 500 萬次
Swami 博士表示,傳統 Agent 開發需預設所有場景流程,令程式碼難以維護,並容易在意外情況下失敗。此外,大多數 PoC 並未考慮五大生產障礙:快速部署能力、複雜的記憶系統、身份與存取權限管理、工具的互通性及可觀察性。
AWS 推出開源 Agent 開發框架 Strands Agents SDK,採取模型驅動方式,允許模型自主應對任何場景,無需預設工作流程和複雜協調程式碼。此功能已在 AWS 內部得到充分驗證,省卻數千行冗餘程式碼,同時提高 Agent 準確性與程式碼維護性。自 5 月發布預覽版以來,Strands 下載量已超過 500 萬次。
今日發布的兩項核心功能令其更為強大:TypeScript 支援,將 Strands Agents SDK 擴展至全球最流行的編程語言之一;以及邊緣裝置支援,開啟汽車、遊戲及機械人等領域的新應用場景。
AgentCore 新增 Episodic Memory
Amazon Bedrock AgentCore 為託管系統,填補 PoC 與生產之間的鴻溝。在現場演示中,Swami 博士展示 AgentCore Identity 的強大功能:只需數行程式碼,即可實現跨 AWS 應用程式與 Slack、Zoom 等第三方服務的無縫身份與存取權限管理,而從零開始建構同樣功能則需花費數周。
今日發布的 Episodic Memory 進一步提升 Agent 能力。Swami 博士以旅行助手為例:獨行旅客可能在航班起飛前 45 分鐘到達機場便已足夠,但若帶著兩個孩子和大量行李,Agent 則需記住上次混亂的家庭旅行經歷,自動調整到達時間至兩小時。這不僅是記住過去,更是理解「用戶行為背後的時機和原因」。Agent 的經驗越豐富,便會變得越聰明。
此外,昨日亦發布兩項 AgentCore 新功能:Policy in Amazon Bedrock AgentCore 在提供對 Agent 行為控制的同時,保留其推理和採取最佳行動的自由;而 AgentCore Evaluations 則允許開發人員在數千個模擬場景中評估和測試 Agent,確保其在正式上線前達到企業級標準。
高效:強化微調準確度提升 66%
Swami 博士指出,現成的大型語言模型(LLM)雖然智能,但並非總是最高效。效率不僅關乎成本,亦關乎延遲(回應速度)、規模(峰值處理能力)及敏捷性(迭代速度)三個關鍵維度。
他指出,大多數 Agent 將時間花費在編寫程式碼、分析搜尋結果、創建內容等常規操作上,若能為這些任務訂製模型,便能大幅提高效率。然而,像強化學習這類高級訂製技術門檻極高,需要博士級專業知識、複雜的分散式基礎設施,開發週期長達 6 至 12 個月。
今日正式發布的 Reinforcement Fine-Tuning(RFT)in Amazon Bedrock,讓普通開發人員亦能使用強化學習,且操作極為簡單:選擇基礎模型、指向 Amazon Bedrock 日誌,並選擇獎勵函數(如 LLM 評判器)即可完成。Amazon Bedrock 將自動化整個 RFT 工作流程,相比基礎模型,準確度平均提升 66%,效果十分顯著。
針對需要更多控制的應用場景,今日發布的 SageMaker AI Serverless Model Customization 提供兩種體驗:其一為自助式體驗,適合希望自行管理整個流程的開發人員;其二為 Agent 驅動體驗,使用者只需以自然語言描述用例,由 AI Agent 建議合適的微調技術、產生合成數據集、配置 Serverless 訓練流程,並完成模型效果評估。原本需要機器學習工程師投入數月反覆試驗的工作,現可在數天內完成。
Swami 博士亦宣布一項可提高模型訓練彈性的新功能:Checkpointless Training on SageMaker HyperPod。傳統檢查點恢復會導致資源閒置數小時,而此功能透過持續儲存分散式叢集中的模型狀態,實現分鐘級恢復,在硬件故障時可無縫替換設備,獲取正確的節點狀態——這堪稱一種範式轉變。
模型訂製化的四種方案
Swami 博士介紹四種訂製方案:監督式微調(SFT)、模型蒸餾、人類回饋強化學習(RLHF)及 AI 回饋強化學習(RLAIF)。其中,模型蒸餾可讓小型模型模仿巨型模型的決策邏輯,實現 10 倍加速,同時仍保持 95-98% 的效能;SFT 則重質不重量,1 萬條優質 Agent 互動數據優於數百萬通用範例。
大多數企業因而仍受制於「通用模型效能不足」與「訂製成本過高」的兩難境地。AWS 的突破在於將這些高級技術自動化,讓普通開發人員亦能使用強化學習等先進技術,大幅降低訂製門檻。
【延伸閱讀】
