
Amazon 宣布推出一款名為 Amazon Nova Sonic 的全新基礎模型,讓人們與人工智能(AI)的語音對話體驗,提升至更貼近真人交流的層次。這款創新模型的核心突破在於將語音理解與語音生成能力整合於單一模型中,使其能深入捕捉並回應人類對話中的語氣、語調及節奏等細微之處。
Nova Sonic 模型現已透過亞馬遜雲端服務(AWS)旗下的 Amazon Bedrock 平台,以新的 API 形式提供給開發者。Amazon 指出,技術有望簡化各類語音應用程式的開發流程,尤其適用於需要自然流暢對話的場景,例如自動化客戶服務查詢、以及橫跨旅遊、教育、醫療保健、娛樂等多個行業的 AI 代理(AI agents)。
突破傳統界限 單一模型捕捉語音細微之處
據指,Amazon 在語音技術領域擁有超過十年的研發經驗,從家傳戶曉的智能助手 Alexa 到 AWS 上的 Lex(對話式 AI)、Polly(文字轉語音)及 Connect(雲端聯絡中心)等服務,均是其技術的體現。然而,Amazon 亦認識到,要讓語音 AI 發揮更大價值,單純理解文字內容並不足夠,「如何表達」往往與「表達甚麼」同等重要,甚至更為關鍵。傳統語音應用的開發流程通常需要串接多個獨立模型:首先由語音識別(ASR)模型將語音轉為文字,再交由大型語言模型(LLM)理解並生成文字回覆,最後由文本轉語音(TTS)模型將文字轉回音頻。
分散式架構不僅增加了開發複雜度,更關鍵的是,在多次轉換過程中容易丟失語音中蘊含的豐富聲學情境線索,如說話者的語氣、語調的抑揚頓挫、說話風格以及停頓、猶豫等自然表達方式。Nova Sonic 則採用截然不同的整合方法,將語音的理解與生成功能統一在單一模型內。使得模型能夠直接根據輸入語音的聲學特徵(如語氣、風格)來調整其生成的語音回應,從而實現更自然、更具同理心的對話。
語氣聲調靈活調整 對答如流更自然
Nova Sonic 的先進之處在於其能夠理解人類對話中微妙的互動模式。它能識別說話者自然的停頓和猶豫,並在適當的時機作出回應,甚至能夠從容應對談話中途被打斷(插話)的情況,使對話流程更貼近真實的人際溝通。Amazon 展示了一個例子:當用戶與基於 Nova Sonic 的虛擬旅遊助手討論夏威夷行程時,若用戶的語氣從最初的興奮轉為對費用的擔憂,AI 助手的語調亦能隨之調整,變得更具安撫性,並即時調取相關的價格資訊作回應。
這種根據聲學情境動態調整回應語氣的能力,是達致自然對話體驗的關鍵。配合其極快的推理(inference)速度,由 Nova Sonic 支援的語音應用,不僅聽起來更自然,互動起來也更流暢。
賦能多元應用 簡化語音助手開發
除了提升對話的自然度,Nova Sonic 亦兼顧了實用性。該模型在處理語音輸入的同時,會自動生成文字謄本(transcript)。開發者可以利用這些文字謄本來觸發其他工具或 API 的調用,藉此構建功能更強大的語音 AI 代理。例如,前述的 AI 旅遊代理便可根據對話內容,透過文字謄本觸發 API 來查詢最新的航班資訊,協助用戶完成機票預訂。
Amazon 亦展示企業 AI 助手的應用示例,說明企業客戶如何利用 Nova Sonic 連接公司內部數據,讓 AI 助手能夠提取報告內容,並以自然對話的方式向用戶傳遞準確資訊,甚至主動提出相關的後續問題。這種流暢的多輪互動能力,無需用戶反覆重申對話背景。
Source:Amazon
【延伸閱讀】