人工智能聊天機械人Grok推出全新Grok Vision及Voice功能,實測顯示Grok Vision能透過手機鏡頭辨識物件並即時語音回覆用戶提問,帶來嶄新互動體驗。初步測試發現,影像辨識準確度仍有提升空間,但若提供更詳細環境資訊或有助改善。此技術潛力巨大,未來或能結合硬件開創如虛擬導遊等創新應用。
即刻【按此】,用 App 睇更多產品開箱影片
人工智能聊天機械人Grok最近又有新搞作,除了聲稱擁有地球上最強大腦的Grok 3之外,更推出了Grok Vision和Grok Voice兩項新功能。透過Grok Vision,用戶只需開啟手機鏡頭拍攝眼前的景物,再向Grok Assistant提出疑問,AI便會即時以語音回覆。想像一下,當你帶小朋友參觀展覽或博物館時,只需一邊走動一邊使用Grok Vision,Grok Assistant就能即時介紹你們所看到的新事物,帶來嶄新的互動體驗。
ezone.hk實測Grok Vision的功能。首先開啟Grok應用程式,畫面會自動進入Grok 3的介面,點擊右下角的黑色按鈕。
會轉到AI Assistant的對話框。Grok預設的語音助手是女性聲音Ara,用戶可以根據個人喜好,在設定中將其更換為男性聲音Rex。
在對話框的左下角,你會看到一個相機圖示,點擊後即可啟動影像辨識功能,開始與Grok進行視覺對話。
記者隨後進行了實測,首先拍攝了桌面上的Volvo飯盒,並向Grok提問。然而,Grok給出的答案卻令人略感意外,它將飯盒識別為「汽車零件」。
記者接著嘗試拍攝一支護手霜,結果Grok的回覆是「汽車引擎零件,好似係一個汽車引擎進氣系統嘅組件」。
另外,識別結果Grok除了會讀出來以外,還會將結果以文字的形式紀錄下來,不過讀出來的時候是普通話,而且文字紀錄內沒有之前拍的影像或圖像。
初步測試顯示,相較於直接上傳圖片至Grok 3進行分析,Grok Vision的準確性似乎稍遜一籌。不過,測試亦發現,若能在提問前先提供更詳細的環境資訊,例如目前的地點、正在進行的活動以及希望獲取的特定領域資訊(如博物館或工廠),或許能提高Grok Vision的辨識準確度。此外,Grok似乎會根據之前的提問內容,對後續問題產生一定的傾向性。
雖然Grok Vision在目前的測試中準確度仍有提升空間,但其概念和潛力仍然值得期待。假若這項視覺辨識功能能夠變得更加成熟和精準,並與特定的硬件結合,將有機會創造出不少有趣的介紹類產品,例如成為嬰兒的第一個互動學習夥伴,或是提供更具互動性的虛擬導遊體驗,為用戶帶來更豐富多元的資訊獲取方式。
【相關報道】