
AI 發展迅速,最近有研究指利用 GPT-4V 技術開發的 MM-Navigator 模型,可以在不經訓練下,於 iPhone 上自行完成網購操作,實用性極高,亦比 iPhone 預載的 SIRI 更智能化。當然 MM-Navigator 在未訓練下,操作上雖有出錯,但成功率亦達 75%,而且錯誤亦可作出修正。
即刻【按此】,用 App 睇更多產品開箱科技影片
一句指令.自行網購
透過 GPT-4V 為核心而開發的 MM-Navigator 模型,用家只需輸入一句購物指令,MM-Navigator 即可以在 iPhone 上,自行完成購物任務。今次任務要求 MM-Navigator 購買奶泡器,而且價格限於 $50-100。然後 MM-Navigator 成功找到 Amazon App 位置,打開 App 又懂得在搜尋欄輸入「奶泡器」,並設定價格範圍在 $50 - 100,並找到合適價位的奶泡器,並完成下單。
屏幕分區.隨意標示
MM_Navigator 模型會將屏幕上可以輕觸的位置進行數字標記,而且標記時數字隨意擺放,而 GPT-4V 核心在網購任務上,對不同標記的功能有切合人類的理解,所以整個購物過程,幾乎完全等同人類的操作,表現相當出色。
理解能力.尚可提升
雖然 MM-Navigator 有不俗的理解力,但處理其他指令時,有成功的時候,亦有失敗的時候。由於 MM-Navigator 未經訓練,所以對其他 APP 介面的理解未達人類水平,理解能力約為人類的 75%,但如經過訓練調教,即可解決問題。
失敗
成功
【相關文章】
【相關文章】
【相關文章】
Source:arXiv


