OpenAI宣布將調整ChatGPT語音模式在網頁版和應用程式版的運作方式。用戶現可直接在對話期間與ChatGPT以語音溝通,同時能看到與ChatGPT的對話紀錄,以及ChatGPT用於展示談話內容的視覺效果。
科技新聞網站Engadget報道,用戶只要點擊ChatGPT文字欄旁的語音圖示,即可開始語音對話。語音對話不再像剛推出時那樣採用充滿球體的獨立介面,而是可直接在原有對話視窗內「就地」進行。
從OpenAI公告中發布的示範影片可見,ChatGPT能顯示對話紀錄,並呈現一幅列出受歡迎烘焙店清單的地圖,以及三藩市知名麵包店Tartine所出售的糕點照片。
OpenAI表示,若用戶仍想使用先前的語音模式介面,只要前往ChatGPT設定中「語音模式」的「獨立模式」(Separate)即可切換回原介面。
將視覺和語音回應結合,被視為ChatGPT多模態能力的自然延伸。用戶目前已能透過語音結合圖像或影片對模型發出提示,因此讓ChatGPT的語音回應也具備相同層次的細節,被認為符合技術邏輯。
谷歌亦曾探討類似方法,使其AI即時對話系統Gemini Live在對話期間呈現更多動態效果,包括以覆蓋圖層突顯即時影片中的特定部分。雖然OpenAI這項新功能並非以相同方式運作,但確實讓ChatGPT的語音互動更具資訊性。本報訊