微軟開發高效SLM Phi-4家族添新成員

微軟推出全新高效人工智能(AI)模型,能夠處理文字、圖像和語音的同時,所耗用的運算資源比現有系統大幅減少。本周發布的Phi-4家族的最新模型,標誌著小型語言模型(SLM)發展的突破,使之具備以往僅限於大型AI系統的能力。

科技新聞網站VentureBeat報道,這兩個模型分別為只有56億參數(parameter)的Phi-4-Multimodal和38億參數的Phi-4-Mini。根據微軟技術報告,這兩個模型的表現皆優於同類規模的對手,甚至在某些任務上達到或超越規模是它們兩倍的模型表現。

微軟指出,這些模型旨在提供開發人員高階AI能力,而Phi-4-Multimodal具備同時處理語音、視覺和文字的能力,為建立創新和情境感知應用程式打開新的可能性。

越來越多企業尋求AI模型能直接在裝置上運作,而非雲端數據中心,旨在減少成本和延遲同時維持數據隱私。

Phi-4-Multimodal獨特之處在於其新穎的「混合式低秩適應」(mixture of LoRAs)技術,使它可以在單一模型內處理文字、圖像和語音輸入。

微軟研究報告指出,透過使用「混合式低秩適應」技術,Phi-4-Multimodal延伸多重模式(multimodal)能力,同時降低模式之間干擾。報告認為,此舉可實現無縫整合,確保涉及文字、圖像和語音/音訊的任務一致性。

這種創新使這個模型維持強烈的語言能力,同時加入視覺和語言辨識,而不會出現模型在適應多種輸入類型都會發生的效能下降情況。

這個模型在Hugging Face機器學習平台OpenASR排行榜上排第一,錯字率為6.14%,超越WhisperV3等專用語音辨識系統,同時在使用圖像處理數學和科學推理等視覺任務上展現出具競爭力的表現。

儘管其規模屬緊湊型,Phi-4-Mini在文字任務上表現卓越的能力。微軟表示,這個模型在各種語言理解基準測試中「表現優於類似規模的模型,與規模大一倍的模型旗鼓相當」。本報訊

科技-三藩市版