#音訊模型 — Public Fediverse posts on home.social

#開源分享新出的一款輕量級音訊模型：Aero-1-Audio，1.5B參數，在一些基準上表現出了與Whisper、Qwen-2-Audio相當甚至更優的性能，尤其是在參數效率方面

它是基於Qwen-2.5-1.5B構建的，核心是能處理15分鐘的連續音訊，並且無需分割成小塊，這使它的整體理解的連貫性和穩定性比較好

支持語音識別、音訊理解、音訊指令遵循等任務

在語音識別任務中，其在AMI、LibriSpeech以及SPGISpeech等數據集的測試子集上取得了最低的詞錯誤率

適合在資源受限情況下部署高品質音訊處理功能的場景，比如手機語音助手、會議記錄和轉寫系統、或者課堂即時語音轉寫等等

模型： huggingface.co/lmms-lab/Aero-1-Audio