#音訊模型 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #音訊模型, aggregated by home.social.
-
#開源分享 新出的一款輕量級音訊模型:Aero-1-Audio,1.5B參數,在一些基準上表現出了與Whisper、Qwen-2-Audio相當甚至更優的性能,尤其是在參數效率方面
它是基於Qwen-2.5-1.5B構建的,核心是能處理15分鐘的連續音訊,並且無需分割成小塊,這使它的整體理解的連貫性和穩定性比較好
支持語音識別、音訊理解、音訊指令遵循等任務
在語音識別任務中,其在AMI、LibriSpeech以及SPGISpeech等數據集的測試子集上取得了最低的詞錯誤率
適合在資源受限情況下部署高品質音訊處理功能的場景,比如手機語音助手、會議記錄和轉寫系統、或者課堂即時語音轉寫等等
模型: huggingface.co/lmms-lab/Aero-1-Audio