#speech_recognition — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #speech_recognition, aggregated by home.social.
-
Веселимся со Spring: pet-проект по распознаванию речи
Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Погнали веселиться
https://habr.com/ru/articles/1033338/
#Java #Spring_Framework #Vosk #speech_recognition #распознавание_речи #REST_API #WAV #Java_Sound_API #pet_project #веселье
-
Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения
Привет, Хабр! Меня зовут Vlad, я начинающий Python‑разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота‑самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было. Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram‑бота, который: 1. Слушает голосовые сообщения и распознает речь без дорогих облачных API. 2. Оценивает точность произношения в процентах, сравнивая с эталоном. 3. Поддерживает живой диалог через LLM, исправляя ошибки на лету. 4. Работает быстро и экономно на слабом VPS. В этой статье я подробно разберу архитектуру проекта, покажу, как интегрировать бинарный whisper.cpp в асинхронный aiogram 3.x, реализую алгоритм оценки речи и расскажу про управление состояниями (FSM). Под капотом — Python, нейросети и немного магии.
https://habr.com/ru/articles/1014888/
#Python #Telegram_Bot #Aiogram #Whisper #Speech_Recognition #Machine_Learning #NLP #Artificial_Intelligence #Асинхронность #Испанский_язык
-
Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры
Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.
https://habr.com/ru/articles/995416/
#rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference