home.social

#speech_recognition — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #speech_recognition, aggregated by home.social.

  1. Веселимся со Spring: pet-проект по распознаванию речи

    Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Погнали веселиться

    habr.com/ru/articles/1033338/

    #Java #Spring_Framework #Vosk #speech_recognition #распознавание_речи #REST_API #WAV #Java_Sound_API #pet_project #веселье

  2. Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

    Привет, Хабр! Меня зовут Vlad, я начинающий Python‑разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота‑самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было. Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram‑бота, который: 1. Слушает голосовые сообщения и распознает речь без дорогих облачных API. 2. Оценивает точность произношения в процентах, сравнивая с эталоном. 3. Поддерживает живой диалог через LLM, исправляя ошибки на лету. 4. Работает быстро и экономно на слабом VPS. В этой статье я подробно разберу архитектуру проекта, покажу, как интегрировать бинарный whisper.cpp в асинхронный aiogram 3.x, реализую алгоритм оценки речи и расскажу про управление состояниями (FSM). Под капотом — Python, нейросети и немного магии.

    habr.com/ru/articles/1014888/

    #Python #Telegram_Bot #Aiogram #Whisper #Speech_Recognition #Machine_Learning #NLP #Artificial_Intelligence #Асинхронность #Испанский_язык

  3. Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

    Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

    habr.com/ru/articles/995416/

    #rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference