home.social

#gigaam — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #gigaam, aggregated by home.social.

  1. Сломал руку, купил Pixel 10, возненавидел Gboard и написал свой офлайн-голосовой ввод для Android на GigaAM v3

    Написал полностью офлайновый голосовой ввод на русском для Android. Никаких серверов, подписок и привязок к аккаунтам. За распознавание отвечает открытая нейросеть GigaAM v3 от Сбера: модель зашита прямо в APK, работает без интернета и отлично расставляет знаки препинания. Главная фишка — не нужно отказываться от любимой клавиатуры со свайпом. Это не замена Gboard, а просто плавающая кнопка, которая появляется поверх любого поля ввода. Работает элементарно: тапнул — говоришь. Как только делаешь естественную паузу в речи, готовый текст тут же влетает в активное окно. Напрямую, минуя буфер обмена. Стек: GigaAM v3 + sherpa-onnx (NNAPI / CPU) + крошечный детектор речи Silero VAD. Требования: Android 13+, ARM64. Исходники открыты (MIT).

    habr.com/ru/articles/1027884/

    #Android #GigaAM #голосовой_ввод #распознавание_речи #sherpaonnx #русский_язык #open_source #говорун

  2. Голосовой ввод на русско-английском в 2026: WisprFlow, Handy, OpenWhispr, GigaAM v3 — для диктовки нейросетям и кода

    Голосом мы говорим в 2-3 раза быстрее, чем печатаем — это давно известно. Вопрос только в том, умеет ли голосовой ввод разбираться с русско-английской смесью, на которой мы общаемся с LLM и пишем код: «объясни на русском», «открой в Cursor», «проверь, что deploy прошёл». За полгода я перепробовал 5+ приложений и 5 моделей, чтобы найти те, что умеют. Приложения : WisprFlow, SpeakFlow, Handy, OpenWhispr, SuperWhisper — облачные и локальные, платные и open source. Модели : Whisper Large v3, Turbo, GigaAM v3 от Сбера, Canary 1B v2 от NVIDIA, Parakeet V3. Внутри: — Замена облачного WisprFlow на бесплатный open source без потери качества. — Один текстовый промпт, починивший пропадающую пунктуацию в 99% случаев — без LLM-постпроцессоров и задержек. — Мой бенчмарк Whisper Turbo vs Large v3 на RTX 5070 Ti (Vulkan на Blackwell внезапно быстрее CUDA на 50%). — GigaAM v3 и Canary 1B v2 — где конкурируют с Whisper, а где ломают английские слова в кириллицу («Gemini» → «Jemni»). — Первый в моей жизни принятый в main pull request в open source. Актуально на апрель 2026.

    habr.com/ru/articles/1024634/

    #whisper #голосовой_ввод #транскрибация #gigaam #распознавание_речи #openwhispr #cuda #vulkan #superwhisper #нейросети

  3. Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

    За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.

    habr.com/ru/articles/1002260/

    #speechtotext #gigaam #whisper #vosk #onnx #распознавание_речи #WER #голосовой_ввод #ASR #python