home.social

#whisper — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #whisper, aggregated by home.social.

  1. The following hashtags are trending across South African Mastodon instances:

    #Wordle
    #wordle1778
    #internationalscurvyawarenessday
    #scurvyawareness
    #vitaminc
    #ryzen
    #ffmpeg
    #whisper
    #opera
    #church

    Based on recent posts made by non-automated accounts. Posts with more boosts, favourites, and replies are weighted higher.

  2. The following hashtags are trending across South African Mastodon instances:

    #Wordle
    #wordle1778
    #internationalscurvyawarenessday
    #scurvyawareness
    #vitaminc
    #ryzen
    #ffmpeg
    #whisper
    #opera
    #church

    Based on recent posts made by non-automated accounts. Posts with more boosts, favourites, and replies are weighted higher.

  3. The following hashtags are trending across South African Mastodon instances:

    #Wordle
    #wordle1778
    #internationalscurvyawarenessday
    #scurvyawareness
    #vitaminc
    #ryzen
    #ffmpeg
    #whisper
    #opera
    #church

    Based on recent posts made by non-automated accounts. Posts with more boosts, favourites, and replies are weighted higher.

  4. От MVP на Whisper до собственной ASR: как мы построили платформу субтитров для RUTUBE

    Автоматическое создание субтитров для пользовательского контента может выглядеть довольно простой задачей: берем готовую ASR‑модель, распознаем аудио из видео и сохраняем результат. Именно таким и был наш первый MVP в RUTUBE — сервис на базе Whisper, который позволил быстро проверить гипотезу и запустить субтитры в production. Но очень быстро стало понятно, что между «распознать речь» и «сделать субтитры для всего контента» лежит огромный пласт работы. Миллионы новых видео, ролики длиной до 24 часов, неизвестный язык, шумный пользовательский контент, требования к качеству текста и жесткие ограничения по скорости обработки — всё это превратило задачу из простого ASR в полноценную платформу с микросервисной архитектурой и собственной системой распознавания речи. В статье расскажу, почему Whisper не подошел для production, как мы перестроили всю архитектуру и за счет чего смогли выйти на производительность около 1200 видео в час на один ASR.

    habr.com/ru/companies/habr_rut

    #asr #whisper #распознавание_речи #highload #субтитры #production_ml #machine_learning

  5. Топ локальных нейросетей ︎◍ 2026: подборка ИИ для запуска из дома

    Сознаюсь: когда я впервые попытался запустить большую языковую модель на своём ноутбуке, всё закончилось вертушкой кулера, жутким лагом и системным сообщением “Недостаточно памяти”. Казалось, что домашний ИИ – удел владельцев космических станций с жидким азотом. Но прошло совсем немного времени, и ситуация изменилась до неузнаваемости. Теперь достаточно обычной RTX 3060 и получаса свободного вечера, чтобы завести себе персонального ассистента, который работает на даче без интернета и умеет шутить (или хотя бы пытается). Я расскажу обо всём по порядку – без воды и фанатизма. Что вообще запускать, на чём запускать, какие подводные камни ждут и почему “самая новая модель” дома – далеко не всегда лучший выбор. Поехали! Готовьте отвёртку и VRAM – мы начинаем!

    habr.com/ru/companies/bothub/a

    #gemma_4 #qwen36 #qwen35 #gptoss30b #mistral_7b #phi4 #deepseek_v32 #whisper #nemotron_cascade_2

  6. Топ локальных нейросетей ︎◍ 2026: подборка ИИ для запуска из дома

    Сознаюсь: когда я впервые попытался запустить большую языковую модель на своём ноутбуке, всё закончилось вертушкой кулера, жутким лагом и системным сообщением “Недостаточно памяти”. Казалось, что домашний ИИ – удел владельцев космических станций с жидким азотом. Но прошло совсем немного времени, и ситуация изменилась до неузнаваемости. Теперь достаточно обычной RTX 3060 и получаса свободного вечера, чтобы завести себе персонального ассистента, который работает на даче без интернета и умеет шутить (или хотя бы пытается). Я расскажу обо всём по порядку – без воды и фанатизма. Что вообще запускать, на чём запускать, какие подводные камни ждут и почему “самая новая модель” дома – далеко не всегда лучший выбор. Поехали! Готовьте отвёртку и VRAM – мы начинаем!

    habr.com/ru/companies/bothub/a

    #gemma_4 #qwen36 #qwen35 #gptoss30b #mistral_7b #phi4 #deepseek_v32 #whisper #nemotron_cascade_2

  7. Топ локальных нейросетей ︎◍ 2026: подборка ИИ для запуска из дома

    Сознаюсь: когда я впервые попытался запустить большую языковую модель на своём ноутбуке, всё закончилось вертушкой кулера, жутким лагом и системным сообщением “Недостаточно памяти”. Казалось, что домашний ИИ – удел владельцев космических станций с жидким азотом. Но прошло совсем немного времени, и ситуация изменилась до неузнаваемости. Теперь достаточно обычной RTX 3060 и получаса свободного вечера, чтобы завести себе персонального ассистента, который работает на даче без интернета и умеет шутить (или хотя бы пытается). Я расскажу обо всём по порядку – без воды и фанатизма. Что вообще запускать, на чём запускать, какие подводные камни ждут и почему “самая новая модель” дома – далеко не всегда лучший выбор. Поехали! Готовьте отвёртку и VRAM – мы начинаем!

    habr.com/ru/companies/bothub/a

    #gemma_4 #qwen36 #qwen35 #gptoss30b #mistral_7b #phi4 #deepseek_v32 #whisper #nemotron_cascade_2

  8. Топ локальных нейросетей ︎◍ 2026: подборка ИИ для запуска из дома

    Сознаюсь: когда я впервые попытался запустить большую языковую модель на своём ноутбуке, всё закончилось вертушкой кулера, жутким лагом и системным сообщением “Недостаточно памяти”. Казалось, что домашний ИИ – удел владельцев космических станций с жидким азотом. Но прошло совсем немного времени, и ситуация изменилась до неузнаваемости. Теперь достаточно обычной RTX 3060 и получаса свободного вечера, чтобы завести себе персонального ассистента, который работает на даче без интернета и умеет шутить (или хотя бы пытается). Я расскажу обо всём по порядку – без воды и фанатизма. Что вообще запускать, на чём запускать, какие подводные камни ждут и почему “самая новая модель” дома – далеко не всегда лучший выбор. Поехали! Готовьте отвёртку и VRAM – мы начинаем!

    habr.com/ru/companies/bothub/a

    #gemma_4 #qwen36 #qwen35 #gptoss30b #mistral_7b #phi4 #deepseek_v32 #whisper #nemotron_cascade_2

  9. Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

    В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

    habr.com/ru/articles/1026778/

    #Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

  10. Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

    Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

    habr.com/ru/companies/yoomoney

    #распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

  11. Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

    Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

    habr.com/ru/companies/yoomoney

    #распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

  12. Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

    Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

    habr.com/ru/companies/yoomoney

    #распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

  13. Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

    Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

    habr.com/ru/companies/yoomoney

    #распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

  14. Швейцарский ножик для распознавания речи

    ASR-системы в проде - это тяжёлые, специализированные решения под конкретные сценарии. Но что делать, если нужен универсальный инструмент, который умеет распознать длинное аудио, диаризовать спикеров, обработать пачку файлов и при этом не требует целого GPU кластера? В этой серии статей я разбираю, как собрать «швейцарский ножик» для распознавания речи на базе Whisper: выбрать модель, победить галлюцинации, стабилизировать обработку длинных аудио и выжать максимум из обычной видеокарты. Первая часть - про выбор ASR, оптимизацию инференса и практические грабли, с которыми сталкиваешься, когда пытаешься превратить open-source модель в рабочий инструмент.

    habr.com/ru/articles/1006060/

    #ASR #распознавание_речи #Whisper #нейросети #машинное_обучение #транскрибация #диаризация #Python #ai

  15. Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

    За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.

    habr.com/ru/articles/1002260/

    #speechtotext #gigaam #whisper #vosk #onnx #распознавание_речи #WER #голосовой_ввод #ASR #python

  16. Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

    Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

    habr.com/ru/articles/995416/

    #rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

  17. Ces arbres méritent un post à eux tout seuls ;) run en forêt, au milieu de mes arbres de sorcière, qui dansent joyeusement en hiver !
    #foret #trees #forest #nature #photo #photography #winter #december #trailrun #running #dancing #whisper #whispering #arbres

  18. #OffreDeStage niveau Master / fin d'étude (4 à 6 mois) "Mise en place d’un serveur de transcription automatique de la parole pour les enregistreurs phoniques d’aéronefs (boites noires audio)"

    Lieu : Laboratoire Audio-CVR, Bureau d'Enquête et d'Analyse pour la sécurité de l'aviation civile (@bea_aviation), 10 rue de Paris, 93350 Le Bourget (Ile-de-France)

    à 30 min de Paris Nord

    Sujet : drive.proton.me/urls/VBPJ540V7

    #architectureparallele #Linux #Serveur #CUDA #OpenAI #whisper #bea

  19. #OffreDeStage niveau Master / fin d'étude (4 à 6 mois) "Mise en place d’un serveur de transcription automatique de la parole pour les enregistreurs phoniques d’aéronefs (boites noires audio)"

    Lieu : Laboratoire Audio-CVR, Bureau d'Enquête et d'Analyse pour la sécurité de l'aviation civile (@bea_aviation), 10 rue de Paris, 93350 Le Bourget (Ile-de-France)

    à 30 min de Paris Nord

    Sujet : drive.proton.me/urls/VBPJ540V7

    #architectureparallele #Linux #Serveur #CUDA #OpenAI #whisper #bea

  20. #OffreDeStage niveau Master / fin d'étude (4 à 6 mois) "Mise en place d’un serveur de transcription automatique de la parole pour les enregistreurs phoniques d’aéronefs (boites noires audio)"

    Lieu : Laboratoire Audio-CVR, Bureau d'Enquête et d'Analyse pour la sécurité de l'aviation civile (@bea_aviation), 10 rue de Paris, 93350 Le Bourget (Ile-de-France)

    à 30 min de Paris Nord

    Sujet : drive.proton.me/urls/VBPJ540V7

    #architectureparallele #Linux #Serveur #CUDA #OpenAI #whisper #bea

  21. #OffreDeStage niveau Master / fin d'étude (4 à 6 mois) "Mise en place d’un serveur de transcription automatique de la parole pour les enregistreurs phoniques d’aéronefs (boites noires audio)"

    Lieu : Laboratoire Audio-CVR, Bureau d'Enquête et d'Analyse pour la sécurité de l'aviation civile (@bea_aviation), 10 rue de Paris, 93350 Le Bourget (Ile-de-France)

    à 30 min de Paris Nord

    Sujet : drive.proton.me/urls/VBPJ540V7

    #architectureparallele #Linux #Serveur #CUDA #OpenAI #whisper #bea

  22. #OffreDeStage niveau Master / fin d'étude (4 à 6 mois) "Mise en place d’un serveur de transcription automatique de la parole pour les enregistreurs phoniques d’aéronefs (boites noires audio)"

    Lieu : Laboratoire Audio-CVR, Bureau d'Enquête et d'Analyse pour la sécurité de l'aviation civile (@bea_aviation), 10 rue de Paris, 93350 Le Bourget (Ile-de-France)

    à 30 min de Paris Nord

    Sujet : drive.proton.me/urls/VBPJ540V7

    #architectureparallele #Linux #Serveur #CUDA #OpenAI #whisper #bea

  23. I am really impressed by both the speed and accuracy of #vosk speech-to-text on a Raspberry Pi 5. This is really usable. #Whisper was either far too inaccurate (at least for german) or unusable slow with larger, more accurate models.

    Did you try any of these? What are your experiences?

    #HomeAssistant

  24. Run 🤗 Transformers in your browser! - github.com/xenova/transformers

    We currently support #BERT, #ALBERT, #DistilBERT, #T5, #T5v1.1, #FLANT5, #GPT2, #BART, #CodeGen, #Whisper, #CLIP, #Vision Transformer, and VisionEncoderDecoder models, for a variety of tasks....

    #webml