home.social

#расшифровка_аудио — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #расшифровка_аудио, aggregated by home.social.

  1. От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на GigaAM-v3

    Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи, и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота. ▁ ▂ ▃ ▅ ▃ ▂ ▁ ▂ ▃ ▅ ▆ ▅ ▃ ▂ ▁

    habr.com/ru/articles/979038/

    #Сезон_ИИ_в_разработке #искусственный_интеллект #распознавание_речи #расшифровка_аудио #telegram_bot #sber #sst

  2. От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на GigaAM-v3

    Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи, и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота. ▁ ▂ ▃ ▅ ▃ ▂ ▁ ▂ ▃ ▅ ▆ ▅ ▃ ▂ ▁

    habr.com/ru/articles/979038/

    #Сезон_ИИ_в_разработке #искусственный_интеллект #распознавание_речи #расшифровка_аудио #telegram_bot #sber #sst

  3. От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на GigaAM-v3

    Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи, и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота. ▁ ▂ ▃ ▅ ▃ ▂ ▁ ▂ ▃ ▅ ▆ ▅ ▃ ▂ ▁

    habr.com/ru/articles/979038/

    #Сезон_ИИ_в_разработке #искусственный_интеллект #распознавание_речи #расшифровка_аудио #telegram_bot #sber #sst

  4. От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на GigaAM-v3

    Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи, и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота. ▁ ▂ ▃ ▅ ▃ ▂ ▁ ▂ ▃ ▅ ▆ ▅ ▃ ▂ ▁

    habr.com/ru/articles/979038/

    #Сезон_ИИ_в_разработке #искусственный_интеллект #распознавание_речи #расшифровка_аудио #telegram_bot #sber #sst

  5. Meta* возвращается в мир open source с Omnilingual ASR — более мощного конкурента Whisper от OpenAI

    Meta представила новую многоязычную систему автоматического распознавания речи (ASR), поддерживающую свыше 1600 языков. Для сравнения — открытая модель Whisper от OpenAI распознает лишь 99. Более того, архитектура Omnilingual ASR позволяет разработчикам самостоятельно расширять поддержку — фактически до тысяч языков. Благодаря механизму «zero-shot» обучения в контексте (in-context learning) пользователю достаточно предоставить несколько примеров аудио и текста на новом языке во время работы модели, чтобы она смогла распознавать дальнейшие фразы без дополнительного обучения.

    habr.com/ru/companies/technokr

    #asr #meta #ai #whisper #работа_с_аудио #расшифровка_аудио #ии #искусственный_интеллект

  6. „Просто используй Docker“ — мой путь от Whisper к WhisperX

    Несколько недель назад я опубликовал статью о том, как превратить обычный диктофон в инструмент для расшифровки речи с помощью OpenAI Whisper . Идея была создать бесплатную и приватную систему ИИ диктофона, которая избавляет от необходимости переслушивать аудиозаписи лекций или выступлений. Тогда статья нашла своего читателя, собрав 140 закладок. В процессе настройки я боролся с несовместимостью библиотек, подбирал нужные версии драйверов и вручную собирал рабочее окружение. В комментариях мне справедливо заметили: «Вместо всей этой возни можно было найти готовый Docker-контейнер и поднять всё одной командой». Звучало логично, и я с энтузиазмом принял этот совет. Я ведь верю людям в интернете. Новая идея - не просто расшифровывать речь, а разделять её по голосам - как на совещании или встрече. Это называется диаризацией, и для неё существует продвинутая версия - WhisperX. Цель была проста - получить на выходе не сплошное полотно текста, а готовый протокол встречи, где понятно, кто и что сказал. Казалось, с Docker это будет легко. Но я заблуждался. Путь «в одну команду» оказался полон сюрпризов - всё сыпалось одно за другим: то скрипт не видел мои файлы, то не мог получить к ним доступ, то просто зависал без объяснения причин. Внутри этой «волшебной упаковки» царил хаос, и мне приходилось разбираться, почему она не хочет работать. Но когда я всё починил и заставил систему работать, результат превзошёл мои ожидания. Новейшая модель large-v3 в связке с диаризацией выдала не просто текст, а структурированный диалог. Это был настолько лучший результат, что я смог передать его большой языковой модели (LLM) и получить глубокий анализ одной очень важной для меня личной ситуации - под таким углом, о котором я сам бы никогда не задумался. Именно в этот момент мой скепсис в отношении «умных ИИ-диктофонов», которые я критиковал в первой статье, сильно пошатнулся. Скорее всего их сила не в тотальной записи, а в возможности превращать хаос в структурированные данные, готовые для анализа. В этой статье я хочу поделиться своим опытом прохождения этого квеста, показать, как обойти все скрытые сложности, и дать вам готовые инструкции, чтобы вы тоже могли превращать свои записи в осмысленные диалоги. Весь код выложен на Гитхаб.

    habr.com/ru/articles/948894/

    #диктофон #whisper #whisperx #rtx_5060 #cuda #расшифровка_аудио

  7. «Напомните через месяц?»: как автоматизировать напоминания клиентам с Golang, SQLite и вебхуками

    Привет, Хабр! Представим ситуацию: вы клиент. Разговор с менеджером завершен, он предложил вам что-то полезное — услугу, продукт или подписку — и, допустим, вы соглашаетесь: «Почему бы и нет, отличная идея». Менеджер записал ваше согласие и обещал напомнить вам через месяц. Звучит просто. Но вот в реальности ни один менеджер не помнит про сотни обещаний клиентам. И здесь на помощь приходит автоматизация. В этой статье рассмотрим, как построить систему автоматического напоминания, которая избавит менеджеров от лишней работы и увеличит количество сделок, которые могли бы улетучиться.

    habr.com/ru/companies/exolve/a

    #вебхуки #sms_api #напоминания #golang #json #транскрибация_звонков #анализ_звонков #автоматизация #расшифровка_аудио #smsсервис

  8. Как настроить транскрибацию звонков и голосовых сообщений через API

    Не зря в прошлом году Telegram открыл доступ к расшифровке голосовых сообщений. Пользователям куда проще прочитать текст, чем переслушивать записи, особенно когда речь идёт о десятках и сотнях звонков в месяц. Именно поэтому стоит затронуть механизм транскрибации звонков и сообщений через API и облегчить будни тех, кто уже ищет способ автоматизации в своей компании или контакт-центре.

    habr.com/ru/companies/exolve/a

    #voice #расшифровка_аудио #транскрибация_звонков #расшифровка_голосовых_сообщений #exolve #распознавание_речи #распознавание_голоса

  9. ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)

    В первой части мы проверили три сервиса: AssemblyAI , Riverside и Teamlogs . Все они пообещали точную и быструю транскрибацию, но на деле… Первый оказался хорош на английском, но на русском плыл. Второй выдал интересные фишки в интерфейсе, но транскрипцией не порадовал. Третий оказался самым сбалансированным, но и у него с пунктуацией и спикерами беда. Во второй части — ещё два претендента, у которых всё ещё есть шанс: или вытащить транскрибацию на новый уровень, или окончательно доказать, что без ручной правки пока никуда. Продолжаем тестирование!

    habr.com/ru/companies/bothub/a

    #нейросети #транскрибация #расшифровка_аудио #whisper #speechtotext

  10. На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

    Однажды я устал расшифровывать аудио пачкой инструментов в духе «Балерино-Капучино и Бобрито-Бандито» и решил собрать свой пайплайн. В статье расскажу, как я подключил ИИ к обработке голосовых записей буквально за вечер. Мне нужно было загружать запись голоса в нейросетку и на выходе получать выжимку с итогами встречи — саммари/фоллоу‑апами/«минутками». Я хотел от софта безопасности данных, локального запуска и минимума вложений (в идеале 0 затрат). Я системный аналитик, поэтому не был готов писать приложение целиком. По моей инструкции вы сможете сделать подобный конвейер своими силами даже без навыков кодинга.

    habr.com/ru/companies/alfa/art

    #whisper #nemo #ollama #gemma #obsidian #транскрибация #диаризация #саммари #саммаризация #расшифровка_аудио

  11. ТОП-5 нейросетей для транскрибации аудио в текст (часть 1)

    Сегодня нас не удивишь тем, что нейросеть за пару секунд расшифровывает двухчасовую лекцию или превращает аудиозаметку в аккуратный текст с заголовками и абзацами. Мы живём в эпоху, где слова больше не нужно набирать вручную — достаточно просто их произнести. Остальное — за алгоритмами. Одно дело — стерильное студийное аудио, где диктор звучит как утренний ведущий на радио. Совсем другое — голосовое, записанное на фоне вентилятора и междометий в стиле «эээ… ну короче». Так что мы решили не просто составить список транскрибаторов с сухими характеристиками. Мы пошли дальше — устроили испытание! Взяли 5 популярных нейросетей и заставили их пройти 3 уровня сложности. Обзор вышел объёмным, поэтому мы разбили его на две части . В первой расскажем про три сервиса. Во второй — про оставшиеся два, а ещё попробуем выбрать лучших. Приятного Вам прочтения!

    habr.com/ru/companies/bothub/a

    #нейросети #расшифровка_аудио #транскрибация #assemblyai #riverside #teamlogs

  12. Как настроить транскрибацию звонков и голосовых сообщений через API

    Не зря в прошлом году Telegram открыл доступ к расшифровке голосовых сообщений. Пользователям куда проще прочитать текст, чем переслушивать записи, особенно когда речь идёт о десятках и сотнях звонков в месяц. Именно поэтому стоит затронуть механизм транскрибации звонков и сообщений через API и облегчить будни тех, кто уже ищет способ автоматизации в своей компании или контакт-центре.

    habr.com/ru/companies/exolve/a

    #voice #расшифровка_аудио #транскрибация_звонков #расшифровка_голосовых_сообщений #exolve #распознавание_речи #распознавание_голоса

  13. Как настроить транскрибацию звонков и голосовых сообщений через API

    Не зря в прошлом году Telegram открыл доступ к расшифровке голосовых сообщений. Пользователям куда проще прочитать текст, чем переслушивать записи, особенно когда речь идёт о десятках и сотнях звонков в месяц. Именно поэтому стоит затронуть механизм транскрибации звонков и сообщений через API и облегчить будни тех, кто уже ищет способ автоматизации в своей компании или контакт-центре.

    habr.com/ru/companies/exolve/a

    #voice #расшифровка_аудио #транскрибация_звонков #расшифровка_голосовых_сообщений #exolve #распознавание_речи #распознавание_голоса

  14. На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

    Однажды я устал расшифровывать аудио пачкой инструментов в духе «Балерино-Капучино и Бобрито-Бандито» и решил собрать свой пайплайн. В статье расскажу, как я подключил ИИ к обработке голосовых записей буквально за вечер. Мне нужно было загружать запись голоса в нейросетку и на выходе получать выжимку с итогами встречи — саммари/фоллоу‑апами/«минутками». Я хотел от софта безопасности данных, локального запуска и минимума вложений (в идеале 0 затрат). Я системный аналитик, поэтому не был готов писать приложение целиком. По моей инструкции вы сможете сделать подобный конвейер своими силами даже без навыков кодинга.

    habr.com/ru/companies/alfa/art

    #whisper #nemo #ollama #gemma #obsidian #транскрибация #диаризация #саммари #саммаризация #расшифровка_аудио

  15. На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

    Однажды я устал расшифровывать аудио пачкой инструментов в духе «Балерино-Капучино и Бобрито-Бандито» и решил собрать свой пайплайн. В статье расскажу, как я подключил ИИ к обработке голосовых записей буквально за вечер. Мне нужно было загружать запись голоса в нейросетку и на выходе получать выжимку с итогами встречи — саммари/фоллоу‑апами/«минутками». Я хотел от софта безопасности данных, локального запуска и минимума вложений (в идеале 0 затрат). Я системный аналитик, поэтому не был готов писать приложение целиком. По моей инструкции вы сможете сделать подобный конвейер своими силами даже без навыков кодинга.

    habr.com/ru/companies/alfa/art

    #whisper #nemo #ollama #gemma #obsidian #транскрибация #диаризация #саммари #саммаризация #расшифровка_аудио

  16. На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

    Однажды я устал расшифровывать аудио пачкой инструментов в духе «Балерино-Капучино и Бобрито-Бандито» и решил собрать свой пайплайн. В статье расскажу, как я подключил ИИ к обработке голосовых записей буквально за вечер. Мне нужно было загружать запись голоса в нейросетку и на выходе получать выжимку с итогами встречи — саммари/фоллоу‑апами/«минутками». Я хотел от софта безопасности данных, локального запуска и минимума вложений (в идеале 0 затрат). Я системный аналитик, поэтому не был готов писать приложение целиком. По моей инструкции вы сможете сделать подобный конвейер своими силами даже без навыков кодинга.

    habr.com/ru/companies/alfa/art

    #whisper #nemo #ollama #gemma #obsidian #транскрибация #диаризация #саммари #саммаризация #расшифровка_аудио