#расшифровка_аудио — Public Fediverse posts on home.social

Habr @[email protected] · 2025-12-26 · 12:12 UTC

От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на GigaAM-v3

Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи, и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота. ▁ ▂ ▃ ▅ ▃ ▂ ▁ ▂ ▃ ▅ ▆ ▅ ▃ ▂ ▁

https://habr.com/ru/articles/979038/

#Сезон_ИИ_в_разработке #искусственный_интеллект #распознавание_речи #расшифровка_аудио #telegram_bot #sber #sst

#sst #sber #telegram_bot #расшифровка_аудио #распознавание_речи #искусственный_интеллект

Habr @[email protected] · 2025-12-26 · 12:12 UTC

От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на GigaAM-v3

Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи, и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота. ▁ ▂ ▃ ▅ ▃ ▂ ▁ ▂ ▃ ▅ ▆ ▅ ▃ ▂ ▁

https://habr.com/ru/articles/979038/

#Сезон_ИИ_в_разработке #искусственный_интеллект #распознавание_речи #расшифровка_аудио #telegram_bot #sber #sst

#sst #sber #telegram_bot #расшифровка_аудио #распознавание_речи #искусственный_интеллект

Habr @[email protected] · 2025-12-26 · 12:12 UTC

От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на GigaAM-v3

Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи, и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота. ▁ ▂ ▃ ▅ ▃ ▂ ▁ ▂ ▃ ▅ ▆ ▅ ▃ ▂ ▁

https://habr.com/ru/articles/979038/

#Сезон_ИИ_в_разработке #искусственный_интеллект #распознавание_речи #расшифровка_аудио #telegram_bot #sber #sst

#sst #sber #telegram_bot #расшифровка_аудио #распознавание_речи #искусственный_интеллект

Habr @[email protected] · 2025-12-26 · 12:12 UTC

От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на GigaAM-v3

Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи, и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота. ▁ ▂ ▃ ▅ ▃ ▂ ▁ ▂ ▃ ▅ ▆ ▅ ▃ ▂ ▁

https://habr.com/ru/articles/979038/

#Сезон_ИИ_в_разработке #искусственный_интеллект #распознавание_речи #расшифровка_аудио #telegram_bot #sber #sst

#сезон_ии_в_разработке #искусственный_интеллект #распознавание_речи #расшифровка_аудио #telegram_bot #sber

Habr @[email protected] · 2025-11-11 · 14:12 UTC

Meta* возвращается в мир open source с Omnilingual ASR — более мощного конкурента Whisper от OpenAI

Meta представила новую многоязычную систему автоматического распознавания речи (ASR), поддерживающую свыше 1600 языков. Для сравнения — открытая модель Whisper от OpenAI распознает лишь 99. Более того, архитектура Omnilingual ASR позволяет разработчикам самостоятельно расширять поддержку — фактически до тысяч языков. Благодаря механизму «zero-shot» обучения в контексте (in-context learning) пользователю достаточно предоставить несколько примеров аудио и текста на новом языке во время работы модели, чтобы она смогла распознавать дальнейшие фразы без дополнительного обучения.

https://habr.com/ru/companies/technokratos/articles/965392/

#asr #meta #ai #whisper #работа_с_аудио #расшифровка_аудио #ии #искусственный_интеллект

#искусственный_интеллект #ии #расшифровка_аудио #работа_с_аудио #whisper #ai

Habr @[email protected] · 2025-09-23 · 00:42 UTC

„Просто используй Docker“ — мой путь от Whisper к WhisperX

Несколько недель назад я опубликовал статью о том, как превратить обычный диктофон в инструмент для расшифровки речи с помощью OpenAI Whisper . Идея была создать бесплатную и приватную систему ИИ диктофона, которая избавляет от необходимости переслушивать аудиозаписи лекций или выступлений. Тогда статья нашла своего читателя, собрав 140 закладок. В процессе настройки я боролся с несовместимостью библиотек, подбирал нужные версии драйверов и вручную собирал рабочее окружение. В комментариях мне справедливо заметили: «Вместо всей этой возни можно было найти готовый Docker-контейнер и поднять всё одной командой». Звучало логично, и я с энтузиазмом принял этот совет. Я ведь верю людям в интернете. Новая идея - не просто расшифровывать речь, а разделять её по голосам - как на совещании или встрече. Это называется диаризацией, и для неё существует продвинутая версия - WhisperX. Цель была проста - получить на выходе не сплошное полотно текста, а готовый протокол встречи, где понятно, кто и что сказал. Казалось, с Docker это будет легко. Но я заблуждался. Путь «в одну команду» оказался полон сюрпризов - всё сыпалось одно за другим: то скрипт не видел мои файлы, то не мог получить к ним доступ, то просто зависал без объяснения причин. Внутри этой «волшебной упаковки» царил хаос, и мне приходилось разбираться, почему она не хочет работать. Но когда я всё починил и заставил систему работать, результат превзошёл мои ожидания. Новейшая модель large-v3 в связке с диаризацией выдала не просто текст, а структурированный диалог. Это был настолько лучший результат, что я смог передать его большой языковой модели (LLM) и получить глубокий анализ одной очень важной для меня личной ситуации - под таким углом, о котором я сам бы никогда не задумался. Именно в этот момент мой скепсис в отношении «умных ИИ-диктофонов», которые я критиковал в первой статье, сильно пошатнулся. Скорее всего их сила не в тотальной записи, а в возможности превращать хаос в структурированные данные, готовые для анализа. В этой статье я хочу поделиться своим опытом прохождения этого квеста, показать, как обойти все скрытые сложности, и дать вам готовые инструкции, чтобы вы тоже могли превращать свои записи в осмысленные диалоги. Весь код выложен на Гитхаб.

https://habr.com/ru/articles/948894/

#диктофон #whisper #whisperx #rtx_5060 #cuda #расшифровка_аудио

#расшифровка_аудио #cuda #rtx_5060 #whisperx #whisper #диктофон

Habr @[email protected] · 2024-11-26 · 06:32 UTC

«Напомните через месяц?»: как автоматизировать напоминания клиентам с Golang, SQLite и вебхуками

Привет, Хабр! Представим ситуацию: вы клиент. Разговор с менеджером завершен, он предложил вам что-то полезное — услугу, продукт или подписку — и, допустим, вы соглашаетесь: «Почему бы и нет, отличная идея». Менеджер записал ваше согласие и обещал напомнить вам через месяц. Звучит просто. Но вот в реальности ни один менеджер не помнит про сотни обещаний клиентам. И здесь на помощь приходит автоматизация. В этой статье рассмотрим, как построить систему автоматического напоминания, которая избавит менеджеров от лишней работы и увеличит количество сделок, которые могли бы улетучиться.

https://habr.com/ru/companies/exolve/articles/861346/

#вебхуки #sms_api #напоминания #golang #json #транскрибация_звонков #анализ_звонков #автоматизация #расшифровка_аудио #smsсервис

#вебхуки #sms_api #напоминания #golang #json #транскрибация_звонков

Habr @[email protected] · 2024-08-20 · 08:52 UTC

Как настроить транскрибацию звонков и голосовых сообщений через API

Не зря в прошлом году Telegram открыл доступ к расшифровке голосовых сообщений. Пользователям куда проще прочитать текст, чем переслушивать записи, особенно когда речь идёт о десятках и сотнях звонков в месяц. Именно поэтому стоит затронуть механизм транскрибации звонков и сообщений через API и облегчить будни тех, кто уже ищет способ автоматизации в своей компании или контакт-центре.

https://habr.com/ru/companies/exolve/articles/837208/

#voice #расшифровка_аудио #транскрибация_звонков #расшифровка_голосовых_сообщений #exolve #распознавание_речи #распознавание_голоса

#распознавание_голоса #распознавание_речи #exolve #расшифровка_голосовых_сообщений #транскрибация_звонков #расшифровка_аудио

Habr @[email protected] · 2025-05-21 · 15:52 UTC

ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)

В первой части мы проверили три сервиса: AssemblyAI , Riverside и Teamlogs . Все они пообещали точную и быструю транскрибацию, но на деле… Первый оказался хорош на английском, но на русском плыл. Второй выдал интересные фишки в интерфейсе, но транскрипцией не порадовал. Третий оказался самым сбалансированным, но и у него с пунктуацией и спикерами беда. Во второй части — ещё два претендента, у которых всё ещё есть шанс: или вытащить транскрибацию на новый уровень, или окончательно доказать, что без ручной правки пока никуда. Продолжаем тестирование!

https://habr.com/ru/companies/bothub/articles/910530/

#нейросети #транскрибация #расшифровка_аудио #whisper #speechtotext

#speechtotext #whisper #расшифровка_аудио #транскрибация #нейросети

Habr @[email protected] · 2025-05-19 · 16:32 UTC

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

Однажды я устал расшифровывать аудио пачкой инструментов в духе «Балерино-Капучино и Бобрито-Бандито» и решил собрать свой пайплайн. В статье расскажу, как я подключил ИИ к обработке голосовых записей буквально за вечер. Мне нужно было загружать запись голоса в нейросетку и на выходе получать выжимку с итогами встречи — саммари/фоллоу‑апами/«минутками». Я хотел от софта безопасности данных, локального запуска и минимума вложений (в идеале 0 затрат). Я системный аналитик, поэтому не был готов писать приложение целиком. По моей инструкции вы сможете сделать подобный конвейер своими силами даже без навыков кодинга.

https://habr.com/ru/companies/alfa/articles/909498/

#whisper #nemo #ollama #gemma #obsidian #транскрибация #диаризация #саммари #саммаризация #расшифровка_аудио

#расшифровка_аудио #саммаризация #саммари #диаризация #транскрибация #obsidian

Habr @[email protected] · 2025-05-16 · 13:52 UTC

ТОП-5 нейросетей для транскрибации аудио в текст (часть 1)

Сегодня нас не удивишь тем, что нейросеть за пару секунд расшифровывает двухчасовую лекцию или превращает аудиозаметку в аккуратный текст с заголовками и абзацами. Мы живём в эпоху, где слова больше не нужно набирать вручную — достаточно просто их произнести. Остальное — за алгоритмами. Одно дело — стерильное студийное аудио, где диктор звучит как утренний ведущий на радио. Совсем другое — голосовое, записанное на фоне вентилятора и междометий в стиле «эээ… ну короче». Так что мы решили не просто составить список транскрибаторов с сухими характеристиками. Мы пошли дальше — устроили испытание! Взяли 5 популярных нейросетей и заставили их пройти 3 уровня сложности. Обзор вышел объёмным, поэтому мы разбили его на две части . В первой расскажем про три сервиса. Во второй — про оставшиеся два, а ещё попробуем выбрать лучших. Приятного Вам прочтения!

https://habr.com/ru/companies/bothub/articles/908672/

#нейросети #расшифровка_аудио #транскрибация #assemblyai #riverside #teamlogs

#teamlogs #riverside #assemblyai #транскрибация #расшифровка_аудио #нейросети

Habr @[email protected] · 2024-08-20 · 08:52 UTC

Как настроить транскрибацию звонков и голосовых сообщений через API

Не зря в прошлом году Telegram открыл доступ к расшифровке голосовых сообщений. Пользователям куда проще прочитать текст, чем переслушивать записи, особенно когда речь идёт о десятках и сотнях звонков в месяц. Именно поэтому стоит затронуть механизм транскрибации звонков и сообщений через API и облегчить будни тех, кто уже ищет способ автоматизации в своей компании или контакт-центре.

https://habr.com/ru/companies/exolve/articles/837208/

#voice #расшифровка_аудио #транскрибация_звонков #расшифровка_голосовых_сообщений #exolve #распознавание_речи #распознавание_голоса

#распознавание_голоса #распознавание_речи #exolve #расшифровка_голосовых_сообщений #транскрибация_звонков #расшифровка_аудио

Habr @[email protected] · 2024-08-20 · 08:52 UTC

Как настроить транскрибацию звонков и голосовых сообщений через API

Не зря в прошлом году Telegram открыл доступ к расшифровке голосовых сообщений. Пользователям куда проще прочитать текст, чем переслушивать записи, особенно когда речь идёт о десятках и сотнях звонков в месяц. Именно поэтому стоит затронуть механизм транскрибации звонков и сообщений через API и облегчить будни тех, кто уже ищет способ автоматизации в своей компании или контакт-центре.

https://habr.com/ru/companies/exolve/articles/837208/

#voice #расшифровка_аудио #транскрибация_звонков #расшифровка_голосовых_сообщений #exolve #распознавание_речи #распознавание_голоса

#voice #расшифровка_аудио #транскрибация_звонков #расшифровка_голосовых_сообщений #exolve #распознавание_речи

Habr @[email protected] · 2025-05-19 · 16:32 UTC

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

Однажды я устал расшифровывать аудио пачкой инструментов в духе «Балерино-Капучино и Бобрито-Бандито» и решил собрать свой пайплайн. В статье расскажу, как я подключил ИИ к обработке голосовых записей буквально за вечер. Мне нужно было загружать запись голоса в нейросетку и на выходе получать выжимку с итогами встречи — саммари/фоллоу‑апами/«минутками». Я хотел от софта безопасности данных, локального запуска и минимума вложений (в идеале 0 затрат). Я системный аналитик, поэтому не был готов писать приложение целиком. По моей инструкции вы сможете сделать подобный конвейер своими силами даже без навыков кодинга.

https://habr.com/ru/companies/alfa/articles/909498/

#whisper #nemo #ollama #gemma #obsidian #транскрибация #диаризация #саммари #саммаризация #расшифровка_аудио

#расшифровка_аудио #саммаризация #саммари #диаризация #транскрибация #obsidian

Habr @[email protected] · 2025-05-19 · 16:32 UTC

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

Однажды я устал расшифровывать аудио пачкой инструментов в духе «Балерино-Капучино и Бобрито-Бандито» и решил собрать свой пайплайн. В статье расскажу, как я подключил ИИ к обработке голосовых записей буквально за вечер. Мне нужно было загружать запись голоса в нейросетку и на выходе получать выжимку с итогами встречи — саммари/фоллоу‑апами/«минутками». Я хотел от софта безопасности данных, локального запуска и минимума вложений (в идеале 0 затрат). Я системный аналитик, поэтому не был готов писать приложение целиком. По моей инструкции вы сможете сделать подобный конвейер своими силами даже без навыков кодинга.

https://habr.com/ru/companies/alfa/articles/909498/

#whisper #nemo #ollama #gemma #obsidian #транскрибация #диаризация #саммари #саммаризация #расшифровка_аудио

#расшифровка_аудио #саммаризация #саммари #диаризация #транскрибация #obsidian

Habr @[email protected] · 2025-05-19 · 16:32 UTC

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

Однажды я устал расшифровывать аудио пачкой инструментов в духе «Балерино-Капучино и Бобрито-Бандито» и решил собрать свой пайплайн. В статье расскажу, как я подключил ИИ к обработке голосовых записей буквально за вечер. Мне нужно было загружать запись голоса в нейросетку и на выходе получать выжимку с итогами встречи — саммари/фоллоу‑апами/«минутками». Я хотел от софта безопасности данных, локального запуска и минимума вложений (в идеале 0 затрат). Я системный аналитик, поэтому не был готов писать приложение целиком. По моей инструкции вы сможете сделать подобный конвейер своими силами даже без навыков кодинга.

https://habr.com/ru/companies/alfa/articles/909498/

#whisper #nemo #ollama #gemma #obsidian #транскрибация #диаризация #саммари #саммаризация #расшифровка_аудио

#whisper #nemo #ollama #gemma #obsidian #транскрибация