#обработка_аудио — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #обработка_аудио, aggregated by home.social.
-
Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts
Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации. Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам. В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.
https://habr.com/ru/articles/1014810/
#анализ_видео #Python #computer_vision #автоматизация #YouTube_Shorts #обработка_аудио #субтитры #OpenCV #Whisper #media_pipeline
-
Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts
Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации. Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам. В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.
https://habr.com/ru/articles/1014810/
#анализ_видео #Python #computer_vision #автоматизация #YouTube_Shorts #обработка_аудио #субтитры #OpenCV #Whisper #media_pipeline
-
Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts
Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации. Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам. В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.
https://habr.com/ru/articles/1014810/
#анализ_видео #Python #computer_vision #автоматизация #YouTube_Shorts #обработка_аудио #субтитры #OpenCV #Whisper #media_pipeline
-
Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts
Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации. Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам. В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.
https://habr.com/ru/articles/1014810/
#анализ_видео #Python #computer_vision #автоматизация #YouTube_Shorts #обработка_аудио #субтитры #OpenCV #Whisper #media_pipeline
-
Часть 3: Архитектура нейросети для распознавания голосовых команд
def get_features_all(y, sr): """ Получаем различные параметры аудио которые в сумме дадут уникальный набор признаков """ # Частота цветности chst = librosa.feature.chroma_stft(y=y, sr=sr) # Среднеквадратичные колебания (энергия сигнала) rmse = librosa.feature.rms(y=y) # Пересечения нуля (частота смены знака сигнала) zcr = librosa.feature.zero_crossing_rate(y) # Центр масс звука (спектральный центр) spe_c = librosa.feature.spectral_centroid(y=y, sr=sr) # Ширина полосы частот spe_b = librosa.feature.spectral_bandwidth(y=y, sr=sr) # Спектральный спад частоты rol = librosa.feature.spectral_rolloff(y=y, sr=sr) # Значимые для обработки частоты (MFCC) mfcc = librosa.feature.mfcc(y=y, sr=SR, n_mfcc=50, n_mels=50, hop_length=1024) return chst, rmse, zcr, spe_c, spe_b, rol, mfcc
https://habr.com/ru/articles/1005320/
#искусственный_интеллект #исследование #исходный_код #нейронные_сети #CNN #распознавание_голоса #обработка_аудио #умный_дом #Python #MFCC
-
Как мы научились определять продвинутые автоответчики
Год назад мы начали использовать ASR для обработки записей телефонных звонков. TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper. Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче. На практике всё оказалось сильно сложнее. Мы работаем с телефонными розыгрышами. Записи стерео: слева абонент, справа оператор. Оператор - это заранее подготовленная аудиозапись. Первые версии системы выглядели очевидно: если абонент говорит что-то вроде «абонент сейчас недоступен», «оставьте сообщение», «говорит голосовой помощник» - это автоответчик. Так мы и начали.
https://habr.com/ru/articles/996044/
#детекция_автоответчиков #ASR #распознавание_речи #диалоговые_системы #скоринговая_модель #машинное_обучение #обработка_аудио
-
Как мы научились определять продвинутые автоответчики
Год назад мы начали использовать ASR для обработки записей телефонных звонков. TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper. Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче. На практике всё оказалось сильно сложнее. Мы работаем с телефонными розыгрышами. Записи стерео: слева абонент, справа оператор. Оператор - это заранее подготовленная аудиозапись. Первые версии системы выглядели очевидно: если абонент говорит что-то вроде «абонент сейчас недоступен», «оставьте сообщение», «говорит голосовой помощник» - это автоответчик. Так мы и начали.
https://habr.com/ru/articles/996044/
#детекция_автоответчиков #ASR #распознавание_речи #диалоговые_системы #скоринговая_модель #машинное_обучение #обработка_аудио
-
Как мы научились определять продвинутые автоответчики
Год назад мы начали использовать ASR для обработки записей телефонных звонков. TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper. Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче. На практике всё оказалось сильно сложнее. Мы работаем с телефонными розыгрышами. Записи стерео: слева абонент, справа оператор. Оператор - это заранее подготовленная аудиозапись. Первые версии системы выглядели очевидно: если абонент говорит что-то вроде «абонент сейчас недоступен», «оставьте сообщение», «говорит голосовой помощник» - это автоответчик. Так мы и начали.
https://habr.com/ru/articles/996044/
#детекция_автоответчиков #ASR #распознавание_речи #диалоговые_системы #скоринговая_модель #машинное_обучение #обработка_аудио
-
Как мы научились определять продвинутые автоответчики
Год назад мы начали использовать ASR для обработки записей телефонных звонков. TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper. Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче. На практике всё оказалось сильно сложнее. Мы работаем с телефонными розыгрышами. Записи стерео: слева абонент, справа оператор. Оператор - это заранее подготовленная аудиозапись. Первые версии системы выглядели очевидно: если абонент говорит что-то вроде «абонент сейчас недоступен», «оставьте сообщение», «говорит голосовой помощник» - это автоответчик. Так мы и начали.
https://habr.com/ru/articles/996044/
#детекция_автоответчиков #ASR #распознавание_речи #диалоговые_системы #скоринговая_модель #машинное_обучение #обработка_аудио
-
Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?
Мультимодальные модели — звучит как что-то для исследовательских лабораторий и презентаций на AI-конференциях. Но на самом деле они уже работают здесь и сейчас: анализируют документы, пишут тексты, создают рекламу, генерируют видео, помогают врачам и юристам. Привет, Хабр! Это интервью с Александром Капитановым. Саша руководит исследовательскими ML-командами в Сбере. Активный контрибьютор в Open Source. А ещё он член программного комитета
https://habr.com/ru/companies/oleg-bunin/articles/914848/
#мультимодальные_модели #llm #agi #генеративный_ai #анализ_данных #chatgpt #deepseek #perplexity #обработка_аудио #генерация_видео
-
SALMONN — универсальная модель для всех типов аудиоданных
Человек без труда воспринимает речь на фоне тихой музыки и звуков окружающей среды. Более того, прямо во время разговора он может мысленно подпевать и реагировать на звуки. До недавнего времени нейросети так не умели. Одни были заточены на распознавание речи, другие — на обработку музыки, а третьи — на анализ различных звуковых событий. Всё изменилось с появлением работы китайских исследователей, создавших единую мультимодальную модель SALMONN. Это нейронная сеть с открытым исходным кодом, предназначенная для обработки аудиоданных любого типа: речи, музыки и различных звуков. В этой статье мы рассказываем об особенностях SALMONN на основе научной публикации его разработчиков. Адаптировать материал помогли наши эксперты в области обработки и синтеза речи. Перевод и разбор препринта о SALMONN выполнен исследователем лаборатории больших данных и статистики компании «Криптонит» Анной Холькиной. Ключевой идеей проекта SALMONN стала интеграция большой языковой модели (LLM) с двумя энкодерами: одним из модели Whisper для восприятия речи и другим (BEATs) для остальных звуков. В качестве предобученной LLM используется Vicuna, созданная на основе модели LLaMA с 13 миллиардами параметров и обученная на данных лучших диалогов с ChatGPT (также авторы SALMONN выпустили версию своей модели на основе Vicuna с 7 миллиардами параметров).
https://habr.com/ru/companies/kryptonite/articles/785584/
#языковые_модели #нейросети #обработка_аудио #мультимодальные_модели #llm #SALMONN #распознавание_речи #анализ_данных