home.social

#обработка_аудио — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #обработка_аудио, aggregated by home.social.

  1. Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

    Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации. Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам. В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.

    habr.com/ru/articles/1014810/

    #анализ_видео #Python #computer_vision #автоматизация #YouTube_Shorts #обработка_аудио #субтитры #OpenCV #Whisper #media_pipeline

  2. Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

    Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации. Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам. В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.

    habr.com/ru/articles/1014810/

    #анализ_видео #Python #computer_vision #автоматизация #YouTube_Shorts #обработка_аудио #субтитры #OpenCV #Whisper #media_pipeline

  3. Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

    Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации. Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам. В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.

    habr.com/ru/articles/1014810/

    #анализ_видео #Python #computer_vision #автоматизация #YouTube_Shorts #обработка_аудио #субтитры #OpenCV #Whisper #media_pipeline

  4. Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

    Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации. Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам. В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.

    habr.com/ru/articles/1014810/

    #анализ_видео #Python #computer_vision #автоматизация #YouTube_Shorts #обработка_аудио #субтитры #OpenCV #Whisper #media_pipeline

  5. Часть 3: Архитектура нейросети для распознавания голосовых команд

    def get_features_all(y, sr): """ Получаем различные параметры аудио которые в сумме дадут уникальный набор признаков """ # Частота цветности chst = librosa.feature.chroma_stft(y=y, sr=sr) # Среднеквадратичные колебания (энергия сигнала) rmse = librosa.feature.rms(y=y) # Пересечения нуля (частота смены знака сигнала) zcr = librosa.feature.zero_crossing_rate(y) # Центр масс звука (спектральный центр) spe_c = librosa.feature.spectral_centroid(y=y, sr=sr) # Ширина полосы частот spe_b = librosa.feature.spectral_bandwidth(y=y, sr=sr) # Спектральный спад частоты rol = librosa.feature.spectral_rolloff(y=y, sr=sr) # Значимые для обработки частоты (MFCC) mfcc = librosa.feature.mfcc(y=y, sr=SR, n_mfcc=50, n_mels=50, hop_length=1024) return chst, rmse, zcr, spe_c, spe_b, rol, mfcc

    habr.com/ru/articles/1005320/

    #искусственный_интеллект #исследование #исходный_код #нейронные_сети #CNN #распознавание_голоса #обработка_аудио #умный_дом #Python #MFCC

  6. Как мы научились определять продвинутые автоответчики

    Год назад мы начали использовать ASR для обработки записей телефонных звонков. TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper. Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче. На практике всё оказалось сильно сложнее. Мы работаем с телефонными розыгрышами. Записи стерео: слева абонент, справа оператор. Оператор - это заранее подготовленная аудиозапись. Первые версии системы выглядели очевидно: если абонент говорит что-то вроде «абонент сейчас недоступен», «оставьте сообщение», «говорит голосовой помощник» - это автоответчик. Так мы и начали.

    habr.com/ru/articles/996044/

    #детекция_автоответчиков #ASR #распознавание_речи #диалоговые_системы #скоринговая_модель #машинное_обучение #обработка_аудио

  7. Как мы научились определять продвинутые автоответчики

    Год назад мы начали использовать ASR для обработки записей телефонных звонков. TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper. Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче. На практике всё оказалось сильно сложнее. Мы работаем с телефонными розыгрышами. Записи стерео: слева абонент, справа оператор. Оператор - это заранее подготовленная аудиозапись. Первые версии системы выглядели очевидно: если абонент говорит что-то вроде «абонент сейчас недоступен», «оставьте сообщение», «говорит голосовой помощник» - это автоответчик. Так мы и начали.

    habr.com/ru/articles/996044/

    #детекция_автоответчиков #ASR #распознавание_речи #диалоговые_системы #скоринговая_модель #машинное_обучение #обработка_аудио

  8. Как мы научились определять продвинутые автоответчики

    Год назад мы начали использовать ASR для обработки записей телефонных звонков. TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper. Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче. На практике всё оказалось сильно сложнее. Мы работаем с телефонными розыгрышами. Записи стерео: слева абонент, справа оператор. Оператор - это заранее подготовленная аудиозапись. Первые версии системы выглядели очевидно: если абонент говорит что-то вроде «абонент сейчас недоступен», «оставьте сообщение», «говорит голосовой помощник» - это автоответчик. Так мы и начали.

    habr.com/ru/articles/996044/

    #детекция_автоответчиков #ASR #распознавание_речи #диалоговые_системы #скоринговая_модель #машинное_обучение #обработка_аудио

  9. Как мы научились определять продвинутые автоответчики

    Год назад мы начали использовать ASR для обработки записей телефонных звонков. TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper. Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче. На практике всё оказалось сильно сложнее. Мы работаем с телефонными розыгрышами. Записи стерео: слева абонент, справа оператор. Оператор - это заранее подготовленная аудиозапись. Первые версии системы выглядели очевидно: если абонент говорит что-то вроде «абонент сейчас недоступен», «оставьте сообщение», «говорит голосовой помощник» - это автоответчик. Так мы и начали.

    habr.com/ru/articles/996044/

    #детекция_автоответчиков #ASR #распознавание_речи #диалоговые_системы #скоринговая_модель #машинное_обучение #обработка_аудио

  10. Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?

    Мультимодальные модели — звучит как что-то для исследовательских лабораторий и презентаций на AI-конференциях. Но на самом деле они уже работают здесь и сейчас: анализируют документы, пишут тексты, создают рекламу, генерируют видео, помогают врачам и юристам. Привет, Хабр! Это интервью с Александром Капитановым. Саша руководит исследовательскими ML-командами в Сбере. Активный контрибьютор в Open Source. А ещё он член программного комитета

    habr.com/ru/companies/oleg-bun

    #мультимодальные_модели #llm #agi #генеративный_ai #анализ_данных #chatgpt #deepseek #perplexity #обработка_аудио #генерация_видео

  11. SALMONN — универсальная модель для всех типов аудиоданных

    Человек без труда воспринимает речь на фоне тихой музыки и звуков окружающей среды. Более того, прямо во время разговора он может мысленно подпевать и реагировать на звуки. До недавнего времени нейросети так не умели. Одни были заточены на распознавание речи, другие — на обработку музыки, а третьи — на анализ различных звуковых событий. Всё изменилось с появлением работы китайских исследователей, создавших единую мультимодальную модель SALMONN. Это нейронная сеть с открытым исходным кодом, предназначенная для обработки аудиоданных любого типа: речи, музыки и различных звуков. В этой статье мы рассказываем об особенностях SALMONN на основе научной публикации его разработчиков. Адаптировать материал помогли наши эксперты в области обработки и синтеза речи. Перевод и разбор препринта о SALMONN выполнен исследователем лаборатории больших данных и статистики компании «Криптонит» Анной Холькиной. Ключевой идеей проекта SALMONN стала интеграция большой языковой модели (LLM) с двумя энкодерами: одним из модели Whisper для восприятия речи и другим (BEATs) для остальных звуков. В качестве предобученной LLM используется Vicuna, созданная на основе модели LLaMA с 13 миллиардами параметров и обученная на данных лучших диалогов с ChatGPT (также авторы SALMONN выпустили версию своей модели на основе Vicuna с 7 миллиардами параметров).

    habr.com/ru/companies/kryptoni

    #языковые_модели #нейросети #обработка_аудио #мультимодальные_модели #llm #SALMONN #распознавание_речи #анализ_данных