#whisperx — Public Fediverse posts on home.social

Habr @[email protected] · 2026-02-24 · 16:32 UTC

Large-v3 на Ryzen 5500U: как я оцифровал архив диктофонных записей без GPU и облаков

Как превратить обычный ноутбук в автономную станцию расшифровки, если у вас нет мощной GPU, а облака не подходят по цене или приватности? В статье делюсь опытом создания локального конвейера на базе WhisperX для обработки сотен часов аудиоархива. О чем пойдет речь: Large-v3 на CPU : почему 40 ГБ RAM важнее видеокарты и как добиться стабильной работы без «замерзания» PyTorch. От скрипта к приложению : как с помощью «вайб-кодинга» и Google Antigravity (Gemini 3.0) превратить одиночный скрипт в модульный менеджер очередей с Drag-and-Drop и пакетной обработкой. Техническое «мясо» : установка через uv в один клик, борьба с конфликтами OpenMP и система пресетов (от Turbo до Russian Expert). Реальные цифры : нагрузка на железо, температуры и честная скорость обработки на Ryzen 5500U. Разбираем, как современные LLM позволяют собирать сложные инженерные инструменты «над» ML-моделями, даже не погружаясь в их низкоуровневую реализацию. Репозиторий проекта : whisperx-batch-gui

https://habr.com/ru/articles/1003200/

#WhisperX #Python #Транскрибация #Искусственный_интеллект #Машинное_обучение #LLM #Gradio #Open_Source #Автоматизация #Ryzen

#ryzen #автоматизация #open_source #gradio #llm #машинное_обучение

Habr @[email protected] · 2026-02-24 · 16:32 UTC

Large-v3 на Ryzen 5500U: как я оцифровал архив диктофонных записей без GPU и облаков

Как превратить обычный ноутбук в автономную станцию расшифровки, если у вас нет мощной GPU, а облака не подходят по цене или приватности? В статье делюсь опытом создания локального конвейера на базе WhisperX для обработки сотен часов аудиоархива. О чем пойдет речь: Large-v3 на CPU : почему 40 ГБ RAM важнее видеокарты и как добиться стабильной работы без «замерзания» PyTorch. От скрипта к приложению : как с помощью «вайб-кодинга» и Google Antigravity (Gemini 3.0) превратить одиночный скрипт в модульный менеджер очередей с Drag-and-Drop и пакетной обработкой. Техническое «мясо» : установка через uv в один клик, борьба с конфликтами OpenMP и система пресетов (от Turbo до Russian Expert). Реальные цифры : нагрузка на железо, температуры и честная скорость обработки на Ryzen 5500U. Разбираем, как современные LLM позволяют собирать сложные инженерные инструменты «над» ML-моделями, даже не погружаясь в их низкоуровневую реализацию. Репозиторий проекта : whisperx-batch-gui

https://habr.com/ru/articles/1003200/

#WhisperX #Python #Транскрибация #Искусственный_интеллект #Машинное_обучение #LLM #Gradio #Open_Source #Автоматизация #Ryzen

#ryzen #автоматизация #open_source #gradio #llm #машинное_обучение

Habr @[email protected] · 2026-02-24 · 16:32 UTC

Large-v3 на Ryzen 5500U: как я оцифровал архив диктофонных записей без GPU и облаков

Как превратить обычный ноутбук в автономную станцию расшифровки, если у вас нет мощной GPU, а облака не подходят по цене или приватности? В статье делюсь опытом создания локального конвейера на базе WhisperX для обработки сотен часов аудиоархива. О чем пойдет речь: Large-v3 на CPU : почему 40 ГБ RAM важнее видеокарты и как добиться стабильной работы без «замерзания» PyTorch. От скрипта к приложению : как с помощью «вайб-кодинга» и Google Antigravity (Gemini 3.0) превратить одиночный скрипт в модульный менеджер очередей с Drag-and-Drop и пакетной обработкой. Техническое «мясо» : установка через uv в один клик, борьба с конфликтами OpenMP и система пресетов (от Turbo до Russian Expert). Реальные цифры : нагрузка на железо, температуры и честная скорость обработки на Ryzen 5500U. Разбираем, как современные LLM позволяют собирать сложные инженерные инструменты «над» ML-моделями, даже не погружаясь в их низкоуровневую реализацию. Репозиторий проекта : whisperx-batch-gui

https://habr.com/ru/articles/1003200/

#WhisperX #Python #Транскрибация #Искусственный_интеллект #Машинное_обучение #LLM #Gradio #Open_Source #Автоматизация #Ryzen

#ryzen #автоматизация #open_source #gradio #llm #машинное_обучение

Habr @[email protected] · 2026-02-24 · 16:32 UTC

Large-v3 на Ryzen 5500U: как я оцифровал архив диктофонных записей без GPU и облаков

Как превратить обычный ноутбук в автономную станцию расшифровки, если у вас нет мощной GPU, а облака не подходят по цене или приватности? В статье делюсь опытом создания локального конвейера на базе WhisperX для обработки сотен часов аудиоархива. О чем пойдет речь: Large-v3 на CPU : почему 40 ГБ RAM важнее видеокарты и как добиться стабильной работы без «замерзания» PyTorch. От скрипта к приложению : как с помощью «вайб-кодинга» и Google Antigravity (Gemini 3.0) превратить одиночный скрипт в модульный менеджер очередей с Drag-and-Drop и пакетной обработкой. Техническое «мясо» : установка через uv в один клик, борьба с конфликтами OpenMP и система пресетов (от Turbo до Russian Expert). Реальные цифры : нагрузка на железо, температуры и честная скорость обработки на Ryzen 5500U. Разбираем, как современные LLM позволяют собирать сложные инженерные инструменты «над» ML-моделями, даже не погружаясь в их низкоуровневую реализацию. Репозиторий проекта : whisperx-batch-gui

https://habr.com/ru/articles/1003200/

#WhisperX #Python #Транскрибация #Искусственный_интеллект #Машинное_обучение #LLM #Gradio #Open_Source #Автоматизация #Ryzen

#whisperx #python #транскрибация #искусственный_интеллект #машинное_обучение #llm

Habr @[email protected] · 2025-09-23 · 00:42 UTC

„Просто используй Docker“ — мой путь от Whisper к WhisperX

Несколько недель назад я опубликовал статью о том, как превратить обычный диктофон в инструмент для расшифровки речи с помощью OpenAI Whisper . Идея была создать бесплатную и приватную систему ИИ диктофона, которая избавляет от необходимости переслушивать аудиозаписи лекций или выступлений. Тогда статья нашла своего читателя, собрав 140 закладок. В процессе настройки я боролся с несовместимостью библиотек, подбирал нужные версии драйверов и вручную собирал рабочее окружение. В комментариях мне справедливо заметили: «Вместо всей этой возни можно было найти готовый Docker-контейнер и поднять всё одной командой». Звучало логично, и я с энтузиазмом принял этот совет. Я ведь верю людям в интернете. Новая идея - не просто расшифровывать речь, а разделять её по голосам - как на совещании или встрече. Это называется диаризацией, и для неё существует продвинутая версия - WhisperX. Цель была проста - получить на выходе не сплошное полотно текста, а готовый протокол встречи, где понятно, кто и что сказал. Казалось, с Docker это будет легко. Но я заблуждался. Путь «в одну команду» оказался полон сюрпризов - всё сыпалось одно за другим: то скрипт не видел мои файлы, то не мог получить к ним доступ, то просто зависал без объяснения причин. Внутри этой «волшебной упаковки» царил хаос, и мне приходилось разбираться, почему она не хочет работать. Но когда я всё починил и заставил систему работать, результат превзошёл мои ожидания. Новейшая модель large-v3 в связке с диаризацией выдала не просто текст, а структурированный диалог. Это был настолько лучший результат, что я смог передать его большой языковой модели (LLM) и получить глубокий анализ одной очень важной для меня личной ситуации - под таким углом, о котором я сам бы никогда не задумался. Именно в этот момент мой скепсис в отношении «умных ИИ-диктофонов», которые я критиковал в первой статье, сильно пошатнулся. Скорее всего их сила не в тотальной записи, а в возможности превращать хаос в структурированные данные, готовые для анализа. В этой статье я хочу поделиться своим опытом прохождения этого квеста, показать, как обойти все скрытые сложности, и дать вам готовые инструкции, чтобы вы тоже могли превращать свои записи в осмысленные диалоги. Весь код выложен на Гитхаб.

https://habr.com/ru/articles/948894/

#диктофон #whisper #whisperx #rtx_5060 #cuda #расшифровка_аудио

#расшифровка_аудио #cuda #rtx_5060 #whisperx #whisper #диктофон

Habr @[email protected] · 2025-09-02 · 00:42 UTC

Как локально и бесплатно распознать текст лекции или совещания и делать это регулярно

В новостях всё чаще говорят об «ИИ‑диктофонах» — гаджетах, которые записывают каждый ваш разговор в течение дня, отправляют аудио в облако, превращают его в текст и даже готовят краткую сводку по итогам. Звучит футуристично, но такие решения стоят дорого, требуют постоянной подписки и вызывают вопросы о приватности. Лично мне идея тотальной записи кажется избыточной. Зато куда практичнее другая задача: получить точную текстовую расшифровку лекции, доклада или публичного выступления. Чтобы потом не переслушивать часы аудио, а быстро найти нужную цитату или мысль простым поиском по тексту. В этой статье я покажу, как построить такую систему без платных подписок и полностью под вашим контролем. Всё, что нужно — обычный диктофон за 1–3 тыс. рублей или даже просто приложение на телефоне — тогда затраты вообще равны нулю, и набор бесплатных, открытых программ, которые работают на вашем компьютере. Я купил диктофон для теста и поделюсь результатами. Сердцем решения станет OpenAI Whisper — мощная технология распознавания речи от создателей ChatGPT. Главное её преимущество — она может работать полностью автономно на вашем ПК, не отправляя никуда ваши данные. К тому же Whisper распространяется как open‑source: исходный код и модели доступны бесплатно — вы можете скачать, использовать и при необходимости даже модифицировать. Мои скрипты выложены на GitHub. Кто что сказал

https://habr.com/ru/articles/942232/

#диктофон #whisper #Whisperx #openai #rtx_5060 #ngc