#whisperx — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #whisperx, aggregated by home.social.
-
Large-v3 на Ryzen 5500U: как я оцифровал архив диктофонных записей без GPU и облаков
Как превратить обычный ноутбук в автономную станцию расшифровки, если у вас нет мощной GPU, а облака не подходят по цене или приватности? В статье делюсь опытом создания локального конвейера на базе WhisperX для обработки сотен часов аудиоархива. О чем пойдет речь: Large-v3 на CPU : почему 40 ГБ RAM важнее видеокарты и как добиться стабильной работы без «замерзания» PyTorch. От скрипта к приложению : как с помощью «вайб-кодинга» и Google Antigravity (Gemini 3.0) превратить одиночный скрипт в модульный менеджер очередей с Drag-and-Drop и пакетной обработкой. Техническое «мясо» : установка через uv в один клик, борьба с конфликтами OpenMP и система пресетов (от Turbo до Russian Expert). Реальные цифры : нагрузка на железо, температуры и честная скорость обработки на Ryzen 5500U. Разбираем, как современные LLM позволяют собирать сложные инженерные инструменты «над» ML-моделями, даже не погружаясь в их низкоуровневую реализацию. Репозиторий проекта : whisperx-batch-gui
https://habr.com/ru/articles/1003200/
#WhisperX #Python #Транскрибация #Искусственный_интеллект #Машинное_обучение #LLM #Gradio #Open_Source #Автоматизация #Ryzen
-
Large-v3 на Ryzen 5500U: как я оцифровал архив диктофонных записей без GPU и облаков
Как превратить обычный ноутбук в автономную станцию расшифровки, если у вас нет мощной GPU, а облака не подходят по цене или приватности? В статье делюсь опытом создания локального конвейера на базе WhisperX для обработки сотен часов аудиоархива. О чем пойдет речь: Large-v3 на CPU : почему 40 ГБ RAM важнее видеокарты и как добиться стабильной работы без «замерзания» PyTorch. От скрипта к приложению : как с помощью «вайб-кодинга» и Google Antigravity (Gemini 3.0) превратить одиночный скрипт в модульный менеджер очередей с Drag-and-Drop и пакетной обработкой. Техническое «мясо» : установка через uv в один клик, борьба с конфликтами OpenMP и система пресетов (от Turbo до Russian Expert). Реальные цифры : нагрузка на железо, температуры и честная скорость обработки на Ryzen 5500U. Разбираем, как современные LLM позволяют собирать сложные инженерные инструменты «над» ML-моделями, даже не погружаясь в их низкоуровневую реализацию. Репозиторий проекта : whisperx-batch-gui
https://habr.com/ru/articles/1003200/
#WhisperX #Python #Транскрибация #Искусственный_интеллект #Машинное_обучение #LLM #Gradio #Open_Source #Автоматизация #Ryzen
-
Large-v3 на Ryzen 5500U: как я оцифровал архив диктофонных записей без GPU и облаков
Как превратить обычный ноутбук в автономную станцию расшифровки, если у вас нет мощной GPU, а облака не подходят по цене или приватности? В статье делюсь опытом создания локального конвейера на базе WhisperX для обработки сотен часов аудиоархива. О чем пойдет речь: Large-v3 на CPU : почему 40 ГБ RAM важнее видеокарты и как добиться стабильной работы без «замерзания» PyTorch. От скрипта к приложению : как с помощью «вайб-кодинга» и Google Antigravity (Gemini 3.0) превратить одиночный скрипт в модульный менеджер очередей с Drag-and-Drop и пакетной обработкой. Техническое «мясо» : установка через uv в один клик, борьба с конфликтами OpenMP и система пресетов (от Turbo до Russian Expert). Реальные цифры : нагрузка на железо, температуры и честная скорость обработки на Ryzen 5500U. Разбираем, как современные LLM позволяют собирать сложные инженерные инструменты «над» ML-моделями, даже не погружаясь в их низкоуровневую реализацию. Репозиторий проекта : whisperx-batch-gui
https://habr.com/ru/articles/1003200/
#WhisperX #Python #Транскрибация #Искусственный_интеллект #Машинное_обучение #LLM #Gradio #Open_Source #Автоматизация #Ryzen
-
Large-v3 на Ryzen 5500U: как я оцифровал архив диктофонных записей без GPU и облаков
Как превратить обычный ноутбук в автономную станцию расшифровки, если у вас нет мощной GPU, а облака не подходят по цене или приватности? В статье делюсь опытом создания локального конвейера на базе WhisperX для обработки сотен часов аудиоархива. О чем пойдет речь: Large-v3 на CPU : почему 40 ГБ RAM важнее видеокарты и как добиться стабильной работы без «замерзания» PyTorch. От скрипта к приложению : как с помощью «вайб-кодинга» и Google Antigravity (Gemini 3.0) превратить одиночный скрипт в модульный менеджер очередей с Drag-and-Drop и пакетной обработкой. Техническое «мясо» : установка через uv в один клик, борьба с конфликтами OpenMP и система пресетов (от Turbo до Russian Expert). Реальные цифры : нагрузка на железо, температуры и честная скорость обработки на Ryzen 5500U. Разбираем, как современные LLM позволяют собирать сложные инженерные инструменты «над» ML-моделями, даже не погружаясь в их низкоуровневую реализацию. Репозиторий проекта : whisperx-batch-gui
https://habr.com/ru/articles/1003200/
#WhisperX #Python #Транскрибация #Искусственный_интеллект #Машинное_обучение #LLM #Gradio #Open_Source #Автоматизация #Ryzen
-
„Просто используй Docker“ — мой путь от Whisper к WhisperX
Несколько недель назад я опубликовал статью о том, как превратить обычный диктофон в инструмент для расшифровки речи с помощью OpenAI Whisper . Идея была создать бесплатную и приватную систему ИИ диктофона, которая избавляет от необходимости переслушивать аудиозаписи лекций или выступлений. Тогда статья нашла своего читателя, собрав 140 закладок. В процессе настройки я боролся с несовместимостью библиотек, подбирал нужные версии драйверов и вручную собирал рабочее окружение. В комментариях мне справедливо заметили: «Вместо всей этой возни можно было найти готовый Docker-контейнер и поднять всё одной командой». Звучало логично, и я с энтузиазмом принял этот совет. Я ведь верю людям в интернете. Новая идея - не просто расшифровывать речь, а разделять её по голосам - как на совещании или встрече. Это называется диаризацией, и для неё существует продвинутая версия - WhisperX. Цель была проста - получить на выходе не сплошное полотно текста, а готовый протокол встречи, где понятно, кто и что сказал. Казалось, с Docker это будет легко. Но я заблуждался. Путь «в одну команду» оказался полон сюрпризов - всё сыпалось одно за другим: то скрипт не видел мои файлы, то не мог получить к ним доступ, то просто зависал без объяснения причин. Внутри этой «волшебной упаковки» царил хаос, и мне приходилось разбираться, почему она не хочет работать. Но когда я всё починил и заставил систему работать, результат превзошёл мои ожидания. Новейшая модель large-v3 в связке с диаризацией выдала не просто текст, а структурированный диалог. Это был настолько лучший результат, что я смог передать его большой языковой модели (LLM) и получить глубокий анализ одной очень важной для меня личной ситуации - под таким углом, о котором я сам бы никогда не задумался. Именно в этот момент мой скепсис в отношении «умных ИИ-диктофонов», которые я критиковал в первой статье, сильно пошатнулся. Скорее всего их сила не в тотальной записи, а в возможности превращать хаос в структурированные данные, готовые для анализа. В этой статье я хочу поделиться своим опытом прохождения этого квеста, показать, как обойти все скрытые сложности, и дать вам готовые инструкции, чтобы вы тоже могли превращать свои записи в осмысленные диалоги. Весь код выложен на Гитхаб.
https://habr.com/ru/articles/948894/
#диктофон #whisper #whisperx #rtx_5060 #cuda #расшифровка_аудио
-
Как локально и бесплатно распознать текст лекции или совещания и делать это регулярно
В новостях всё чаще говорят об «ИИ‑диктофонах» — гаджетах, которые записывают каждый ваш разговор в течение дня, отправляют аудио в облако, превращают его в текст и даже готовят краткую сводку по итогам. Звучит футуристично, но такие решения стоят дорого, требуют постоянной подписки и вызывают вопросы о приватности. Лично мне идея тотальной записи кажется избыточной. Зато куда практичнее другая задача: получить точную текстовую расшифровку лекции, доклада или публичного выступления. Чтобы потом не переслушивать часы аудио, а быстро найти нужную цитату или мысль простым поиском по тексту. В этой статье я покажу, как построить такую систему без платных подписок и полностью под вашим контролем. Всё, что нужно — обычный диктофон за 1–3 тыс. рублей или даже просто приложение на телефоне — тогда затраты вообще равны нулю, и набор бесплатных, открытых программ, которые работают на вашем компьютере. Я купил диктофон для теста и поделюсь результатами. Сердцем решения станет OpenAI Whisper — мощная технология распознавания речи от создателей ChatGPT. Главное её преимущество — она может работать полностью автономно на вашем ПК, не отправляя никуда ваши данные. К тому же Whisper распространяется как open‑source: исходный код и модели доступны бесплатно — вы можете скачать, использовать и при необходимости даже модифицировать. Мои скрипты выложены на GitHub. Кто что сказал
-
It appears that #whisperx performs better than #openai #whisper and #fasterwhisper for #ai #transcription https://amgadhasan.substack.com/p/sota-asr-tooling-long-form-transcription