#диктофон — Public Fediverse posts on home.social

Habr @[email protected] · 2025-09-23 · 00:42 UTC

„Просто используй Docker“ — мой путь от Whisper к WhisperX

Несколько недель назад я опубликовал статью о том, как превратить обычный диктофон в инструмент для расшифровки речи с помощью OpenAI Whisper . Идея была создать бесплатную и приватную систему ИИ диктофона, которая избавляет от необходимости переслушивать аудиозаписи лекций или выступлений. Тогда статья нашла своего читателя, собрав 140 закладок. В процессе настройки я боролся с несовместимостью библиотек, подбирал нужные версии драйверов и вручную собирал рабочее окружение. В комментариях мне справедливо заметили: «Вместо всей этой возни можно было найти готовый Docker-контейнер и поднять всё одной командой». Звучало логично, и я с энтузиазмом принял этот совет. Я ведь верю людям в интернете. Новая идея - не просто расшифровывать речь, а разделять её по голосам - как на совещании или встрече. Это называется диаризацией, и для неё существует продвинутая версия - WhisperX. Цель была проста - получить на выходе не сплошное полотно текста, а готовый протокол встречи, где понятно, кто и что сказал. Казалось, с Docker это будет легко. Но я заблуждался. Путь «в одну команду» оказался полон сюрпризов - всё сыпалось одно за другим: то скрипт не видел мои файлы, то не мог получить к ним доступ, то просто зависал без объяснения причин. Внутри этой «волшебной упаковки» царил хаос, и мне приходилось разбираться, почему она не хочет работать. Но когда я всё починил и заставил систему работать, результат превзошёл мои ожидания. Новейшая модель large-v3 в связке с диаризацией выдала не просто текст, а структурированный диалог. Это был настолько лучший результат, что я смог передать его большой языковой модели (LLM) и получить глубокий анализ одной очень важной для меня личной ситуации - под таким углом, о котором я сам бы никогда не задумался. Именно в этот момент мой скепсис в отношении «умных ИИ-диктофонов», которые я критиковал в первой статье, сильно пошатнулся. Скорее всего их сила не в тотальной записи, а в возможности превращать хаос в структурированные данные, готовые для анализа. В этой статье я хочу поделиться своим опытом прохождения этого квеста, показать, как обойти все скрытые сложности, и дать вам готовые инструкции, чтобы вы тоже могли превращать свои записи в осмысленные диалоги. Весь код выложен на Гитхаб.

https://habr.com/ru/articles/948894/

#диктофон #whisper #whisperx #rtx_5060 #cuda #расшифровка_аудио

#расшифровка_аудио #cuda #rtx_5060 #whisperx #whisper #диктофон

Habr @[email protected] · 2025-09-02 · 00:42 UTC

Как локально и бесплатно распознать текст лекции или совещания и делать это регулярно

В новостях всё чаще говорят об «ИИ‑диктофонах» — гаджетах, которые записывают каждый ваш разговор в течение дня, отправляют аудио в облако, превращают его в текст и даже готовят краткую сводку по итогам. Звучит футуристично, но такие решения стоят дорого, требуют постоянной подписки и вызывают вопросы о приватности. Лично мне идея тотальной записи кажется избыточной. Зато куда практичнее другая задача: получить точную текстовую расшифровку лекции, доклада или публичного выступления. Чтобы потом не переслушивать часы аудио, а быстро найти нужную цитату или мысль простым поиском по тексту. В этой статье я покажу, как построить такую систему без платных подписок и полностью под вашим контролем. Всё, что нужно — обычный диктофон за 1–3 тыс. рублей или даже просто приложение на телефоне — тогда затраты вообще равны нулю, и набор бесплатных, открытых программ, которые работают на вашем компьютере. Я купил диктофон для теста и поделюсь результатами. Сердцем решения станет OpenAI Whisper — мощная технология распознавания речи от создателей ChatGPT. Главное её преимущество — она может работать полностью автономно на вашем ПК, не отправляя никуда ваши данные. К тому же Whisper распространяется как open‑source: исходный код и модели доступны бесплатно — вы можете скачать, использовать и при необходимости даже модифицировать. Мои скрипты выложены на GitHub. Кто что сказал

https://habr.com/ru/articles/942232/

#диктофон #whisper #Whisperx #openai #rtx_5060 #ngc

#ngc #rtx_5060 #openai #whisperx #whisper #диктофон

Ambassador Tablicek @[email protected] · 2025-05-01 · 18:18 UTC

Сказ о том, как я в холодильнике порядок наводил. Разумеется с нейронками.

https://dzen.ru/a/aBOooPV5_mqx03wu

#нейронки #local_llm #llm #еда #продукты #просрочка #бабло #диктофон

#нейронки #local_llm #llm #еда #продукты #просрочка

Ambassador Tablicek @[email protected] · 2025-03-29 · 01:20 UTC

#iOS - кусок тупого говна с даталоком.

#Заметки - хер сделаешь массовый экспорт. Промышленно использовать - никак, если их потом обрабатывать.

#Диктофон - та же херня. При подключении телефона к компу их не видно. Какую-то sqlite базу данных в приложухе пятёрочки видно, а свои собственные записи не видно.

И как мне надиктовывать заметки, пока я за рулём, чтобы их потом прогнать через распознавание речи и запихать в #входящик в #Obsidian для обработки?

#ios #заметки #диктофон #входящик #obsidian

Habr @[email protected] · 2025-01-25 · 13:52 UTC

Путешествия и диктофон

Я люблю путешествовать в бэкпэк формате и люблю фотографировать природу и жизнь, вот примерно так: Кавказ Осетия Ингушетия Чечня Дагестан 10_2023 И у меня есть 2 проблемы с этим. Первая - отсутствие на рынке удобного камерофона для путешествий. Эту проблему я уже описывал в статье на Хабре https://habr.com/ru/articles/780766/ Вторая - отсутствие удобного тулза для создания отчета по путешествию. Писать отчеты - это очень правильно, иначе по прошествии 10-15 лет коллекции фото превращаются просто в наборы красивых картинок так как фактические детали, эмоции стираются из памяти. Я сильно жалею, что частенько ленился писать отчеты. В оправдание могу сказать, что написать вручную отчет - это непростая работа. Нужно набить текст, вставить геоточки, выбрать и вставить фото. Вот пример моего давнего отчета https://docs.google.com/document/d/1RkV8SVbTXE4UqNTjI5dwm5OFjDSCulUbtBBTKmGfyV0/edit?usp=sharing . На буквы и геоточки сил хватило, а вот вставить фото - уже нет. С фотками получается лучше, например, вот https://docs.google.com/document/d/1y-K4bnfZJ3tTm2f63xcMiJFizJCWqKdgbiwXuYgjK0I/edit?usp=sharing , но там уже страдает объем текста и до геоточек руки не дошли. Отдельная печаль - делать отчеты трэвел блогерам, которые занимаются этим профессионально. У них объем работы и требования к качеству отчета больше.

https://habr.com/ru/articles/876590/

#путешествия #диктофон #отчеты #программа

#программа #отчеты #диктофон #путешествия

Habr @[email protected] · 2025-01-24 · 11:22 UTC

Диктофон и медицина

Мы занимаемся разработкой и производством диктофонов для безопасности Edic-mini и аудиобейджей “Свидетель” для улучшения качества работы с клиентами (запись общения с клиентами, далее перевод записи в текст и речевая аналитика). Сейчас, с развитием технологии ИИ, сфера применения диктофонов расширяется и я уже писал об этом на Хабре https://habr.com/ru/articles/851622/ и в этой статье я хотел бы остановиться на применении диктофона в медицине. Как обычно, все мои идеи базируются на реальных моих потребностях.

https://habr.com/ru/articles/876326/

#диктофон #медицина #диагноз #аналитика #запись #распознавание_речи

Habr @[email protected] · 2024-10-18 · 11:12 UTC

АудиоАрхив жизни, ИИ и речевая аналитика

Сегодня пятница и снова с вами выпуск бредовых идей для подумать на выходных :-). В этом посте я хотел бы поднять вопрос недостатка программных средств для анализа и обработки аудиозаписей. Аудиозапись сейчас переживает ренессанс, связанный с развитием технологии распознавания речи......

https://habr.com/ru/articles/851622/

#диктофон #аудиозапись #архив #ии #аналитика