home.social

#диктофон — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #диктофон, aggregated by home.social.

  1. „Просто используй Docker“ — мой путь от Whisper к WhisperX

    Несколько недель назад я опубликовал статью о том, как превратить обычный диктофон в инструмент для расшифровки речи с помощью OpenAI Whisper . Идея была создать бесплатную и приватную систему ИИ диктофона, которая избавляет от необходимости переслушивать аудиозаписи лекций или выступлений. Тогда статья нашла своего читателя, собрав 140 закладок. В процессе настройки я боролся с несовместимостью библиотек, подбирал нужные версии драйверов и вручную собирал рабочее окружение. В комментариях мне справедливо заметили: «Вместо всей этой возни можно было найти готовый Docker-контейнер и поднять всё одной командой». Звучало логично, и я с энтузиазмом принял этот совет. Я ведь верю людям в интернете. Новая идея - не просто расшифровывать речь, а разделять её по голосам - как на совещании или встрече. Это называется диаризацией, и для неё существует продвинутая версия - WhisperX. Цель была проста - получить на выходе не сплошное полотно текста, а готовый протокол встречи, где понятно, кто и что сказал. Казалось, с Docker это будет легко. Но я заблуждался. Путь «в одну команду» оказался полон сюрпризов - всё сыпалось одно за другим: то скрипт не видел мои файлы, то не мог получить к ним доступ, то просто зависал без объяснения причин. Внутри этой «волшебной упаковки» царил хаос, и мне приходилось разбираться, почему она не хочет работать. Но когда я всё починил и заставил систему работать, результат превзошёл мои ожидания. Новейшая модель large-v3 в связке с диаризацией выдала не просто текст, а структурированный диалог. Это был настолько лучший результат, что я смог передать его большой языковой модели (LLM) и получить глубокий анализ одной очень важной для меня личной ситуации - под таким углом, о котором я сам бы никогда не задумался. Именно в этот момент мой скепсис в отношении «умных ИИ-диктофонов», которые я критиковал в первой статье, сильно пошатнулся. Скорее всего их сила не в тотальной записи, а в возможности превращать хаос в структурированные данные, готовые для анализа. В этой статье я хочу поделиться своим опытом прохождения этого квеста, показать, как обойти все скрытые сложности, и дать вам готовые инструкции, чтобы вы тоже могли превращать свои записи в осмысленные диалоги. Весь код выложен на Гитхаб.

    habr.com/ru/articles/948894/

    #диктофон #whisper #whisperx #rtx_5060 #cuda #расшифровка_аудио

  2. Как локально и бесплатно распознать текст лекции или совещания и делать это регулярно

    В новостях всё чаще говорят об «ИИ‑диктофонах» — гаджетах, которые записывают каждый ваш разговор в течение дня, отправляют аудио в облако, превращают его в текст и даже готовят краткую сводку по итогам. Звучит футуристично, но такие решения стоят дорого, требуют постоянной подписки и вызывают вопросы о приватности. Лично мне идея тотальной записи кажется избыточной. Зато куда практичнее другая задача: получить точную текстовую расшифровку лекции, доклада или публичного выступления. Чтобы потом не переслушивать часы аудио, а быстро найти нужную цитату или мысль простым поиском по тексту. В этой статье я покажу, как построить такую систему без платных подписок и полностью под вашим контролем. Всё, что нужно — обычный диктофон за 1–3 тыс. рублей или даже просто приложение на телефоне — тогда затраты вообще равны нулю, и набор бесплатных, открытых программ, которые работают на вашем компьютере. Я купил диктофон для теста и поделюсь результатами. Сердцем решения станет OpenAI Whisper — мощная технология распознавания речи от создателей ChatGPT. Главное её преимущество — она может работать полностью автономно на вашем ПК, не отправляя никуда ваши данные. К тому же Whisper распространяется как open‑source: исходный код и модели доступны бесплатно — вы можете скачать, использовать и при необходимости даже модифицировать. Мои скрипты выложены на GitHub. Кто что сказал

    habr.com/ru/articles/942232/

    #диктофон #whisper #Whisperx #openai #rtx_5060 #ngc

  3. #iOS - кусок тупого говна с даталоком.

    #Заметки - хер сделаешь массовый экспорт. Промышленно использовать - никак, если их потом обрабатывать.

    #Диктофон - та же херня. При подключении телефона к компу их не видно. Какую-то sqlite базу данных в приложухе пятёрочки видно, а свои собственные записи не видно.

    И как мне надиктовывать заметки, пока я за рулём, чтобы их потом прогнать через распознавание речи и запихать в #входящик в #Obsidian для обработки?

  4. Путешествия и диктофон

    Я люблю путешествовать в бэкпэк формате и люблю фотографировать природу и жизнь, вот примерно так: Кавказ Осетия Ингушетия Чечня Дагестан 10_2023 И у меня есть 2 проблемы с этим. Первая - отсутствие на рынке удобного камерофона для путешествий. Эту проблему я уже описывал в статье на Хабре habr.com/ru/articles/780766/ Вторая - отсутствие удобного тулза для создания отчета по путешествию. Писать отчеты - это очень правильно, иначе по прошествии 10-15 лет коллекции фото превращаются просто в наборы красивых картинок так как фактические детали, эмоции стираются из памяти. Я сильно жалею, что частенько ленился писать отчеты. В оправдание могу сказать, что написать вручную отчет - это непростая работа. Нужно набить текст, вставить геоточки, выбрать и вставить фото. Вот пример моего давнего отчета docs.google.com/document/d/1Rk . На буквы и геоточки сил хватило, а вот вставить фото - уже нет. С фотками получается лучше, например, вот docs.google.com/document/d/1y- , но там уже страдает объем текста и до геоточек руки не дошли. Отдельная печаль - делать отчеты трэвел блогерам, которые занимаются этим профессионально. У них объем работы и требования к качеству отчета больше.

    habr.com/ru/articles/876590/

    #путешествия #диктофон #отчеты #программа

  5. Диктофон и медицина

    Мы занимаемся разработкой и производством диктофонов для безопасности Edic-mini и аудиобейджей “Свидетель” для улучшения качества работы с клиентами (запись общения с клиентами, далее перевод записи в текст и речевая аналитика). Сейчас, с развитием технологии ИИ, сфера применения диктофонов расширяется и я уже писал об этом на Хабре habr.com/ru/articles/851622/ и в этой статье я хотел бы остановиться на применении диктофона в медицине. Как обычно, все мои идеи базируются на реальных моих потребностях.

    habr.com/ru/articles/876326/

    #диктофон #медицина #диагноз #аналитика #запись #распознавание_речи

  6. АудиоАрхив жизни, ИИ и речевая аналитика

    Сегодня пятница и снова с вами выпуск бредовых идей для подумать на выходных :-). В этом посте я хотел бы поднять вопрос недостатка программных средств для анализа и обработки аудиозаписей. Аудиозапись сейчас переживает ренессанс, связанный с развитием технологии распознавания речи......

    habr.com/ru/articles/851622/

    #диктофон #аудиозапись #архив #ии #аналитика