#транскрипция — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #транскрипция, aggregated by home.social.
-
Yttri vs Альтернативы — без религиозных войн
Yttri часто сравнивают с Notion , Obsidian , ChatGPT и облачными сервисами транскрипции - и это логично. В этой статье я разбираю, где эти инструменты реально выигрывают, а где упираются в ограничения: интернет, приватность, стоимость, разрозненность данных и «проект по настройке плагинов». Сравнение без холиваров : облачные workspace ( Notion / Coda / Confluence ), локальные конструкторы ( Obsidian / Logseq / Joplin ), standalone AI-чаты ( ChatGPT / Claude / Gemini ) и транскрипция как сервис ( Otter / Whisper API / Trint ). Плюс - почему Yttri решает другой класс задач: единый локальный контур (заметки + почта + календарь + задачи + финансы + встречи), офлайн-режим и AI внутри пространства ( RAG + tool calling + локальные модели ). Если вы выбираете «что взять под конкретный сценарий» — эта статья сэкономит время.
https://habr.com/ru/articles/1001298/
#Yttri #Obsidian #Notion #локальные_данные #офлайн_работа #ассистент #транскрипция #приватность #заметки #задачи
-
Обзор лучших API для распознавания речи 2026
Всем снова привет! В прошлом году мы сравнивали решения для транскрибации речи, и с тех пор многое изменилось. Большинство провайдеров выпустили новые модели, много у кого появились новые фичи, и я решил обновить статью. Если вы - бизнес и вам нужен надежный API, или если вы просто энтузиаст, и вам интересно подобрать решение для себя, добро пожаловать!
https://habr.com/ru/articles/993786/
#транскрибация #транскрибация_звонков #распознавание_речи #api #ai #диаризация #elevenlabs #assemblyai #nexara #транскрипция
-
Обзор лучших API для распознавания речи 2026
Всем снова привет! В прошлом году мы сравнивали решения для транскрибации речи, и с тех пор многое изменилось. Большинство провайдеров выпустили новые модели, много у кого появились новые фичи, и я решил обновить статью. Если вы - бизнес и вам нужен надежный API, или если вы просто энтузиаст, и вам интересно подобрать решение для себя, добро пожаловать!
https://habr.com/ru/articles/993786/
#транскрибация #транскрибация_звонков #распознавание_речи #api #ai #диаризация #elevenlabs #assemblyai #nexara #транскрипция
-
Обзор лучших API для распознавания речи 2026
Всем снова привет! В прошлом году мы сравнивали решения для транскрибации речи, и с тех пор многое изменилось. Большинство провайдеров выпустили новые модели, много у кого появились новые фичи, и я решил обновить статью. Если вы - бизнес и вам нужен надежный API, или если вы просто энтузиаст, и вам интересно подобрать решение для себя, добро пожаловать!
https://habr.com/ru/articles/993786/
#транскрибация #транскрибация_звонков #распознавание_речи #api #ai #диаризация #elevenlabs #assemblyai #nexara #транскрипция
-
Обзор лучших API для распознавания речи 2026
Всем снова привет! В прошлом году мы сравнивали решения для транскрибации речи, и с тех пор многое изменилось. Большинство провайдеров выпустили новые модели, много у кого появились новые фичи, и я решил обновить статью. Если вы - бизнес и вам нужен надежный API, или если вы просто энтузиаст, и вам интересно подобрать решение для себя, добро пожаловать!
https://habr.com/ru/articles/993786/
#транскрибация #транскрибация_звонков #распознавание_речи #api #ai #диаризация #elevenlabs #assemblyai #nexara #транскрипция
-
Whisper больше не нужен? Обзор VibeVoice ASR от Microsoft — часовая транскрипция, диаризация, hotwords и портативка
Всем привет! Команда Microsoft Research выложила в открытый доступ VibeVoice-ASR — нейросетевую модель для распознавания речи с диаризацией (разделением) спикеров. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.
https://habr.com/ru/articles/992364/
#ASR #speechtotext #распознавание_речи #Microsoft #нейросети #машинное_обучение #open_source #транскрипция #диаризация #портативная_версия
-
Как я сделал виджет видеозвонков для сайтов с транскрипцией речи в реальном времени
Я давно увлекаюсь и изучаю технологии WebRTC. Устанавливал для клиентов множество WebRTC медиа серверов и кастомизировал их. Но постоянно не хватало гибкости. В итоге обнаружил чистую реализацию WebRTC на Golang, которая умеет и MESH, и SFU. Сейчас буду рассказывать, что удалось разработать и в чем польза.
https://habr.com/ru/articles/988974/
#WebRTC #Pion #Golang #SFU #Видеозвонки #Транскрипция #realtime #Виджет #Websocket
-
Транскрипция речи. Офлайн и без ограничений
Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными. Сегодня расскажу, как мы прокачали нашу транскрипцию речи , и почему это может пригодиться вам. Наш продукт Lingvanex Speech Recognition уже сейчас даёт результат уровня Whisper Large v3, а по ряду задач — даже превосходит его:
https://habr.com/ru/articles/917152/
#speechtotext #speech_recognition #audio_to_text #транскрипция #транскрибация_звонков #анализ_звонков #распознавание_речи #речь_в_текст #аудио_в_текст #speech_analytics
-
Транскрипция речи. Офлайн и без ограничений
Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными. Сегодня расскажу, как мы прокачали нашу транскрипцию речи , и почему это может пригодиться вам. Наш продукт Lingvanex Speech Recognition уже сейчас даёт результат уровня Whisper Large v3, а по ряду задач — даже превосходит его:
https://habr.com/ru/articles/917152/
#speechtotext #speech_recognition #audio_to_text #транскрипция #транскрибация_звонков #анализ_звонков #распознавание_речи #речь_в_текст #аудио_в_текст #speech_analytics
-
Транскрипция речи. Офлайн и без ограничений
Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными. Сегодня расскажу, как мы прокачали нашу транскрипцию речи , и почему это может пригодиться вам. Наш продукт Lingvanex Speech Recognition уже сейчас даёт результат уровня Whisper Large v3, а по ряду задач — даже превосходит его:
https://habr.com/ru/articles/917152/
#speechtotext #speech_recognition #audio_to_text #транскрипция #транскрибация_звонков #анализ_звонков #распознавание_речи #речь_в_текст #аудио_в_текст #speech_analytics
-
Транскрипция речи. Офлайн и без ограничений
Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными. Сегодня расскажу, как мы прокачали нашу транскрипцию речи , и почему это может пригодиться вам. Наш продукт Lingvanex Speech Recognition уже сейчас даёт результат уровня Whisper Large v3, а по ряду задач — даже превосходит его:
https://habr.com/ru/articles/917152/
#speechtotext #speech_recognition #audio_to_text #транскрипция #транскрибация_звонков #анализ_звонков #распознавание_речи #речь_в_текст #аудио_в_текст #speech_analytics
-
Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B)
В интернете огромное количество гайдов на тему транскрибации аудио и анализа совещаний через ИИ. Но все они описывают разрозненные решения: отдельно транскрибируй аудио, затем отправь в ChatGPT, и так далее. Я решил комплексно подойти к этому вопросу и навайбкодить веб-приложение, где все задачи решаются в одном окне, а именно: - Хранение транскрипций -Чат с ИИ по содержимому встречи -Структурированные протоколы (задачи, решения, события) -Рекомендации ИИ на базе текущей и предыдущих встреч -Интеграция с CRM в один клик (beta)
https://habr.com/ru/articles/981370/
#Сезон_ИИ_в_разработке #GPTOSS20B #транскрипция #STT #TOne #vLLM #LLM #совещания #протоколы #Docker
-
Multi-API Ensemble: 95% точности транскрипции региональных топонимов
В статье полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики. Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд.
https://habr.com/ru/articles/974978/
#speechtotext #whisper #gemini #salutespeech #транскрипция #распознавание_речи #сезон_ии_в_разработке #ensemble #python #asyncio
-
[Перевод] OpenAI взимает оплату поминутно, так что сделаем минуты короче
Я имею в виду буквально. Перед транскрибацией увеличьте скорость аудио в два или в три раза в ffmpeg . Благодаря этому вы потратите меньше токенов и вам придётся меньше ждать, а качество транскрипции почти не снизится. Вот и всё! Ниже показан скрипт, сочетающий все мои трюки для выполнения этой задачи. Для его работы необходимо установить yt-dlp , ffmpeg и llm . Я сэкономил вам время, сразу перейдя к делу, но если вы хотите подробностей истории о том, как я случайно обнаружил этот способ, пытаясь создать краткое изложение сорокаминутного доклада Андрея Карпаты, то продолжайте чтение. Вам стоит продолжить чтение, если вы недоумеваете, почему я просто не воспользовался встроенной автотранскрибацией YouTube. Краткий ответ будет таким: я недотёпа, считавший (ошибочно), что она недоступна. Поэтому мне пришлось идти по более сложному пути.
-
Озвучка диалогов с помощью нейросети FishSpeech
Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов. Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень. Поэтому сегодня на обзоре нейросеть Fishspeech , которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.
https://habr.com/ru/companies/timeweb/articles/888268/
#технологии #саунддизайн #озвучка #транскрипция #звук #звукозапись #контент #работа_со_звуком #видеомонтаж #timeweb_статьи
-
OpenVINO AI Plugins for Audacity
Репозиторий предлагает набор ИИ эффектов, генераторов и анализаторов для популярной программы редактирования аудио Audacity.
Эти функции, включают разделение музыки, подавление шума, генерацию и продолжение музыки, а также транскрипцию и работают полностью на локальном ПК пользователя, без необходимости подключения к интернету.
Плагины используют CPU, GPU и NPU.
Репозиторий предоставляет подробные инструкции по установке и сборке для платформ Windows и Linux.
#OpenVINO #Audacity #AIПлагины #ИскусственныйИнтеллект #ОбработкаАудио #МузыкальныеПлагины #Аудиоредактирование #OpenSource #ЛокальныеМодели #ПодавлениеШума #РазделениеМузыки #ГенерацияМузыки #АудиоИИ #Транскрипция #ИнструментыДляАудио #ПлагиныДляAudacity #CPU #GPU #NPU #ЛокальнаяОбработка #БезИнтернета #Windows #Linux #АудиоЭффекты
-
Когда «тихая» ДНК громче гена: как избыточная ДНК регулирует экспрессию, ничего не делая
Мир биоинформатики полон загадок: что такое избыточная ДНК, почему она занимает половину генома, и как это вообще работает? Кому-то может показаться, что некодирующая ДНК — это просто лишний "хлам", но на деле это, как если бы в вашем коде было полно комментариев, которые точно знают, как заставить ваш Python работать быстрее. Сегодня мы с вами разберёмся, как эта загадочная избыточная ДНК умудряется контролировать экспрессию генов, совершенно ничего не транскрибируя. А чтобы вы не скучали, покажу примерчик на Python. Ведь кто же мы без кода?
https://habr.com/ru/articles/863780/
#биоинформатика #биология #python #генетика #эпигенетика #днк #транскрипция #биотех #примеры_кода
-
Озвучка диалогов с помощью нейросети FishSpeech
Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов. Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень. Поэтому сегодня на обзоре нейросеть Fishspeech , которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.
https://habr.com/ru/companies/timeweb/articles/888268/
#технологии #саунддизайн #озвучка #транскрипция #звук #звукозапись #контент #работа_со_звуком #видеомонтаж #timeweb_статьи
-
Озвучка диалогов с помощью нейросети FishSpeech
Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов. Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень. Поэтому сегодня на обзоре нейросеть Fishspeech , которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.
https://habr.com/ru/companies/timeweb/articles/888268/
#технологии #саунддизайн #озвучка #транскрипция #звук #звукозапись #контент #работа_со_звуком #видеомонтаж #timeweb_статьи
-
Озвучка диалогов с помощью нейросети FishSpeech
Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов. Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень. Поэтому сегодня на обзоре нейросеть Fishspeech , которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.
https://habr.com/ru/companies/timeweb/articles/888268/
#технологии #саунддизайн #озвучка #транскрипция #звук #звукозапись #контент #работа_со_звуком #видеомонтаж #timeweb_статьи
-
Как я сделал виджет видеозвонков для сайтов с транскрипцией речи в реальном времени
Я давно увлекаюсь и изучаю технологии WebRTC. Устанавливал для клиентов множество WebRTC медиа серверов и кастомизировал их. Но постоянно не хватало гибкости. В итоге обнаружил чистую реализацию WebRTC на Golang, которая умеет и MESH, и SFU. Сейчас буду рассказывать, что удалось разработать и в чем польза.
https://habr.com/ru/articles/988974/
#WebRTC #Pion #Golang #SFU #Видеозвонки #Транскрипция #realtime #Виджет #Websocket
-
Как я сделал виджет видеозвонков для сайтов с транскрипцией речи в реальном времени
Я давно увлекаюсь и изучаю технологии WebRTC. Устанавливал для клиентов множество WebRTC медиа серверов и кастомизировал их. Но постоянно не хватало гибкости. В итоге обнаружил чистую реализацию WebRTC на Golang, которая умеет и MESH, и SFU. Сейчас буду рассказывать, что удалось разработать и в чем польза.
https://habr.com/ru/articles/988974/
#WebRTC #Pion #Golang #SFU #Видеозвонки #Транскрипция #realtime #Виджет #Websocket
-
Как я сделал виджет видеозвонков для сайтов с транскрипцией речи в реальном времени
Я давно увлекаюсь и изучаю технологии WebRTC. Устанавливал для клиентов множество WebRTC медиа серверов и кастомизировал их. Но постоянно не хватало гибкости. В итоге обнаружил чистую реализацию WebRTC на Golang, которая умеет и MESH, и SFU. Сейчас буду рассказывать, что удалось разработать и в чем польза.
https://habr.com/ru/articles/988974/
#WebRTC #Pion #Golang #SFU #Видеозвонки #Транскрипция #realtime #Виджет #Websocket