#speech-to-text — Public Fediverse posts on home.social

MXC48 :pika: @[email protected] · 2026-05-11 · 20:08 UTC

Ok, est ce que je viens d'être bluffé par la saisie vocal de #Outspoke ?

Modèle hors ligne, application open-source, support du français et autres langues européennes, intégration avec le clavier, nettoyage des "hum, heu..."

Je continu ?
C'est la bonne découverte ! https://apt.izzysoft.de/fdroid/index/apk/dev.brgr.outspoke
#stt #opensource #keyboard #speechtotext

#outspoke #stt #opensource #keyboard #speechtotext

adrienandrem @[email protected] · 2026-04-25 · 13:24 UTC

@yv_pic @gaunardemmanuel @brigit_komit Chez-moi c'est bloqué par les dispositifs de protection de la vie privée…
Personnellement si cela pouvait tourner sans navigateur j'aimerais beaucoup.
#speechToText #dictée #reconnaissanceDeLaParole

#speechtotext #dictee #reconnaissancedelaparole

Habr @[email protected] · 2026-04-22 · 19:22 UTC

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

https://habr.com/ru/articles/1026778/

#Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

#codeswitching #русский_язык #распознавание_речи #nlp #asr #lora

Linux Easy @[email protected] · 2026-04-21 · 15:29 UTC

Scrivere senza tastiera su Linux è possibile 🎙️ Scopri Speed of Sound e il riconoscimento vocale offline #Linux #OpenSource #Whisper #SpeechToText #Software

https://www.linuxeasy.org/speed-of-sound-porta-la-dettatura-vocale-su-linux/?utm_source=mastodon&utm_medium=jetpack_social

#linux #opensource #whisper #speechtotext #software

The whale @[email protected] · 2026-04-20 · 10:00 UTC

𝗠𝘂𝗿𝗺𝘂𝗿𝗲:

#speechToText #OpenSource #murmure

https://thewhale.cc/posts/murmure

A privacy-first, open-source speech-to-text application that runs entirely on your machine, powered by a neural network via NVIDIA’s Parakeet model for fast, local transcription.

#speechtotext #opensource #murmure

regina_nyckelharpista @[email protected] · 2026-04-20 · 09:39 UTC

Fedi folks! I'm looking for a speech to text app for my android phone or alternatively software for my Windows computer that turns voice memos into text. It needs to work offline, ideally #opensource and I'm willing to pay for it.

How would you go about this?

I'll be out in the field surveying biotopes soon and would like to record voice memos instead of scribbling illegible notes in the rain.

#fedirecommendations #voicememo #speechtotext #recommendations #fieldbotany #fieldbiology

#opensource #fedirecommendations #voicememo #speechtotext #recommendations #fieldbotany

James House-Lantto (He/Him) @[email protected] · 2026-04-19 · 14:37 UTC

https://www.omgubuntu.co.uk/2026/04/speed-of-sound-linux-voice-typing-app

"Speed of Sound" is an Open Source Linux app that allows speech-to-text in any focused window, using the cutting edge Whisper speech recognition model

#OpenSource #Linux #SpeechToText #STT #SpeedOfSound

#opensource #linux #speechtotext #stt #speedofsound

Iris Volk @[email protected] · 2026-04-08 · 17:54 UTC

"Vielen Dank, dass ich bescheuert habe."

#SpeechToText #TranskriptFreuden

#speechtotext #transkriptfreuden

Habr @[email protected] · 2026-04-08 · 05:22 UTC

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж - везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM “клиент интересовался” - и 80% информации из разговора потерялось.

https://habr.com/ru/articles/1020632/

#stt #speechtotext #llm #NLP #whisper #pyannote #диаризация #python #prompt_engineering

#prompt_engineering #python #диаризация #pyannote #whisper #nlp

David Bisset @[email protected] · 2026-04-06 · 21:07 UTC

100% local hold-to-talk speech-to-text for #macOS.

Hold Control to record, release to transcribe and paste. No cloud APIs, no data leaves your machine.

#Swift #SpeechToText #opensource #webdev

https://github.com/matthartman/ghost-pepper

#macos #swift #speechtotext #opensource #webdev

Hacker News @[email protected] · 2026-04-06 · 20:03 UTC

Ghost Pepper – 100% local hold-to-talk speech-to-text for macOS

https://github.com/matthartman/ghost-pepper

#HackerNews #GhostPepper #SpeechToText #macOS #LocalTech #OpenSource #GitHub

#hackernews #ghostpepper #speechtotext #macos #localtech #opensource

Habr @[email protected] · 2026-04-05 · 11:12 UTC

Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная

Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня. Знакомо? Мне - до зубного скрежета. Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог. И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord. Пошёл искать. И тут началось.

https://habr.com/ru/articles/1019458/

#realtime_communications #translations #speechtotext #texttospeech #deepgram #groq #elixir #rust #open_source #voice_ai

#voice_ai #open_source #rust #elixir #groq #deepgram

EINGFOAN :donor: @[email protected] · 2026-03-22 · 18:30 UTC

For the ones that use #murena #eos and miss #speechToText

Give #futo keyboard a try https://keyboard.futo.org/

#murena #eos #speechtotext #futo

Habr @[email protected] · 2026-03-20 · 15:12 UTC

Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

https://habr.com/ru/companies/yoomoney/articles/1012870/

#распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

#vad #машинное_обучение #речевая_аналитика #диаризация #аудиообработка #whisper