#speechtotext — Public Fediverse posts on home.social

MXC48 :pika: @[email protected] · 2026-05-11 · 20:08 UTC

Ok, est ce que je viens d'être bluffé par la saisie vocal de #Outspoke ?

Modèle hors ligne, application open-source, support du français et autres langues européennes, intégration avec le clavier, nettoyage des "hum, heu..."

Je continu ?
C'est la bonne découverte ! https://apt.izzysoft.de/fdroid/index/apk/dev.brgr.outspoke
#stt #opensource #keyboard #speechtotext

#outspoke #stt #opensource #keyboard #speechtotext

Habr @[email protected] · 2026-04-22 · 19:22 UTC

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

https://habr.com/ru/articles/1026778/

#Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

#codeswitching #русский_язык #распознавание_речи #nlp #asr #lora

Linux Easy @[email protected] · 2026-04-21 · 15:29 UTC

Scrivere senza tastiera su Linux è possibile 🎙️ Scopri Speed of Sound e il riconoscimento vocale offline #Linux #OpenSource #Whisper #SpeechToText #Software

https://www.linuxeasy.org/speed-of-sound-porta-la-dettatura-vocale-su-linux/?utm_source=mastodon&utm_medium=jetpack_social

#linux #opensource #whisper #speechtotext #software

The whale @[email protected] · 2026-04-20 · 10:00 UTC

𝗠𝘂𝗿𝗺𝘂𝗿𝗲:

#speechToText #OpenSource #murmure

https://thewhale.cc/posts/murmure

A privacy-first, open-source speech-to-text application that runs entirely on your machine, powered by a neural network via NVIDIA’s Parakeet model for fast, local transcription.

#speechtotext #opensource #murmure

The whale @[email protected] · 2026-04-20 · 10:00 UTC

𝗠𝘂𝗿𝗺𝘂𝗿𝗲:

#speechToText #OpenSource #murmure

https://thewhale.cc/posts/murmure

A privacy-first, open-source speech-to-text application that runs entirely on your machine, powered by a neural network via NVIDIA’s Parakeet model for fast, local transcription.

#speechtotext #opensource #murmure

The whale @[email protected] · 2026-04-20 · 10:00 UTC

𝗠𝘂𝗿𝗺𝘂𝗿𝗲:

#speechToText #OpenSource #murmure

https://thewhale.cc/posts/murmure

A privacy-first, open-source speech-to-text application that runs entirely on your machine, powered by a neural network via NVIDIA’s Parakeet model for fast, local transcription.

#murmure #opensource #speechtotext

regina_nyckelharpista @[email protected] · 2026-04-20 · 09:39 UTC

Fedi folks! I'm looking for a speech to text app for my android phone or alternatively software for my Windows computer that turns voice memos into text. It needs to work offline, ideally #opensource and I'm willing to pay for it.

How would you go about this?

I'll be out in the field surveying biotopes soon and would like to record voice memos instead of scribbling illegible notes in the rain.

#fedirecommendations #voicememo #speechtotext #recommendations #fieldbotany #fieldbiology

#opensource #fedirecommendations #voicememo #speechtotext #recommendations #fieldbotany

James House-Lantto (He/Him) @[email protected] · 2026-04-19 · 14:37 UTC

https://www.omgubuntu.co.uk/2026/04/speed-of-sound-linux-voice-typing-app

"Speed of Sound" is an Open Source Linux app that allows speech-to-text in any focused window, using the cutting edge Whisper speech recognition model

#OpenSource #Linux #SpeechToText #STT #SpeedOfSound

#opensource #linux #speechtotext #stt #speedofsound

Habr @[email protected] · 2026-04-08 · 05:22 UTC

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж - везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM “клиент интересовался” - и 80% информации из разговора потерялось.

https://habr.com/ru/articles/1020632/

#stt #speechtotext #llm #NLP #whisper #pyannote #диаризация #python #prompt_engineering

#prompt_engineering #python #диаризация #pyannote #whisper #nlp

Habr @[email protected] · 2026-04-05 · 11:12 UTC

Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная

Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня. Знакомо? Мне - до зубного скрежета. Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог. И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord. Пошёл искать. И тут началось.

https://habr.com/ru/articles/1019458/

#realtime_communications #translations #speechtotext #texttospeech #deepgram #groq #elixir #rust #open_source #voice_ai

#voice_ai #open_source #rust #elixir #groq #deepgram

EINGFOAN :donor: @[email protected] · 2026-03-22 · 18:30 UTC

For the ones that use #murena #eos and miss #speechToText

Give #futo keyboard a try https://keyboard.futo.org/

#murena #eos #speechtotext #futo

Habr @[email protected] · 2026-03-20 · 15:12 UTC

Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

https://habr.com/ru/companies/yoomoney/articles/1012870/

#распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

#vad #машинное_обучение #речевая_аналитика #диаризация #аудиообработка #whisper

Habr @[email protected] · 2026-03-20 · 15:12 UTC

Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

https://habr.com/ru/companies/yoomoney/articles/1012870/

#распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

#vad #машинное_обучение #речевая_аналитика #диаризация #аудиообработка #whisper

Habr @[email protected] · 2026-03-20 · 15:12 UTC

Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

https://habr.com/ru/companies/yoomoney/articles/1012870/

#распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

#vad #машинное_обучение #речевая_аналитика #диаризация #аудиообработка #whisper

Habr @[email protected] · 2026-03-20 · 15:12 UTC

Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

https://habr.com/ru/companies/yoomoney/articles/1012870/

#распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

#распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика

Artanux - Simon Lefort @[email protected] · 2026-03-14 · 14:31 UTC

Est-ce qu'il y a des solutions de reconnaissance vocale qui marchent bien sur Linux ?

Dans mon idée, il faut un programme qui tourne en arrière plan, qu'on peut activer avec un raccourci clavier et qui envoie le résultat comme si on tapait au clavier.

(Évidemment, c'est pas pour moi... Il faut donc un truc qui soit simple à utiliser au quotidien. Il faut que le traitement se fasse en local et idéalement, sans IA..)

#reconnaissanceVocale #speechToText #linux #dysgraphie #dys #dysorthographie

#reconnaissancevocale #speechtotext #linux #dysgraphie #dys #dysorthographie

Artanux - Simon Lefort @[email protected] · 2026-03-14 · 14:31 UTC

Est-ce qu'il y a des solutions de reconnaissance vocale qui marchent bien sur Linux ?

Dans mon idée, il faut un programme qui tourne en arrière plan, qu'on peut activer avec un raccourci clavier et qui envoie le résultat comme si on tapait au clavier.

(Évidemment, c'est pas pour moi... Il faut donc un truc qui soit simple à utiliser au quotidien. Il faut que le traitement se fasse en local et idéalement, sans IA..)

#reconnaissanceVocale #speechToText #linux #dysgraphie #dys #dysorthographie

#reconnaissancevocale #speechtotext #linux #dysgraphie #dys #dysorthographie

Artanux - Simon Lefort @[email protected] · 2026-03-14 · 14:31 UTC

Est-ce qu'il y a des solutions de reconnaissance vocale qui marchent bien sur Linux ?

Dans mon idée, il faut un programme qui tourne en arrière plan, qu'on peut activer avec un raccourci clavier et qui envoie le résultat comme si on tapait au clavier.

(Évidemment, c'est pas pour moi... Il faut donc un truc qui soit simple à utiliser au quotidien. Il faut que le traitement se fasse en local et idéalement, sans IA..)

#reconnaissanceVocale #speechToText #linux #dysgraphie #dys #dysorthographie

#reconnaissancevocale #speechtotext #linux #dysgraphie #dys #dysorthographie

Artanux - Simon Lefort @[email protected] · 2026-03-14 · 14:31 UTC

Est-ce qu'il y a des solutions de reconnaissance vocale qui marchent bien sur Linux ?

Dans mon idée, il faut un programme qui tourne en arrière plan, qu'on peut activer avec un raccourci clavier et qui envoie le résultat comme si on tapait au clavier.

(Évidemment, c'est pas pour moi... Il faut donc un truc qui soit simple à utiliser au quotidien. Il faut que le traitement se fasse en local et idéalement, sans IA..)

#reconnaissanceVocale #speechToText #linux #dysgraphie #dys #dysorthographie

#dysorthographie #dys #dysgraphie #linux #speechtotext #reconnaissancevocale

Artanux - Simon Lefort @[email protected] · 2026-03-14 · 14:31 UTC

Est-ce qu'il y a des solutions de reconnaissance vocale qui marchent bien sur Linux ?

Dans mon idée, il faut un programme qui tourne en arrière plan, qu'on peut activer avec un raccourci clavier et qui envoie le résultat comme si on tapait au clavier.

(Évidemment, c'est pas pour moi... Il faut donc un truc qui soit simple à utiliser au quotidien. Il faut que le traitement se fasse en local et idéalement, sans IA..)

#reconnaissanceVocale #speechToText #linux #dysgraphie #dys #dysorthographie

#reconnaissancevocale #speechtotext #linux #dysgraphie #dys #dysorthographie

Richard Rathe @[email protected] · 2026-03-10 · 19:30 UTC

@jenniferplusplus

You stated: <<What it actually says is "AI is _permitted_ to make mistakes; _you are liable_ for the results, whether you check them or not". Except "you" is generally not even the person building, installing, or even using the AI. It's the person the AI is used on.>>

Way back in the early 2000s, there was a system called "Dragon Dictate". The goal was to eliminate #human #transcriptionists with automated speech-to-text (sound familiar?) The system had to be trained on your voice and vocabulary. Once properly trained it could do a pretty good job, I'll guess 95-98%. It was better suited to output that was stereotyped (mostly the same), and structured (such as radiology reports and operative notes).

Regardless of how the note/report was generated, the professional who spoke the words had a obligation to at least scan the output and sign it (yes, with an ink pen!). Once signed it became part of the "legal medical record" open to misinterpretation, copying, lawsuits, etc. etc.

Once Dragon Dictate became routine (and they fired all the transcriptionists) I started to notice this little #disclaimer at the bottom:

"If portions of this note are confusing or indecipherable please feel free to call me with questions or concerns." Sounds a lot like #AI to me! I polite way to summarize this is:

👉 They were trying to force me to be their copy-editor. 👈

It cast the entire content in doubt.

Consider for a moment the difference between saying "The scan does not show cancer." and "The scan does show cancer." That "not" is doing a lot of work, and is very easy to miss when you're talking fast and never intend to read your own note ever again.

More subtle is the grammatical error in the first sentence. "This note was #dictated using Dragon text to speech recognition software." Either they changed their product name to "Dragon Text", in which case the capitalization is off. Or they transposed words and it should read "speech to text" or "speech recognition" with no text.

👉 In other words, they didn't even proof-read their own disclaimer! 😱

#MedicalRecords #Medicine #SpeechToText #Liability #Risk #SignalToNoise

#human #transcriptionists #disclaimer #ai #dictated #medicalrecords

Tanuki ( 貉 / タヌキ) @[email protected] · 2026-03-07 · 13:24 UTC

Pues he instalado Vocalinux para dictar cosas (speech to text) y ni tan mal. Eso sí me he echado unas risas con las pruebas, en automático me ha detectado que hablo chino, será por el hola y me ha transliterado un maullido del gato. Pero el resto bien, incluso me pone los puntos y las comas en su sitio.

Está basado en Whisper.cpp y en mi ordenador va suavito, incluso cuando lo uso en Libre Office.

Lo podéis encontrar aquí Vocalinux.com.

#linux #LinuxApps #speechtotext

#linux #linuxapps #speechtotext

U3dn @[email protected] · 2026-02-25 · 04:04 UTC

Efficient Real-Time Speech-to-Text Transcription #Speechtotext #Realtimetranscription #Voicecommands #Textinput #Oculus #Unity #AssetStore

https://u3dn.com/packages/efficient-real-time-speech-to-text-transcription-265013

#speechtotext #realtimetranscription #voicecommands #textinput #oculus #unity

Habr @[email protected] · 2026-02-21 · 16:22 UTC

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.

https://habr.com/ru/articles/1002260/

#speechtotext #gigaam #whisper #vosk #onnx #распознавание_речи #WER #голосовой_ввод #ASR #python

#python #asr #голосовой_ввод #wer #распознавание_речи #onnx