home.social

#speechtotext — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #speechtotext, aggregated by home.social.

  1. Ok, est ce que je viens d'être bluffé par la saisie vocal de #Outspoke ?

    Modèle hors ligne, application open-source, support du français et autres langues européennes, intégration avec le clavier, nettoyage des "hum, heu..."

    Je continu ?
    C'est la bonne découverte ! apt.izzysoft.de/fdroid/index/a
    #stt #opensource #keyboard #speechtotext

  2. Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

    В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

    habr.com/ru/articles/1026778/

    #Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

  3. 𝗠𝘂𝗿𝗺𝘂𝗿𝗲:

    #speechToText #OpenSource #murmure

    thewhale.cc/posts/murmure

    A privacy-first, open-source speech-to-text application that runs entirely on your machine, powered by a neural network via NVIDIA’s Parakeet model for fast, local transcription.

  4. 𝗠𝘂𝗿𝗺𝘂𝗿𝗲:

    #speechToText #OpenSource #murmure

    thewhale.cc/posts/murmure

    A privacy-first, open-source speech-to-text application that runs entirely on your machine, powered by a neural network via NVIDIA’s Parakeet model for fast, local transcription.

  5. 𝗠𝘂𝗿𝗺𝘂𝗿𝗲:

    #speechToText #OpenSource #murmure

    thewhale.cc/posts/murmure

    A privacy-first, open-source speech-to-text application that runs entirely on your machine, powered by a neural network via NVIDIA’s Parakeet model for fast, local transcription.

  6. Fedi folks! I'm looking for a speech to text app for my android phone or alternatively software for my Windows computer that turns voice memos into text. It needs to work offline, ideally #opensource and I'm willing to pay for it.

    How would you go about this?

    I'll be out in the field surveying biotopes soon and would like to record voice memos instead of scribbling illegible notes in the rain.

    #fedirecommendations #voicememo #speechtotext #recommendations #fieldbotany #fieldbiology

  7. omgubuntu.co.uk/2026/04/speed-

    "Speed of Sound" is an Open Source Linux app that allows speech-to-text in any focused window, using the cutting edge Whisper speech recognition model

    #OpenSource #Linux #SpeechToText #STT #SpeedOfSound

  8. Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

    Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж - везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM “клиент интересовался” - и 80% информации из разговора потерялось.

    habr.com/ru/articles/1020632/

    #stt #speechtotext #llm #NLP #whisper #pyannote #диаризация #python #prompt_engineering

  9. Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная

    Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня. Знакомо? Мне - до зубного скрежета. Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог. И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord. Пошёл искать. И тут началось.

    habr.com/ru/articles/1019458/

    #realtime_communications #translations #speechtotext #texttospeech #deepgram #groq #elixir #rust #open_source #voice_ai

  10. Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

    Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

    habr.com/ru/companies/yoomoney

    #распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

  11. Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

    Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

    habr.com/ru/companies/yoomoney

    #распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

  12. Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

    Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

    habr.com/ru/companies/yoomoney

    #распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

  13. Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

    Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

    habr.com/ru/companies/yoomoney

    #распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

  14. Est-ce qu'il y a des solutions de reconnaissance vocale qui marchent bien sur Linux ?

    Dans mon idée, il faut un programme qui tourne en arrière plan, qu'on peut activer avec un raccourci clavier et qui envoie le résultat comme si on tapait au clavier.

    (Évidemment, c'est pas pour moi... Il faut donc un truc qui soit simple à utiliser au quotidien. Il faut que le traitement se fasse en local et idéalement, sans IA..)

    #reconnaissanceVocale #speechToText #linux #dysgraphie #dys #dysorthographie

  15. Est-ce qu'il y a des solutions de reconnaissance vocale qui marchent bien sur Linux ?

    Dans mon idée, il faut un programme qui tourne en arrière plan, qu'on peut activer avec un raccourci clavier et qui envoie le résultat comme si on tapait au clavier.

    (Évidemment, c'est pas pour moi... Il faut donc un truc qui soit simple à utiliser au quotidien. Il faut que le traitement se fasse en local et idéalement, sans IA..)

    #reconnaissanceVocale #speechToText #linux #dysgraphie #dys #dysorthographie

  16. Est-ce qu'il y a des solutions de reconnaissance vocale qui marchent bien sur Linux ?

    Dans mon idée, il faut un programme qui tourne en arrière plan, qu'on peut activer avec un raccourci clavier et qui envoie le résultat comme si on tapait au clavier.

    (Évidemment, c'est pas pour moi... Il faut donc un truc qui soit simple à utiliser au quotidien. Il faut que le traitement se fasse en local et idéalement, sans IA..)

    #reconnaissanceVocale #speechToText #linux #dysgraphie #dys #dysorthographie

  17. Est-ce qu'il y a des solutions de reconnaissance vocale qui marchent bien sur Linux ?

    Dans mon idée, il faut un programme qui tourne en arrière plan, qu'on peut activer avec un raccourci clavier et qui envoie le résultat comme si on tapait au clavier.

    (Évidemment, c'est pas pour moi... Il faut donc un truc qui soit simple à utiliser au quotidien. Il faut que le traitement se fasse en local et idéalement, sans IA..)

    #reconnaissanceVocale #speechToText #linux #dysgraphie #dys #dysorthographie

  18. Est-ce qu'il y a des solutions de reconnaissance vocale qui marchent bien sur Linux ?

    Dans mon idée, il faut un programme qui tourne en arrière plan, qu'on peut activer avec un raccourci clavier et qui envoie le résultat comme si on tapait au clavier.

    (Évidemment, c'est pas pour moi... Il faut donc un truc qui soit simple à utiliser au quotidien. Il faut que le traitement se fasse en local et idéalement, sans IA..)

    #reconnaissanceVocale #speechToText #linux #dysgraphie #dys #dysorthographie

  19. @jenniferplusplus

    You stated: <<What it actually says is "AI is _permitted_ to make mistakes; _you are liable_ for the results, whether you check them or not". Except "you" is generally not even the person building, installing, or even using the AI. It's the person the AI is used on.>>

    Way back in the early 2000s, there was a system called "Dragon Dictate". The goal was to eliminate #human #transcriptionists with automated speech-to-text (sound familiar?) The system had to be trained on your voice and vocabulary. Once properly trained it could do a pretty good job, I'll guess 95-98%. It was better suited to output that was stereotyped (mostly the same), and structured (such as radiology reports and operative notes).

    Regardless of how the note/report was generated, the professional who spoke the words had a obligation to at least scan the output and sign it (yes, with an ink pen!). Once signed it became part of the "legal medical record" open to misinterpretation, copying, lawsuits, etc. etc.

    Once Dragon Dictate became routine (and they fired all the transcriptionists) I started to notice this little #disclaimer at the bottom:

    "If portions of this note are confusing or indecipherable please feel free to call me with questions or concerns." Sounds a lot like #AI to me! I polite way to summarize this is:

    👉 They were trying to force me to be their copy-editor. 👈

    It cast the entire content in doubt.

    Consider for a moment the difference between saying "The scan does not show cancer." and "The scan does show cancer." That "not" is doing a lot of work, and is very easy to miss when you're talking fast and never intend to read your own note ever again.

    More subtle is the grammatical error in the first sentence. "This note was #dictated using Dragon text to speech recognition software." Either they changed their product name to "Dragon Text", in which case the capitalization is off. Or they transposed words and it should read "speech to text" or "speech recognition" with no text.

    👉 In other words, they didn't even proof-read their own disclaimer! 😱

    #MedicalRecords #Medicine #SpeechToText #Liability #Risk #SignalToNoise

  20. Pues he instalado Vocalinux para dictar cosas (speech to text) y ni tan mal. Eso sí me he echado unas risas con las pruebas, en automático me ha detectado que hablo chino, será por el hola y me ha transliterado un maullido del gato. Pero el resto bien, incluso me pone los puntos y las comas en su sitio.

    Está basado en Whisper.cpp y en mi ordenador va suavito, incluso cuando lo uso en Libre Office.

    Lo podéis encontrar aquí Vocalinux.com.

    #linux #LinuxApps #speechtotext

  21. Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

    За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.

    habr.com/ru/articles/1002260/

    #speechtotext #gigaam #whisper #vosk #onnx #распознавание_речи #WER #голосовой_ввод #ASR #python

  22. Provant el #Pitxu amb diferents combinacions de hardware m'ha portat a descobrir que m'agrada el format #RaspberryPiZero2 + UPS + #WhispayHat, que em dóna el més bàsic per tenir un mini-ordenador autònom amb so i pantalla (i un botó). És molt contingut i portable, se li pot fer una caixeta amb una impressora 3D (fàcil ) i pot quedar molt cuco.

    Passa que no tira. Els models de STT i TTS s'encallen, i el Chatbot #Gemini ja el fregeix del tot. Ni l"overclock ni la swap han ajudat gaire.

    Avui parlant amb el @miguelflorido ha sortit la idea d'aixecar uns endpoints al Pitxu, per que executi la transcripció #speechtotext i la resposta del #chatbot. Així, el que carrega més la màquina ho fa la RPi5 amb el #AIHat+2, i la RPiZ2W fa de simple client grabant àudio, reproduint la veu, i mostrant per pantalla. El reste ho envia per HTTP.

    En un parell d'hores he tingut un #Flask en un thread escoltant peticions, i les proves amb el #Postman són molt bones a la Wifi de casa.

    Em molaria molt tenir un #miniPitxu a la butxaca.

  23. Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

    Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

    habr.com/ru/articles/995416/

    #rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

  24. Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

    Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

    habr.com/ru/articles/995416/

    #rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

  25. Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

    Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

    habr.com/ru/articles/995416/

    #rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

  26. Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

    Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

    habr.com/ru/articles/995416/

    #rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

  27. Whisper больше не нужен? Обзор VibeVoice ASR от Microsoft — часовая транскрипция, диаризация, hotwords и портативка

    Всем привет! Команда Microsoft Research выложила в открытый доступ VibeVoice-ASR — нейросетевую модель для распознавания речи с диаризацией (разделением) спикеров. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.

    habr.com/ru/articles/992364/

    #ASR #speechtotext #распознавание_речи #Microsoft #нейросети #машинное_обучение #open_source #транскрипция #диаризация #портативная_версия

  28. Công cụ Transcribe (tx) miễn phí, chạy cục bộ với Whisper, hỗ trợ nhận diện giọng nói theo thời gian thực, phân biệt người nói (diarization) và thời gian chính xác. Hỗ trợ file, mic, âm thanh hệ thống và tích hợp Ollama để tóm tắt nội dung (tùy chọn). Hoạt động ngoại tuyến, đa nền tảng: Windows, macOS, Linux. Giao diện đồ họa và CLI tiện lợi tự động hóa.

    #Transcribe #Whisper #Ollama #SpeechToText #Diarization #AI #LocalAI #CôngCụ #TríTuệNhânTạo #ThuyếtTrình

    reddit.com/r/LocalLLaM

  29. Голосовой ввод для Windows через Vosk своими руками

    Я пытался найти в Windows похожий встроенный инструмент или готовое решение, но все они либо брали на себя слишком много неактуального для меня функционала, так как задумывались для людей с ограниченными возможностями, либо были платными, либо были недоступны для русского языка. Лучшим выходом из моей ситуации было создать свое минималистичное решение, и вот как это было:

    habr.com/ru/articles/969360/

    #vosk #распознавание_речи #speechtotext #python #голосовые_интерфейсы #winapi

  30. 🗣️🎤📝 :linux: Speech to Text and Text to Speech on GNU/Linux :disability_flag: 📝🔊💻

    Why This Matters to Me (and Maybe You Too)

    If you’re anything like me—a Linux user who counts on voice typing and TTS because of visual impairment—you know that accessibility is not a luxury, it’s a necessity. Speaking from experience as someone who depends on voice typing (and TTS) , the quest for a seamless, local, FLOSS speech-to-text (STT) setup on Linux can be frustrating.
    Here’s how you can succeed with modern tools using Linux. FLOSS means freedom and privacy; working locally means real control.
    Let’s dive in! I’ll tell you what I’ve learned and what I use—and hope you’ll share your favorite tools or tips!

    System-Wide Voice Keyboard: Speak Directly in Any App

    Want to speak and have your words typed wherever your cursor is—be it a terminal, browser, chat, or IDE? Here’s what actually works and how it feels day-to-day:

    - Speak to AI (Offline, Whisper-based, global hotkeys)
    This tool is my current go-to. It uses Whisper locally, lets you use global hotkeys (configurable) to type into any focused window, and doesn’t need internet. Runs smoothly on X11 and Wayland; just takes a bit of setup (AppImage available!).
    GitHub Repo github.com/AshBuk/speak-to-ai) | Dev.to Post dev.to/ashbuk/i-built-an-offli)

    - DIY: RealtimeSTT + PyAutoGUI
    For the true tinkerers, RealtimeSTT plus a Python script lets you simulate keystrokes. You control every step, can lower latency with your tweaks, but you’ll need to be comfortable with scripting.
    RealtimeSTT Guide github.com/KoljaB/RealtimeSTT#)

    - Handy (Free/Libre, offline, Whisper-based, acts as a keyboard)
    I’ve read lots of positive feedback on Handy—even though I haven’t tried it myself. The workflow is simple: press a hotkey, speak, and Handy pastes your text in the active app. It’s fully offline, works on X11 and Wayland, and gets strong accuracy thanks to Whisper.
    Heads up: Handy lets you pick your own shortcut key, but it actually overrides the keyboard shortcut for start/stop recording. That means it can clash with other tools that depend on major shortcut combos—including Orca’s custom keybindings if you use a screen reader. If your workflow relies on certain shortcuts, this might need adjustment or careful planning before you commit.
    GitHub Repo github.com/cjpais/Handy) | Demo handy.computer)

    Real-Time Transcription in a Window (Copy/Paste Workflow)

    If you’re okay with speaking into a dedicated app, then copying, these options offer great GUIs and power features:

    - Speech Note by @mkiol mastodon.social/@mkiol
    FLOSS, offline, multi-language GUI app—perfect for quick notes and batch transcription. Not a system-wide keyboard, but super easy to use and works on both desktops and Linux phones.
    Flathub flathub.org/apps/net.mkiol.Spe | LinuxPhoneApps linuxphoneapps.org/apps/net.mk)

    - WhisperLive (by Collabora)
    Real-time transcription in a terminal or window—great for meetings, lectures, and captions. Manual copy/paste required to get the text to other apps.
    GitHub Repo github.com/collabora/WhisperLi)

    More Tools for Tinkerers

    If you like building your own or want extra control, check out:
    - Vosk: Lightweight, lots of language support. GitHub alphacephei.com/vosk/)
    - Kaldi: Powerful, best for custom setups. Website kaldi-asr.org/)
    - Simon: Voice control automation. Website simon-listens.org/)
    - voice2json: Phrase-level and command recognition. GitHub github.com/synesthesiam/voice2)

    Pro Tips

    - Desktop Environment: X11 vs. Wayland affects how keyboard hooks and app focus actually operate.
    - Ready-Made vs. DIY: If you want plug-and-play, try Speech Note or Handy first. Into automation or customization? RealtimeSTT is perfect.
    - Follow the Community: @thorstenvoice offers tons of open-source voice tech insights.

    Screen Reader Integration

    Looking for robust screen reader support? Linux has you covered:

    - Orca (GNOME/MATE): The most customizable GUI screen reader out there. The default voice (eSpeak) is robotic, but you can swap it for something better and fine-tune verbosity so it reads only what matters.
    - Speakup: Console-based, ideal for terminal.
    - Emacspeak: The solution for Emacs fans.

    💡 Orca is part of my daily toolkit. It took time to get the settings just right (especially verbosity!) but it’s absolutely worth it. If you use a screen reader—what setup makes it bearable or even enjoyable for you?

    Final Thoughts

    If you’re starting from scratch, try Handy for direct typing (just watch those shortcuts if you use a screen reader!) or Speech Note for GUI-based transcription. Both are privacy-friendly, local, and accessible—ideal for everyday Linux use.

    Is there a FLOSS gem missing here?
    Sharing what works (and what doesn’t!) helps the entire community.

    Resources:
    Speech Note on Flathub flathub.org/apps/net.mkiol.Spe
    Handy GitHub github.com/cjpais/Handy
    Speak to AI Guide dev.to/ashbuk/i-built-an-offli
    RealtimeSTT github.com/KoljaB/RealtimeSTT

    #Linux #SpeechToText #FLOSS #Accessibility #VoiceKeyboard #ScreenReader #Whisper #Handy #SpeechNote #OpenSource #Community #voicetyping #LocalSTT #TTStools #SpeechRecognition #A11y #Linuxtools #Voicekeyboard #Whisper #Handy #speech-to-text #SpeechNote #review #ScreenReaders #ORCA #FOSS

  31. Một script Python đơn giản hỗ trợ chép âm thanh micro trực tiếp bằng mô hình parakeet-tdt-0.6b-v2/3 trên MLX, tự động sao chép và dán. Nhấn tổ hợp phím để bật/tắt. Tác giả: @fullbridgerecctifier. Cảm ơn nguồn chia sẻ!

    #Python #Transcribe #MLX #parakeet #SpeechToText #ScriptĐơnGiản #TríTuệNhânTạo

    reddit.com/r/LocalLLaMA/commen

  32. Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

    В статье рассматриваются технические аспекты разработки речевого тренажёра GolosAI, основанного на технологиях генеративного искусственного интеллекта и использовании больших языковых моделей (Large language models). Описана необходимость создания подобных средств обучения в России в условиях ограниченного доступа к зарубежным языковым сервисам, а также обозначена актуальность проблемы формирования разговорных навыков вне языковой среды. Автором представлен алгоритм функционирования тренажёра, включающий распознавание речи, генерацию ответов, синтез голоса и анализ выполнения учебных задач. В качестве важного достоинства тренажера отмечена его мультиязычная направленность и гибкость настройки под имеющиеся компьютерные средства. Дополнительно рассматривается потенциал интеграции речевого тренажера в образовательный процесс российских вузов на основе отечественных больших языковых моделей (YandexGPT, GigaChat) для создания автономных интерактивных речевых систем обучения иностранным языкам. Далее

    habr.com/ru/articles/960136/

    #llmмодели #tts #asr #cloud #yandexcloud #speechtotext #speech_recognition

  33. Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

    В статье рассматриваются технические аспекты разработки речевого тренажёра GolosAI, основанного на технологиях генеративного искусственного интеллекта и использовании больших языковых моделей (Large language models). Описана необходимость создания подобных средств обучения в России в условиях ограниченного доступа к зарубежным языковым сервисам, а также обозначена актуальность проблемы формирования разговорных навыков вне языковой среды. Автором представлен алгоритм функционирования тренажёра, включающий распознавание речи, генерацию ответов, синтез голоса и анализ выполнения учебных задач. В качестве важного достоинства тренажера отмечена его мультиязычная направленность и гибкость настройки под имеющиеся компьютерные средства. Дополнительно рассматривается потенциал интеграции речевого тренажера в образовательный процесс российских вузов на основе отечественных больших языковых моделей (YandexGPT, GigaChat) для создания автономных интерактивных речевых систем обучения иностранным языкам. Далее

    habr.com/ru/articles/960136/

    #llmмодели #tts #asr #cloud #yandexcloud #speechtotext #speech_recognition

  34. Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

    В статье рассматриваются технические аспекты разработки речевого тренажёра GolosAI, основанного на технологиях генеративного искусственного интеллекта и использовании больших языковых моделей (Large language models). Описана необходимость создания подобных средств обучения в России в условиях ограниченного доступа к зарубежным языковым сервисам, а также обозначена актуальность проблемы формирования разговорных навыков вне языковой среды. Автором представлен алгоритм функционирования тренажёра, включающий распознавание речи, генерацию ответов, синтез голоса и анализ выполнения учебных задач. В качестве важного достоинства тренажера отмечена его мультиязычная направленность и гибкость настройки под имеющиеся компьютерные средства. Дополнительно рассматривается потенциал интеграции речевого тренажера в образовательный процесс российских вузов на основе отечественных больших языковых моделей (YandexGPT, GigaChat) для создания автономных интерактивных речевых систем обучения иностранным языкам. Далее

    habr.com/ru/articles/960136/

    #llmмодели #tts #asr #cloud #yandexcloud #speechtotext #speech_recognition

  35. Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

    В статье рассматриваются технические аспекты разработки речевого тренажёра GolosAI, основанного на технологиях генеративного искусственного интеллекта и использовании больших языковых моделей (Large language models). Описана необходимость создания подобных средств обучения в России в условиях ограниченного доступа к зарубежным языковым сервисам, а также обозначена актуальность проблемы формирования разговорных навыков вне языковой среды. Автором представлен алгоритм функционирования тренажёра, включающий распознавание речи, генерацию ответов, синтез голоса и анализ выполнения учебных задач. В качестве важного достоинства тренажера отмечена его мультиязычная направленность и гибкость настройки под имеющиеся компьютерные средства. Дополнительно рассматривается потенциал интеграции речевого тренажера в образовательный процесс российских вузов на основе отечественных больших языковых моделей (YandexGPT, GigaChat) для создания автономных интерактивных речевых систем обучения иностранным языкам. Далее

    habr.com/ru/articles/960136/

    #llmмодели #tts #asr #cloud #yandexcloud #speechtotext #speech_recognition