home.social

#speech-to-text — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #speech-to-text, aggregated by home.social.

fetched live
  1. Ok, est ce que je viens d'être bluffé par la saisie vocal de #Outspoke ?

    Modèle hors ligne, application open-source, support du français et autres langues européennes, intégration avec le clavier, nettoyage des "hum, heu..."

    Je continu ?
    C'est la bonne découverte ! apt.izzysoft.de/fdroid/index/a
    #stt #opensource #keyboard #speechtotext

  2. @yv_pic @gaunardemmanuel @brigit_komit Chez-moi c'est bloqué par les dispositifs de protection de la vie privée…
    Personnellement si cela pouvait tourner sans navigateur j'aimerais beaucoup.
    #speechToText #dictée #reconnaissanceDeLaParole

  3. Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

    В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

    habr.com/ru/articles/1026778/

    #Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

  4. 𝗠𝘂𝗿𝗺𝘂𝗿𝗲:

    #speechToText #OpenSource #murmure

    thewhale.cc/posts/murmure

    A privacy-first, open-source speech-to-text application that runs entirely on your machine, powered by a neural network via NVIDIA’s Parakeet model for fast, local transcription.

  5. Fedi folks! I'm looking for a speech to text app for my android phone or alternatively software for my Windows computer that turns voice memos into text. It needs to work offline, ideally #opensource and I'm willing to pay for it.

    How would you go about this?

    I'll be out in the field surveying biotopes soon and would like to record voice memos instead of scribbling illegible notes in the rain.

    #fedirecommendations #voicememo #speechtotext #recommendations #fieldbotany #fieldbiology

  6. omgubuntu.co.uk/2026/04/speed-

    "Speed of Sound" is an Open Source Linux app that allows speech-to-text in any focused window, using the cutting edge Whisper speech recognition model

    #OpenSource #Linux #SpeechToText #STT #SpeedOfSound

  7. Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

    Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж - везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM “клиент интересовался” - и 80% информации из разговора потерялось.

    habr.com/ru/articles/1020632/

    #stt #speechtotext #llm #NLP #whisper #pyannote #диаризация #python #prompt_engineering

  8. 100% local hold-to-talk speech-to-text for #macOS.

    Hold Control to record, release to transcribe and paste. No cloud APIs, no data leaves your machine.

    #Swift #SpeechToText #opensource #webdev

    github.com/matthartman/ghost-p

  9. Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная

    Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня. Знакомо? Мне - до зубного скрежета. Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог. И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord. Пошёл искать. И тут началось.

    habr.com/ru/articles/1019458/

    #realtime_communications #translations #speechtotext #texttospeech #deepgram #groq #elixir #rust #open_source #voice_ai

  10. Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

    Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

    habr.com/ru/companies/yoomoney

    #распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad