home.social

#vosk — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #vosk, aggregated by home.social.

  1. Веселимся со Spring: pet-проект по распознаванию речи

    Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Погнали веселиться

    habr.com/ru/articles/1033338/

    #Java #Spring_Framework #Vosk #speech_recognition #распознавание_речи #REST_API #WAV #Java_Sound_API #pet_project #веселье

  2. Веселимся со Spring: pet-проект по распознаванию речи

    Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Погнали веселиться

    habr.com/ru/articles/1033338/

    #Java #Spring_Framework #Vosk #speech_recognition #распознавание_речи #REST_API #WAV #Java_Sound_API #pet_project #веселье

  3. Веселимся со Spring: pet-проект по распознаванию речи

    Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Погнали веселиться

    habr.com/ru/articles/1033338/

    #Java #Spring_Framework #Vosk #speech_recognition #распознавание_речи #REST_API #WAV #Java_Sound_API #pet_project #веселье

  4. Веселимся со Spring: pet-проект по распознаванию речи

    Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Погнали веселиться

    habr.com/ru/articles/1033338/

    #Java #Spring_Framework #Vosk #speech_recognition #распознавание_речи #REST_API #WAV #Java_Sound_API #pet_project #веселье

  5. Как устроена транскрипция в Jitsi Meet: Jigasi, SIP и путь до EMR

    Когда мы проектировали пайплайн автоматического заполнения EMR по итогам видеоконсультаций, исходная гипотеза была простой: Jitsi Meet — open source, документация есть, значит, подключить бота и получить транскрипт — задача на пару дней. На практике именно этот слой занял непропорционально много времени относительно своей "очевидности". В этой статье разберу, как устроена транскрипция в Jitsi Meet под капотом, почему это не "просто включить кнопку", с какими конфигурационными нюансами пришлось столкнуться и как в итоге был выстроен пайплайн от видеозвонка до структурированного текста.

    habr.com/ru/articles/1021992/

    #jitsi_meet #jigasi #sip #xmpp #vosk #transcription #emr #fhir #llm #spring_boot

  6. Как устроена транскрипция в Jitsi Meet: Jigasi, SIP и путь до EMR

    Когда мы проектировали пайплайн автоматического заполнения EMR по итогам видеоконсультаций, исходная гипотеза была простой: Jitsi Meet — open source, документация есть, значит, подключить бота и получить транскрипт — задача на пару дней. На практике именно этот слой занял непропорционально много времени относительно своей "очевидности". В этой статье разберу, как устроена транскрипция в Jitsi Meet под капотом, почему это не "просто включить кнопку", с какими конфигурационными нюансами пришлось столкнуться и как в итоге был выстроен пайплайн от видеозвонка до структурированного текста.

    habr.com/ru/articles/1021992/

    #jitsi_meet #jigasi #sip #xmpp #vosk #transcription #emr #fhir #llm #spring_boot

  7. Как устроена транскрипция в Jitsi Meet: Jigasi, SIP и путь до EMR

    Когда мы проектировали пайплайн автоматического заполнения EMR по итогам видеоконсультаций, исходная гипотеза была простой: Jitsi Meet — open source, документация есть, значит, подключить бота и получить транскрипт — задача на пару дней. На практике именно этот слой занял непропорционально много времени относительно своей "очевидности". В этой статье разберу, как устроена транскрипция в Jitsi Meet под капотом, почему это не "просто включить кнопку", с какими конфигурационными нюансами пришлось столкнуться и как в итоге был выстроен пайплайн от видеозвонка до структурированного текста.

    habr.com/ru/articles/1021992/

    #jitsi_meet #jigasi #sip #xmpp #vosk #transcription #emr #fhir #llm #spring_boot

  8. Как устроена транскрипция в Jitsi Meet: Jigasi, SIP и путь до EMR

    Когда мы проектировали пайплайн автоматического заполнения EMR по итогам видеоконсультаций, исходная гипотеза была простой: Jitsi Meet — open source, документация есть, значит, подключить бота и получить транскрипт — задача на пару дней. На практике именно этот слой занял непропорционально много времени относительно своей "очевидности". В этой статье разберу, как устроена транскрипция в Jitsi Meet под капотом, почему это не "просто включить кнопку", с какими конфигурационными нюансами пришлось столкнуться и как в итоге был выстроен пайплайн от видеозвонка до структурированного текста.

    habr.com/ru/articles/1021992/

    #jitsi_meet #jigasi #sip #xmpp #vosk #transcription #emr #fhir #llm #spring_boot

  9. I'm trying to set up voice control for Home Assistant.... in Esperanto! There's only, as far as I know, one local option for an Esperanto STT model able to run on a Raspberry Pi: vosk. And let me tell you, the set up (especially with dockerized home assistant) is, uh, a labor of love, let's say.
    Mi sukcesos !
    #homeAssistant #esperanto #vosk #stt #docker #languages

  10. Trying the speech to text engine (vosk) in Kdenlive to add subtitles to some videos I'm working on..

    It is mostly right, but sometimes...

    #vosk #kdenlive

  11. Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

    За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.

    habr.com/ru/articles/1002260/

    #speechtotext #gigaam #whisper #vosk #onnx #распознавание_речи #WER #голосовой_ввод #ASR #python

  12. @linuxiac

    > Removing PulseAudio..continuing the shift to PipeWire

    My robot just shuddered in fear of becoming deaf and mute.

    -ng

  13. @linuxiac

    > Removing PulseAudio..continuing the shift to PipeWire

    My #GoPiGo3 robot just shuddered in fear of becoming deaf and mute.

    #espeak-ng #Vosk #SpeechRecognition #TTS #LinuxAudio

  14. @linuxiac

    > Removing PulseAudio..continuing the shift to PipeWire

    My #GoPiGo3 robot just shuddered in fear of becoming deaf and mute.

    #espeak-ng #Vosk #SpeechRecognition #TTS #LinuxAudio

  15. @linuxiac

    > Removing PulseAudio..continuing the shift to PipeWire

    My #GoPiGo3 robot just shuddered in fear of becoming deaf and mute.

    #espeak-ng #Vosk #SpeechRecognition #TTS #LinuxAudio

  16. @linuxiac

    > Removing PulseAudio..continuing the shift to PipeWire

    My #GoPiGo3 robot just shuddered in fear of becoming deaf and mute.

    #espeak-ng #Vosk #SpeechRecognition #TTS #LinuxAudio

  17. Голосовой ввод для Windows через Vosk своими руками

    Я пытался найти в Windows похожий встроенный инструмент или готовое решение, но все они либо брали на себя слишком много неактуального для меня функционала, так как задумывались для людей с ограниченными возможностями, либо были платными, либо были недоступны для русского языка. Лучшим выходом из моей ситуации было создать свое минималистичное решение, и вот как это было:

    habr.com/ru/articles/969360/

    #vosk #распознавание_речи #speechtotext #python #голосовые_интерфейсы #winapi

  18. Без интернета и шпионов: как мы собрали локального голосового ассистента

    Облачные ассистенты вроде Алисы , Google Assistant и Siri давно стали привычными. Но у всех у них одни и те же слабые места: зависимость от быстрого интернета и риск утечки данных. И речь не только о персональной информации — дома нередко обсуждают темы, которые можно отнести к коммерческой или даже военной тайне. Неудивительно, что многим некомфортно говорить в присутствии микрофона, который каждое слово отправляет куда-то «в облако» (один из наших заказчиков прямо сказал: «никаких Алис в доме не будет») . На Хабре уже появлялись статьи про попытки заменить Алису на полностью локальные решения. Но почти всегда все сводилось к стандартной схеме: ESP32-микрофон → Home Assistant → intent recognition . Такая связка работает, но до действительно «умного» ассистента ей далеко. Мы пошли дальше и собрали свой голосовой ассистент, о котором расскажем в статье.

    habr.com/ru/companies/wirenboa

    #Wiren_Board #BARY #Алиса #голосовой_ассистент #распознавание_речи #vosk #Piper #Embedding #Wake_Word #умный_дом

  19. Без интернета и шпионов: как мы собрали локального голосового ассистента

    Облачные ассистенты вроде Алисы , Google Assistant и Siri давно стали привычными. Но у всех у них одни и те же слабые места: зависимость от быстрого интернета и риск утечки данных. И речь не только о персональной информации — дома нередко обсуждают темы, которые можно отнести к коммерческой или даже военной тайне. Неудивительно, что многим некомфортно говорить в присутствии микрофона, который каждое слово отправляет куда-то «в облако» (один из наших заказчиков прямо сказал: «никаких Алис в доме не будет») . На Хабре уже появлялись статьи про попытки заменить Алису на полностью локальные решения. Но почти всегда все сводилось к стандартной схеме: ESP32-микрофон → Home Assistant → intent recognition . Такая связка работает, но до действительно «умного» ассистента ей далеко. Мы пошли дальше и собрали свой голосовой ассистент, о котором расскажем в статье.

    habr.com/ru/companies/wirenboa

    #Wiren_Board #BARY #Алиса #голосовой_ассистент #распознавание_речи #vosk #Piper #Embedding #Wake_Word #умный_дом

  20. Без интернета и шпионов: как мы собрали локального голосового ассистента

    Облачные ассистенты вроде Алисы , Google Assistant и Siri давно стали привычными. Но у всех у них одни и те же слабые места: зависимость от быстрого интернета и риск утечки данных. И речь не только о персональной информации — дома нередко обсуждают темы, которые можно отнести к коммерческой или даже военной тайне. Неудивительно, что многим некомфортно говорить в присутствии микрофона, который каждое слово отправляет куда-то «в облако» (один из наших заказчиков прямо сказал: «никаких Алис в доме не будет») . На Хабре уже появлялись статьи про попытки заменить Алису на полностью локальные решения. Но почти всегда все сводилось к стандартной схеме: ESP32-микрофон → Home Assistant → intent recognition . Такая связка работает, но до действительно «умного» ассистента ей далеко. Мы пошли дальше и собрали свой голосовой ассистент, о котором расскажем в статье.

    habr.com/ru/companies/wirenboa

    #Wiren_Board #BARY #Алиса #голосовой_ассистент #распознавание_речи #vosk #Piper #Embedding #Wake_Word #умный_дом

  21. Без интернета и шпионов: как мы собрали локального голосового ассистента

    Облачные ассистенты вроде Алисы , Google Assistant и Siri давно стали привычными. Но у всех у них одни и те же слабые места: зависимость от быстрого интернета и риск утечки данных. И речь не только о персональной информации — дома нередко обсуждают темы, которые можно отнести к коммерческой или даже военной тайне. Неудивительно, что многим некомфортно говорить в присутствии микрофона, который каждое слово отправляет куда-то «в облако» (один из наших заказчиков прямо сказал: «никаких Алис в доме не будет») . На Хабре уже появлялись статьи про попытки заменить Алису на полностью локальные решения. Но почти всегда все сводилось к стандартной схеме: ESP32-микрофон → Home Assistant → intent recognition . Такая связка работает, но до действительно «умного» ассистента ей далеко. Мы пошли дальше и собрали свой голосовой ассистент, о котором расскажем в статье.

    habr.com/ru/companies/wirenboa

    #Wiren_Board #BARY #Алиса #голосовой_ассистент #распознавание_речи #vosk #Piper #Embedding #Wake_Word #умный_дом

  22. Scribe: Управляем ПК голосом. Бесплатно, оффлайн и с открытым кодом

    Всем привет! Многие знают, что в Windows есть встроенная функция «Распознавание речи», а в новых версиях — «Голосовой ввод» (Win + H). Это неплохие инструменты, но меня в них всегда смущали несколько моментов: непрозрачность в вопросах приватности, ограниченная кастомизация и глубокая интеграция в систему, которую не всегда удобно настраивать. Хотелось чего-то простого, гарантированно оффлайнового и с открытым исходным кодом, чтобы точно знать, как оно работает. Так родилась идея создать Scribe — полностью автономного и максимально гибкого голосового ассистента. В основе — приватность, автономность и гибкость. Я постарался реализовать функции, которых мне не хватало в других программах.

    habr.com/ru/articles/933968/

    #распознавание_речи #голосовое_управление #vosk #pyqt5 #windows #open_source

  23. Добавление слов в языковую модель Vosk

    Краткий гайд как дополнить vosk модель распознавания речи своими словами. Для дальнейшего использования в своих проектах. Все подводные камни в использовании инструмента kaldi в 2025 году Принять испытание

    habr.com/ru/articles/909788/

    #vosk #kaldi #адаптация_модели_vosk #распознавание_речи

  24. Un anaouder mouezh emgefre, graet gant ar meziantoù Anaouder -version 1.0.0, Kaldi ha Vosk

    Fait avec les logiciels open source Anaouder, Kaldi et Vosk.

    Istitlañ un video - Sous-titrer une vidéo en breton.

    Lien : abp.bzh/anaouder/istitlan.php

    #Breton #BZH #VOSK #Kaldi #Bretagne

  25. ibus-speech-to-text will provide voice dictation capabilities to any application supporting IBus input methods in #Fedora Linux 42, using VOSK for local voice recognition.

    🔗 fedoraproject.org/wiki/Changes

    #ibus #STT #SpeechToText #VOSK

  26. ibus-speech-to-text will provide voice dictation capabilities to any application supporting IBus input methods in #Fedora Linux 42, using VOSK for local voice recognition.

    🔗 fedoraproject.org/wiki/Changes

    #ibus #STT #SpeechToText #VOSK

  27. ibus-speech-to-text will provide voice dictation capabilities to any application supporting IBus input methods in #Fedora Linux 42, using VOSK for local voice recognition.

    🔗 fedoraproject.org/wiki/Changes

    #ibus #STT #SpeechToText #VOSK

  28. ibus-speech-to-text will provide voice dictation capabilities to any application supporting IBus input methods in #Fedora Linux 42, using VOSK for local voice recognition.

    🔗 fedoraproject.org/wiki/Changes

    #ibus #STT #SpeechToText #VOSK

  29. ibus-speech-to-text will provide voice dictation capabilities to any application supporting IBus input methods in #Fedora Linux 42, using VOSK for local voice recognition.

    🔗 fedoraproject.org/wiki/Changes

    #ibus #STT #SpeechToText #VOSK

  30. Свой Google в локалке. Ищем иголку в стоге сена

    В статье мы разработаем свой собственный Google, который можно будет запустить в любой локальной сети как атакующим, что ищут пароли, так и защитникам, которым небезразлична безопасность их родной локалки. И что примечательно, наш Google будет состоять на 99% из готовых компонентов, практически без дополнительного программирования. А внедрение такой системы потребует ввода всего пары команд.

    habr.com/ru/companies/ussc/art

    #active_directory #google #smb #tesseract #vosk #csv #gnu #ftp #краулинг #dcap

  31. qui qui veut de la transcription de vidéo ou de fichier audio faite avec du logiciel libre ?
    Scribe - Ceméa

    scribe.cemea.org

    vous pouvez aussi l'auto héberger, et ça fonctionne sans enrichir de milliardaire facho.

    #vosk #scribe #cemea #logicielLibre

  32. I am really impressed by both the speed and accuracy of #vosk speech-to-text on a Raspberry Pi 5. This is really usable. #Whisper was either far too inaccurate (at least for german) or unusable slow with larger, more accurate models.

    Did you try any of these? What are your experiences?

    #HomeAssistant

  33. Les accidents de la vie c'est l'occasion d'utiliser de nouvelles choses. Avoir un bras dans le plâtre et pouvoir moins écrire a été l'occasion pour moi d'essayer la synthèse audio. Avec le logiciel libre vosk installé sur mon téléphone je peux désormais dicter mes textes au lieu de les écrire.
    J'ai ainsi pu dicter mes appréciation plutôt que de les écrire et je n'ai plus qu'à corriger la syntaxe parfois défaillante.
    #voskapi #voskspeech #vosk

  34. @nigel @plym

    I haven't tried swipe typing a whole lot with FUTO. The best thing it has going for it is the voice dictation, which is far better than any of the -based FOSS options that are out there now, like .

    I agree that is simply the best FOSS keyboard out there, hands down.

    I find myself using gboard (firewalled off from the internet, of course) recently, as I can just fire away at full speed with minimal corrections afterward (two-thumb typing).

    ... 1/2

  35. quelqu'un a déjà fait un truc avec #vosk qui permet de distinguer les locuteurs dans la #transcription ?

  36. Wie versprochen schiebe ich mal ein kleines #Tutorial zu #Vosk rein. Mit Vosk könnt Ihr #Untertitel zu Videos erzeugen & Audio-Dateien transkribieren. Vosk ist also ein #SpeechToText Programm..
    Auf der offiziellen Vosk-Webseite steht als Installationsanleitung:
    - Installiere die Pakete Python3, pip3 und ffmpeg
    - Installiere Vosk mit dem Befehl: pip3 install vosk

    Doch das funktionierte bei mir auf Linux Mint nicht, denn nach dem pip3-Befehl konnte Vosk nicht gestartet werden.
    1/x

  37. Ich bin gerade dabei, Untertitel für meine Reisevideos erzeugen zu lassen. Leider versteht #Vosk meinen Dialekt nicht so ganz.... 😄
    Es wird doch ein ganz harmloses und jugendfreies Reisefilmchen....

  38. #Sayboard. This project provides a voice keyboard using #Vosk. It is based on github.com/Felicis/vosk-androi.
    This app requires a Vosk model to run. You can use the built-in downloader or download manually from alphacephei.com/vosk/models, and then import into the app.
    f-droid.org/en/packages/com.el

  39. #DailyBloggingChallenge (362/365)

    Originally wanted to use #VOSK to transcribe the #SpeechToText. Initially tried it out over #KdenLive and its ‘Speech Recognition’ tool.

    This took quite awhile to setup, since it is not concrete what kind file format, if any, the VOSK model should have. Additionally, the recommendation of setting up a virtual #Python environment didn’t work as expect and went with the global approach.

    And finally scratched the whole approach, once realizing that transcribing 26 min audio clip is taking longer than 10min.

  40. Dicio assistant - багатомовний голосовий асистент під Andoid з відкритим кодом.

    Наданий момент українська мова відсутня, але робота над цією проблемою у процесі. І я хочу попросити вас про допомогу в локалізації. Інтерфейс додатка на WebLate вже перекладений, а от внутрішнє розпізнавання команд поки не повністю. Щоб розпізнавання було кращим і точнішим я прошу в вас допомоги. Я створив відгалуження репозиторію і вже переклав деякі навички, інші ще в процесі. Ви можете переглянути вже присутній переклад і запропонувати виправлення чи додати щось нове до нього, або створивши ще одне відгалуження, або просто написати мені тут і я додам ці зміни.

    #foss #fdroid #android #assistant #voiceassistant #vosk #голосовий_асистент #асистент #локалізація #переклад #українізація

  41. If you have to do Speech-to-Text and Text-to-Speech tasks and don't want to send your data to the Internet, I recommend you to try Speech Note (Linux desktop app).

    It is easy to use, works offline and supports 57 languages!

    Speech Note works thanks to powerful #STT and #TTS engines underneath: #DeepSpeech #Coqui #Vosk #Whisper #Piper #eSpeak #MBROLA #RHVoice

    You can download #SpeechNote from #Flathub: flathub.org/apps/net.mkiol.Spe

    Video demo: youtu.be/EhUPvaHvssw

  42. If you have to do Speech-to-Text and Text-to-Speech tasks and don't want to send your data to the Internet, I recommend you to try Speech Note (Linux desktop app).

    It is easy to use, works offline and supports 57 languages!

    Speech Note works thanks to powerful #STT and #TTS engines underneath: #DeepSpeech #Coqui #Vosk #Whisper #Piper #eSpeak #MBROLA #RHVoice

    You can download #SpeechNote from #Flathub: flathub.org/apps/net.mkiol.Spe

    Video demo: youtu.be/EhUPvaHvssw

  43. If you have to do Speech-to-Text and Text-to-Speech tasks and don't want to send your data to the Internet, I recommend you to try Speech Note (Linux desktop app).

    It is easy to use, works offline and supports 57 languages!

    Speech Note works thanks to powerful #STT and #TTS engines underneath: #DeepSpeech #Coqui #Vosk #Whisper #Piper #eSpeak #MBROLA #RHVoice

    You can download #SpeechNote from #Flathub: flathub.org/apps/net.mkiol.Spe

    Video demo: youtu.be/EhUPvaHvssw

  44. If you have to do Speech-to-Text and Text-to-Speech tasks and don't want to send your data to the Internet, I recommend you to try Speech Note (Linux desktop app).

    It is easy to use, works offline and supports 57 languages!

    Speech Note works thanks to powerful #STT and #TTS engines underneath: #DeepSpeech #Coqui #Vosk #Whisper #Piper #eSpeak #MBROLA #RHVoice

    You can download #SpeechNote from #Flathub: flathub.org/apps/net.mkiol.Spe

    Video demo: youtu.be/EhUPvaHvssw

  45. If you have to do Speech-to-Text and Text-to-Speech tasks and don't want to send your data to the Internet, I recommend you to try Speech Note (Linux desktop app).

    It is easy to use, works offline and supports 57 languages!

    Speech Note works thanks to powerful #STT and #TTS engines underneath: #DeepSpeech #Coqui #Vosk #Whisper #Piper #eSpeak #MBROLA #RHVoice

    You can download #SpeechNote from #Flathub: flathub.org/apps/net.mkiol.Spe

    Video demo: youtu.be/EhUPvaHvssw

  46. Happy to announce the update of #SpeechNote and #SpeechKeyboard apps for #SailfishOS.

    The new release brings bunch of new languages and improvements to existing ones. Speech Note understands now 47 languages!

    In addition to #DeepSpeech #Coqui, also #Vosk and #Whisper models are now supported.

    openrepos.net/content/mkiol/sp
    openrepos.net/content/mkiol/sp

  47. Happy to announce the update of #SpeechNote and #SpeechKeyboard apps for #SailfishOS.

    The new release brings bunch of new languages and improvements to existing ones. Speech Note understands now 47 languages!

    In addition to #DeepSpeech #Coqui, also #Vosk and #Whisper models are now supported.

    openrepos.net/content/mkiol/sp
    openrepos.net/content/mkiol/sp

  48. Happy to announce the update of #SpeechNote and #SpeechKeyboard apps for #SailfishOS.

    The new release brings bunch of new languages and improvements to existing ones. Speech Note understands now 47 languages!

    In addition to #DeepSpeech #Coqui, also #Vosk and #Whisper models are now supported.

    openrepos.net/content/mkiol/sp
    openrepos.net/content/mkiol/sp

  49. So I want to train some audio data for VOSK and it says I need to use Kaldi with some filters on the model.

    Q1: Has anybody ever trained a Kaldi model to use with the VOSK-API?

    Q2: Did you struggle to set it up?

    Q3: Did you need an expensive cloud GPU?