#vosk — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #vosk, aggregated by home.social.
-
Веселимся со Spring: pet-проект по распознаванию речи
Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Погнали веселиться
https://habr.com/ru/articles/1033338/
#Java #Spring_Framework #Vosk #speech_recognition #распознавание_речи #REST_API #WAV #Java_Sound_API #pet_project #веселье
-
Веселимся со Spring: pet-проект по распознаванию речи
Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Погнали веселиться
https://habr.com/ru/articles/1033338/
#Java #Spring_Framework #Vosk #speech_recognition #распознавание_речи #REST_API #WAV #Java_Sound_API #pet_project #веселье
-
Веселимся со Spring: pet-проект по распознаванию речи
Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Погнали веселиться
https://habr.com/ru/articles/1033338/
#Java #Spring_Framework #Vosk #speech_recognition #распознавание_речи #REST_API #WAV #Java_Sound_API #pet_project #веселье
-
Веселимся со Spring: pet-проект по распознаванию речи
Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Погнали веселиться
https://habr.com/ru/articles/1033338/
#Java #Spring_Framework #Vosk #speech_recognition #распознавание_речи #REST_API #WAV #Java_Sound_API #pet_project #веселье
-
Как устроена транскрипция в Jitsi Meet: Jigasi, SIP и путь до EMR
Когда мы проектировали пайплайн автоматического заполнения EMR по итогам видеоконсультаций, исходная гипотеза была простой: Jitsi Meet — open source, документация есть, значит, подключить бота и получить транскрипт — задача на пару дней. На практике именно этот слой занял непропорционально много времени относительно своей "очевидности". В этой статье разберу, как устроена транскрипция в Jitsi Meet под капотом, почему это не "просто включить кнопку", с какими конфигурационными нюансами пришлось столкнуться и как в итоге был выстроен пайплайн от видеозвонка до структурированного текста.
https://habr.com/ru/articles/1021992/
#jitsi_meet #jigasi #sip #xmpp #vosk #transcription #emr #fhir #llm #spring_boot
-
Как устроена транскрипция в Jitsi Meet: Jigasi, SIP и путь до EMR
Когда мы проектировали пайплайн автоматического заполнения EMR по итогам видеоконсультаций, исходная гипотеза была простой: Jitsi Meet — open source, документация есть, значит, подключить бота и получить транскрипт — задача на пару дней. На практике именно этот слой занял непропорционально много времени относительно своей "очевидности". В этой статье разберу, как устроена транскрипция в Jitsi Meet под капотом, почему это не "просто включить кнопку", с какими конфигурационными нюансами пришлось столкнуться и как в итоге был выстроен пайплайн от видеозвонка до структурированного текста.
https://habr.com/ru/articles/1021992/
#jitsi_meet #jigasi #sip #xmpp #vosk #transcription #emr #fhir #llm #spring_boot
-
Как устроена транскрипция в Jitsi Meet: Jigasi, SIP и путь до EMR
Когда мы проектировали пайплайн автоматического заполнения EMR по итогам видеоконсультаций, исходная гипотеза была простой: Jitsi Meet — open source, документация есть, значит, подключить бота и получить транскрипт — задача на пару дней. На практике именно этот слой занял непропорционально много времени относительно своей "очевидности". В этой статье разберу, как устроена транскрипция в Jitsi Meet под капотом, почему это не "просто включить кнопку", с какими конфигурационными нюансами пришлось столкнуться и как в итоге был выстроен пайплайн от видеозвонка до структурированного текста.
https://habr.com/ru/articles/1021992/
#jitsi_meet #jigasi #sip #xmpp #vosk #transcription #emr #fhir #llm #spring_boot
-
Как устроена транскрипция в Jitsi Meet: Jigasi, SIP и путь до EMR
Когда мы проектировали пайплайн автоматического заполнения EMR по итогам видеоконсультаций, исходная гипотеза была простой: Jitsi Meet — open source, документация есть, значит, подключить бота и получить транскрипт — задача на пару дней. На практике именно этот слой занял непропорционально много времени относительно своей "очевидности". В этой статье разберу, как устроена транскрипция в Jitsi Meet под капотом, почему это не "просто включить кнопку", с какими конфигурационными нюансами пришлось столкнуться и как в итоге был выстроен пайплайн от видеозвонка до структурированного текста.
https://habr.com/ru/articles/1021992/
#jitsi_meet #jigasi #sip #xmpp #vosk #transcription #emr #fhir #llm #spring_boot
-
I'm trying to set up voice control for Home Assistant.... in Esperanto! There's only, as far as I know, one local option for an Esperanto STT model able to run on a Raspberry Pi: vosk. And let me tell you, the set up (especially with dockerized home assistant) is, uh, a labor of love, let's say.
Mi sukcesos !
#homeAssistant #esperanto #vosk #stt #docker #languages -
Trying the speech to text engine (vosk) in Kdenlive to add subtitles to some videos I'm working on..
It is mostly right, but sometimes...
-
Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk
За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.
https://habr.com/ru/articles/1002260/
#speechtotext #gigaam #whisper #vosk #onnx #распознавание_речи #WER #голосовой_ввод #ASR #python
-
> Removing PulseAudio..continuing the shift to PipeWire
My #GoPiGo3 robot just shuddered in fear of becoming deaf and mute.
-
> Removing PulseAudio..continuing the shift to PipeWire
My #GoPiGo3 robot just shuddered in fear of becoming deaf and mute.
-
> Removing PulseAudio..continuing the shift to PipeWire
My #GoPiGo3 robot just shuddered in fear of becoming deaf and mute.
-
> Removing PulseAudio..continuing the shift to PipeWire
My #GoPiGo3 robot just shuddered in fear of becoming deaf and mute.
-
> Removing PulseAudio..continuing the shift to PipeWire
My #GoPiGo3 robot just shuddered in fear of becoming deaf and mute.
-
Голосовой ввод для Windows через Vosk своими руками
Я пытался найти в Windows похожий встроенный инструмент или готовое решение, но все они либо брали на себя слишком много неактуального для меня функционала, так как задумывались для людей с ограниченными возможностями, либо были платными, либо были недоступны для русского языка. Лучшим выходом из моей ситуации было создать свое минималистичное решение, и вот как это было:
https://habr.com/ru/articles/969360/
#vosk #распознавание_речи #speechtotext #python #голосовые_интерфейсы #winapi
-
Без интернета и шпионов: как мы собрали локального голосового ассистента
Облачные ассистенты вроде Алисы , Google Assistant и Siri давно стали привычными. Но у всех у них одни и те же слабые места: зависимость от быстрого интернета и риск утечки данных. И речь не только о персональной информации — дома нередко обсуждают темы, которые можно отнести к коммерческой или даже военной тайне. Неудивительно, что многим некомфортно говорить в присутствии микрофона, который каждое слово отправляет куда-то «в облако» (один из наших заказчиков прямо сказал: «никаких Алис в доме не будет») . На Хабре уже появлялись статьи про попытки заменить Алису на полностью локальные решения. Но почти всегда все сводилось к стандартной схеме: ESP32-микрофон → Home Assistant → intent recognition . Такая связка работает, но до действительно «умного» ассистента ей далеко. Мы пошли дальше и собрали свой голосовой ассистент, о котором расскажем в статье.
https://habr.com/ru/companies/wirenboard/articles/965856/
#Wiren_Board #BARY #Алиса #голосовой_ассистент #распознавание_речи #vosk #Piper #Embedding #Wake_Word #умный_дом
-
Без интернета и шпионов: как мы собрали локального голосового ассистента
Облачные ассистенты вроде Алисы , Google Assistant и Siri давно стали привычными. Но у всех у них одни и те же слабые места: зависимость от быстрого интернета и риск утечки данных. И речь не только о персональной информации — дома нередко обсуждают темы, которые можно отнести к коммерческой или даже военной тайне. Неудивительно, что многим некомфортно говорить в присутствии микрофона, который каждое слово отправляет куда-то «в облако» (один из наших заказчиков прямо сказал: «никаких Алис в доме не будет») . На Хабре уже появлялись статьи про попытки заменить Алису на полностью локальные решения. Но почти всегда все сводилось к стандартной схеме: ESP32-микрофон → Home Assistant → intent recognition . Такая связка работает, но до действительно «умного» ассистента ей далеко. Мы пошли дальше и собрали свой голосовой ассистент, о котором расскажем в статье.
https://habr.com/ru/companies/wirenboard/articles/965856/
#Wiren_Board #BARY #Алиса #голосовой_ассистент #распознавание_речи #vosk #Piper #Embedding #Wake_Word #умный_дом
-
Без интернета и шпионов: как мы собрали локального голосового ассистента
Облачные ассистенты вроде Алисы , Google Assistant и Siri давно стали привычными. Но у всех у них одни и те же слабые места: зависимость от быстрого интернета и риск утечки данных. И речь не только о персональной информации — дома нередко обсуждают темы, которые можно отнести к коммерческой или даже военной тайне. Неудивительно, что многим некомфортно говорить в присутствии микрофона, который каждое слово отправляет куда-то «в облако» (один из наших заказчиков прямо сказал: «никаких Алис в доме не будет») . На Хабре уже появлялись статьи про попытки заменить Алису на полностью локальные решения. Но почти всегда все сводилось к стандартной схеме: ESP32-микрофон → Home Assistant → intent recognition . Такая связка работает, но до действительно «умного» ассистента ей далеко. Мы пошли дальше и собрали свой голосовой ассистент, о котором расскажем в статье.
https://habr.com/ru/companies/wirenboard/articles/965856/
#Wiren_Board #BARY #Алиса #голосовой_ассистент #распознавание_речи #vosk #Piper #Embedding #Wake_Word #умный_дом
-
Без интернета и шпионов: как мы собрали локального голосового ассистента
Облачные ассистенты вроде Алисы , Google Assistant и Siri давно стали привычными. Но у всех у них одни и те же слабые места: зависимость от быстрого интернета и риск утечки данных. И речь не только о персональной информации — дома нередко обсуждают темы, которые можно отнести к коммерческой или даже военной тайне. Неудивительно, что многим некомфортно говорить в присутствии микрофона, который каждое слово отправляет куда-то «в облако» (один из наших заказчиков прямо сказал: «никаких Алис в доме не будет») . На Хабре уже появлялись статьи про попытки заменить Алису на полностью локальные решения. Но почти всегда все сводилось к стандартной схеме: ESP32-микрофон → Home Assistant → intent recognition . Такая связка работает, но до действительно «умного» ассистента ей далеко. Мы пошли дальше и собрали свой голосовой ассистент, о котором расскажем в статье.
https://habr.com/ru/companies/wirenboard/articles/965856/
#Wiren_Board #BARY #Алиса #голосовой_ассистент #распознавание_речи #vosk #Piper #Embedding #Wake_Word #умный_дом
-
Scribe: Управляем ПК голосом. Бесплатно, оффлайн и с открытым кодом
Всем привет! Многие знают, что в Windows есть встроенная функция «Распознавание речи», а в новых версиях — «Голосовой ввод» (Win + H). Это неплохие инструменты, но меня в них всегда смущали несколько моментов: непрозрачность в вопросах приватности, ограниченная кастомизация и глубокая интеграция в систему, которую не всегда удобно настраивать. Хотелось чего-то простого, гарантированно оффлайнового и с открытым исходным кодом, чтобы точно знать, как оно работает. Так родилась идея создать Scribe — полностью автономного и максимально гибкого голосового ассистента. В основе — приватность, автономность и гибкость. Я постарался реализовать функции, которых мне не хватало в других программах.
https://habr.com/ru/articles/933968/
#распознавание_речи #голосовое_управление #vosk #pyqt5 #windows #open_source
-
Добавление слов в языковую модель Vosk
Краткий гайд как дополнить vosk модель распознавания речи своими словами. Для дальнейшего использования в своих проектах. Все подводные камни в использовании инструмента kaldi в 2025 году Принять испытание
-
Un anaouder mouezh emgefre, graet gant ar meziantoù Anaouder -version 1.0.0, Kaldi ha Vosk
Fait avec les logiciels open source Anaouder, Kaldi et Vosk.
Istitlañ un video - Sous-titrer une vidéo en breton.
-
Reconnaissance vocale pour le breton avec Vosk.
-
ibus-speech-to-text will provide voice dictation capabilities to any application supporting IBus input methods in #Fedora Linux 42, using VOSK for local voice recognition.
🔗 https://fedoraproject.org/wiki/Changes/ibus-speech-to-text
-
ibus-speech-to-text will provide voice dictation capabilities to any application supporting IBus input methods in #Fedora Linux 42, using VOSK for local voice recognition.
🔗 https://fedoraproject.org/wiki/Changes/ibus-speech-to-text
-
ibus-speech-to-text will provide voice dictation capabilities to any application supporting IBus input methods in #Fedora Linux 42, using VOSK for local voice recognition.
🔗 https://fedoraproject.org/wiki/Changes/ibus-speech-to-text
-
ibus-speech-to-text will provide voice dictation capabilities to any application supporting IBus input methods in #Fedora Linux 42, using VOSK for local voice recognition.
🔗 https://fedoraproject.org/wiki/Changes/ibus-speech-to-text
-
ibus-speech-to-text will provide voice dictation capabilities to any application supporting IBus input methods in #Fedora Linux 42, using VOSK for local voice recognition.
🔗 https://fedoraproject.org/wiki/Changes/ibus-speech-to-text
-
Свой Google в локалке. Ищем иголку в стоге сена
В статье мы разработаем свой собственный Google, который можно будет запустить в любой локальной сети как атакующим, что ищут пароли, так и защитникам, которым небезразлична безопасность их родной локалки. И что примечательно, наш Google будет состоять на 99% из готовых компонентов, практически без дополнительного программирования. А внедрение такой системы потребует ввода всего пары команд.
https://habr.com/ru/companies/ussc/articles/878340/
#active_directory #google #smb #tesseract #vosk #csv #gnu #ftp #краулинг #dcap
-
qui qui veut de la transcription de vidéo ou de fichier audio faite avec du logiciel libre ?
Scribe - Ceméavous pouvez aussi l'auto héberger, et ça fonctionne sans enrichir de milliardaire facho.
-
Les accidents de la vie c'est l'occasion d'utiliser de nouvelles choses. Avoir un bras dans le plâtre et pouvoir moins écrire a été l'occasion pour moi d'essayer la synthèse audio. Avec le logiciel libre vosk installé sur mon téléphone je peux désormais dicter mes textes au lieu de les écrire.
J'ai ainsi pu dicter mes appréciation plutôt que de les écrire et je n'ai plus qu'à corriger la syntaxe parfois défaillante.
#voskapi #voskspeech #vosk -
I haven't tried swipe typing a whole lot with FUTO. The best thing it has going for it is the voice dictation, which is far better than any of the #Vosk-based FOSS options that are out there now, like #SayBoard.
I agree that #Heliboard is simply the best FOSS keyboard out there, hands down.
I find myself using gboard (firewalled off from the internet, of course) recently, as I can just fire away at full speed with minimal corrections afterward (two-thumb typing).
... 1/2
-
quelqu'un a déjà fait un truc avec #vosk qui permet de distinguer les locuteurs dans la #transcription ?
-
Wie versprochen schiebe ich mal ein kleines #Tutorial zu #Vosk rein. Mit Vosk könnt Ihr #Untertitel zu Videos erzeugen & Audio-Dateien transkribieren. Vosk ist also ein #SpeechToText Programm..
Auf der offiziellen Vosk-Webseite steht als Installationsanleitung:
- Installiere die Pakete Python3, pip3 und ffmpeg
- Installiere Vosk mit dem Befehl: pip3 install voskDoch das funktionierte bei mir auf Linux Mint nicht, denn nach dem pip3-Befehl konnte Vosk nicht gestartet werden.
1/x -
Ich bin gerade dabei, Untertitel für meine Reisevideos erzeugen zu lassen. Leider versteht #Vosk meinen Dialekt nicht so ganz.... 😄
Es wird doch ein ganz harmloses und jugendfreies Reisefilmchen.... -
#Sayboard. This project provides a voice keyboard using #Vosk. It is based on https://github.com/Felicis/vosk-android-demo.
This app requires a Vosk model to run. You can use the built-in downloader or download manually from https://alphacephei.com/vosk/models, and then import into the app.
https://f-droid.org/en/packages/com.elishaazaria.sayboard/ -
#DailyBloggingChallenge (362/365)
Originally wanted to use #VOSK to transcribe the #SpeechToText. Initially tried it out over #KdenLive and its ‘Speech Recognition’ tool.
This took quite awhile to setup, since it is not concrete what kind file format, if any, the VOSK model should have. Additionally, the recommendation of setting up a virtual #Python environment didn’t work as expect and went with the global approach.
And finally scratched the whole approach, once realizing that transcribing 26 min audio clip is taking longer than 10min.
-
Dicio assistant- багатомовний голосовий асистент під Andoid з відкритим кодом.Наданий момент українська мова відсутня, але робота над цією проблемою у процесі. І я хочу попросити вас про допомогу в локалізації. Інтерфейс додатка на WebLate вже перекладений, а от внутрішнє розпізнавання команд поки не повністю. Щоб розпізнавання було кращим і точнішим я прошу в вас допомоги. Я створив відгалуження репозиторію і вже переклав деякі навички, інші ще в процесі. Ви можете переглянути вже присутній переклад і запропонувати виправлення чи додати щось нове до нього, або створивши ще одне відгалуження, або просто написати мені тут і я додам ці зміни.
#foss #fdroid #android #assistant #voiceassistant #vosk #голосовий_асистент #асистент #локалізація #переклад #українізація
-
If you have to do Speech-to-Text and Text-to-Speech tasks and don't want to send your data to the Internet, I recommend you to try Speech Note (Linux desktop app).
It is easy to use, works offline and supports 57 languages!
Speech Note works thanks to powerful #STT and #TTS engines underneath: #DeepSpeech #Coqui #Vosk #Whisper #Piper #eSpeak #MBROLA #RHVoice
You can download #SpeechNote from #Flathub: https://flathub.org/apps/net.mkiol.SpeechNote
Video demo: https://youtu.be/EhUPvaHvssw
-
If you have to do Speech-to-Text and Text-to-Speech tasks and don't want to send your data to the Internet, I recommend you to try Speech Note (Linux desktop app).
It is easy to use, works offline and supports 57 languages!
Speech Note works thanks to powerful #STT and #TTS engines underneath: #DeepSpeech #Coqui #Vosk #Whisper #Piper #eSpeak #MBROLA #RHVoice
You can download #SpeechNote from #Flathub: https://flathub.org/apps/net.mkiol.SpeechNote
Video demo: https://youtu.be/EhUPvaHvssw
-
If you have to do Speech-to-Text and Text-to-Speech tasks and don't want to send your data to the Internet, I recommend you to try Speech Note (Linux desktop app).
It is easy to use, works offline and supports 57 languages!
Speech Note works thanks to powerful #STT and #TTS engines underneath: #DeepSpeech #Coqui #Vosk #Whisper #Piper #eSpeak #MBROLA #RHVoice
You can download #SpeechNote from #Flathub: https://flathub.org/apps/net.mkiol.SpeechNote
Video demo: https://youtu.be/EhUPvaHvssw
-
If you have to do Speech-to-Text and Text-to-Speech tasks and don't want to send your data to the Internet, I recommend you to try Speech Note (Linux desktop app).
It is easy to use, works offline and supports 57 languages!
Speech Note works thanks to powerful #STT and #TTS engines underneath: #DeepSpeech #Coqui #Vosk #Whisper #Piper #eSpeak #MBROLA #RHVoice
You can download #SpeechNote from #Flathub: https://flathub.org/apps/net.mkiol.SpeechNote
Video demo: https://youtu.be/EhUPvaHvssw
-
If you have to do Speech-to-Text and Text-to-Speech tasks and don't want to send your data to the Internet, I recommend you to try Speech Note (Linux desktop app).
It is easy to use, works offline and supports 57 languages!
Speech Note works thanks to powerful #STT and #TTS engines underneath: #DeepSpeech #Coqui #Vosk #Whisper #Piper #eSpeak #MBROLA #RHVoice
You can download #SpeechNote from #Flathub: https://flathub.org/apps/net.mkiol.SpeechNote
Video demo: https://youtu.be/EhUPvaHvssw
-
Happy to announce the update of #SpeechNote and #SpeechKeyboard apps for #SailfishOS.
The new release brings bunch of new languages and improvements to existing ones. Speech Note understands now 47 languages!
In addition to #DeepSpeech #Coqui, also #Vosk and #Whisper models are now supported.
https://openrepos.net/content/mkiol/speech-note
https://openrepos.net/content/mkiol/speech-keyboard -
Happy to announce the update of #SpeechNote and #SpeechKeyboard apps for #SailfishOS.
The new release brings bunch of new languages and improvements to existing ones. Speech Note understands now 47 languages!
In addition to #DeepSpeech #Coqui, also #Vosk and #Whisper models are now supported.
https://openrepos.net/content/mkiol/speech-note
https://openrepos.net/content/mkiol/speech-keyboard -
Happy to announce the update of #SpeechNote and #SpeechKeyboard apps for #SailfishOS.
The new release brings bunch of new languages and improvements to existing ones. Speech Note understands now 47 languages!
In addition to #DeepSpeech #Coqui, also #Vosk and #Whisper models are now supported.
https://openrepos.net/content/mkiol/speech-note
https://openrepos.net/content/mkiol/speech-keyboard -
So I want to train some audio data for VOSK and it says I need to use Kaldi with some filters on the model.
Q1: Has anybody ever trained a Kaldi model to use with the VOSK-API?
Q2: Did you struggle to set it up?
Q3: Did you need an expensive cloud GPU?