#speech2text — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #speech2text, aggregated by home.social.
-
Cellebrite ist wahrscheinlich nicht mal #KI jenseits von #speech2text und #ocr, aber die Anwälte können darin nicht mal Entlastung suchen, weil sie 12TB nicht auswerten können. #Polizei übrigens fast auch nicht.
Zusammen mit der #Europol Schatten IT ist der Schaden für den Rechtsstaaat nicht absehbar.
-
Cellebrite ist wahrscheinlich nicht mal #KI jenseits von #speech2text und #ocr, aber die Anwälte können darin nicht mal Entlastung suchen, weil sie 12TB nicht auswerten können. #Polizei übrigens fast auch nicht.
Zusammen mit der #Europol Schatten IT ist der Schaden für den Rechtsstaaat nicht absehbar.
-
Cellebrite ist wahrscheinlich nicht mal #KI jenseits von #speech2text und #ocr, aber die Anwälte können darin nicht mal Entlastung suchen, weil sie 12TB nicht auswerten können. #Polizei übrigens fast auch nicht.
Zusammen mit der #Europol Schatten IT ist der Schaden für den Rechtsstaaat nicht absehbar.
-
Cellebrite ist wahrscheinlich nicht mal #KI jenseits von #speech2text und #ocr, aber die Anwälte können darin nicht mal Entlastung suchen, weil sie 12TB nicht auswerten können. #Polizei übrigens fast auch nicht.
Zusammen mit der #Europol Schatten IT ist der Schaden für den Rechtsstaaat nicht absehbar.
-
Cellebrite ist wahrscheinlich nicht mal #KI jenseits von #speech2text und #ocr, aber die Anwälte können darin nicht mal Entlastung suchen, weil sie 12TB nicht auswerten können. #Polizei übrigens fast auch nicht.
Zusammen mit der #Europol Schatten IT ist der Schaden für den Rechtsstaaat nicht absehbar.
-
Tìm công cụ **chuyển giọng nói sang chữ** mã nguồn mở?
Whisper (OpenAI) là lựa chọn hàng đầu cho độ chính xác cao với hỗ trợ mô hình lớn (phù hợp VRAM 32GB). Ngoài ra, các công cụ như Kaldi, DeepSpeech (Mozilla), và NVIDIA NeMo cũng đáng cân nhắc tùy nhu cầu. #KỹThuật #AI #PhátTriểnMở #Speech2Text #CôngNghệVNhttps://www.reddit.com/r/opensource/comments/1pqis1r/any_good_open_source_speech_to_text_tools/
-
Add #speech2text to your #omarchy (#arch #linux) 🎙️ 🤖 😊
Since there is no WhisperFlow for Linux, I was forced to find something else. It's not perfect, but it works well enough, and it's 100% local ❤️ 🔒
-
Add #speech2text to your #omarchy (#arch #linux) 🎙️ 🤖 😊
Since there is no WhisperFlow for Linux, I was forced to find something else. It's not perfect, but it works well enough, and it's 100% local ❤️ 🔒
-
Add #speech2text to your #omarchy (#arch #linux) 🎙️ 🤖 😊
Since there is no WhisperFlow for Linux, I was forced to find something else. It's not perfect, but it works well enough, and it's 100% local ❤️ 🔒
-
Add #speech2text to your #omarchy (#arch #linux) 🎙️ 🤖 😊
Since there is no WhisperFlow for Linux, I was forced to find something else. It's not perfect, but it works well enough, and it's 100% local ❤️ 🔒
-
Add #speech2text to your #omarchy (#arch #linux) 🎙️ 🤖 😊
Since there is no WhisperFlow for Linux, I was forced to find something else. It's not perfect, but it works well enough, and it's 100% local ❤️ 🔒
-
Ich suchte ein LLM das lokal auf meinem Handy #Speech2Text machen kann und ich fand das großartige whisperIMEplus. Es klinkt sich in die Tastatur per Icon ein und lässt sich per Knopfdruck aufrufen und zeichnet sofort Audio auf, das dann an den Cursor gepastet wird. So soll das sein :blobcoffee:
-
Ich suchte ein LLM das lokal auf meinem Handy #Speech2Text machen kann und ich fand das großartige whisperIMEplus. Es klinkt sich in die Tastatur per Icon ein und lässt sich per Knopfdruck aufrufen und zeichnet sofort Audio auf, das dann an den Cursor gepastet wird. So soll das sein :blobcoffee:
-
Ich suchte ein LLM das lokal auf meinem Handy #Speech2Text machen kann und ich fand das großartige whisperIMEplus. Es klinkt sich in die Tastatur per Icon ein und lässt sich per Knopfdruck aufrufen und zeichnet sofort Audio auf, das dann an den Cursor gepastet wird. So soll das sein :blobcoffee:
-
Progress on my little speech2text/transcription project:
1. You press some hotkeys.
2. You speak into your microphone.
3. You wait for approx. 10 secs. (depending on your hardware)
4. Text starts to magically appear on your screen!:awesome:
It feels like True Magic™! 🪄 ✨
This is why I love software development! ❤️
#Speech2Text #AI #Whisper #Rust #RustLang #Audio #AudioTranscription
-
Progress on my little speech2text/transcription project:
1. You press some hotkeys.
2. You speak into your microphone.
3. You wait for approx. 10 secs. (depending on your hardware)
4. Text starts to magically appear on your screen!:awesome:
It feels like True Magic™! 🪄 ✨
This is why I love software development! ❤️
#Speech2Text #AI #Whisper #Rust #RustLang #Audio #AudioTranscription
-
Progress on my little speech2text/transcription project:
1. You press some hotkeys.
2. You speak into your microphone.
3. You wait for approx. 10 secs. (depending on your hardware)
4. Text starts to magically appear on your screen!:awesome:
It feels like True Magic™! 🪄 ✨
This is why I love software development! ❤️
#Speech2Text #AI #Whisper #Rust #RustLang #Audio #AudioTranscription
-
Progress on my little speech2text/transcription project:
1. You press some hotkeys.
2. You speak into your microphone.
3. You wait for approx. 10 secs. (depending on your hardware)
4. Text starts to magically appear on your screen!:awesome:
It feels like True Magic™! 🪄 ✨
This is why I love software development! ❤️
#Speech2Text #AI #Whisper #Rust #RustLang #Audio #AudioTranscription
-
Progress on my little speech2text/transcription project:
1. You press some hotkeys.
2. You speak into your microphone.
3. You wait for approx. 10 secs. (depending on your hardware)
4. Text starts to magically appear on your screen!:awesome:
It feels like True Magic™! 🪄 ✨
This is why I love software development! ❤️
#Speech2Text #AI #Whisper #Rust #RustLang #Audio #AudioTranscription
-
Используем API Speech2Text для распознавания записей разговоров
В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную. Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):
-
Используем API Speech2Text для распознавания записей разговоров
В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную. Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):
-
Используем API Speech2Text для распознавания записей разговоров
В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную. Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):
-
Используем API Speech2Text для распознавания записей разговоров
В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную. Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):
-
#Multilingual #Speech2Speech #Agents are here!
Supporting the latest #OpenAI Speech Models and more. Also works for #Luxembourgish!
⚙️https://besser-agentic-framework.readthedocs.io/latest/release_notes/v4.0.0.html
#opensource #python #text2speech #speech2text #languagedetection #nlp #lowcode #llm #rag
-
#Multilingual #Speech2Speech #Agents are here!
Supporting the latest #OpenAI Speech Models and more. Also works for #Luxembourgish!
⚙️https://besser-agentic-framework.readthedocs.io/latest/release_notes/v4.0.0.html
#opensource #python #text2speech #speech2text #languagedetection #nlp #lowcode #llm #rag
-
#Multilingual #Speech2Speech #Agents are here!
Supporting the latest #OpenAI Speech Models and more. Also works for #Luxembourgish!
⚙️https://besser-agentic-framework.readthedocs.io/latest/release_notes/v4.0.0.html
#opensource #python #text2speech #speech2text #languagedetection #nlp #lowcode #llm #rag
-
#Multilingual #Speech2Speech #Agents are here!
Supporting the latest #OpenAI Speech Models and more. Also works for #Luxembourgish!
⚙️https://besser-agentic-framework.readthedocs.io/latest/release_notes/v4.0.0.html
#opensource #python #text2speech #speech2text #languagedetection #nlp #lowcode #llm #rag
-
#Speech #Note – #Notizen und mehr -
Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.
Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.
-
#Speech #Note – #Notizen und mehr -
Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.
Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.
-
#Speech #Note – #Notizen und mehr -
Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.
Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.
-
#Speech #Note – #Notizen und mehr -
Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.
Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.
-
#Speech #Note – #Notizen und mehr -
Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.
Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.
-
Wenn eins ein paar Audiodateien #transkribieren wollen würde, wie würde eins das auf #Debian machen? Ich hatte mal ein Tool irgendwo gefunden, dass das in CLI konnte und dann den Text meine ich sogar mit den Sprechern ausgeworfen hat. Vielleicht hab ich das Tool sogar noch installiert.
Offline wäre super.
#Speech2Text #VoiceRecognition -
Wenn eins ein paar Audiodateien #transkribieren wollen würde, wie würde eins das auf #Debian machen? Ich hatte mal ein Tool irgendwo gefunden, dass das in CLI konnte und dann den Text meine ich sogar mit den Sprechern ausgeworfen hat. Vielleicht hab ich das Tool sogar noch installiert.
Offline wäre super.
#Speech2Text #VoiceRecognition -
Wenn eins ein paar Audiodateien #transkribieren wollen würde, wie würde eins das auf #Debian machen? Ich hatte mal ein Tool irgendwo gefunden, dass das in CLI konnte und dann den Text meine ich sogar mit den Sprechern ausgeworfen hat. Vielleicht hab ich das Tool sogar noch installiert.
Offline wäre super.
#Speech2Text #VoiceRecognition -
Wenn eins ein paar Audiodateien #transkribieren wollen würde, wie würde eins das auf #Debian machen? Ich hatte mal ein Tool irgendwo gefunden, dass das in CLI konnte und dann den Text meine ich sogar mit den Sprechern ausgeworfen hat. Vielleicht hab ich das Tool sogar noch installiert.
Offline wäre super.
#Speech2Text #VoiceRecognition -
Wenn eins ein paar Audiodateien #transkribieren wollen würde, wie würde eins das auf #Debian machen? Ich hatte mal ein Tool irgendwo gefunden, dass das in CLI konnte und dann den Text meine ich sogar mit den Sprechern ausgeworfen hat. Vielleicht hab ich das Tool sogar noch installiert.
Offline wäre super.
#Speech2Text #VoiceRecognition -
New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”
Blog post by Pete Warden: https://petewarden.com/2024/10/21/introducing-moonshine-the-new-state-of-the-art-for-speech-to-text/
GitHub: https://github.com/usefulsensors/moonshine
Paper: https://arxiv.org/abs/2410.15608 -
New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”
Blog post by Pete Warden: https://petewarden.com/2024/10/21/introducing-moonshine-the-new-state-of-the-art-for-speech-to-text/
GitHub: https://github.com/usefulsensors/moonshine
Paper: https://arxiv.org/abs/2410.15608 -
New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”
Blog post by Pete Warden: https://petewarden.com/2024/10/21/introducing-moonshine-the-new-state-of-the-art-for-speech-to-text/
GitHub: https://github.com/usefulsensors/moonshine
Paper: https://arxiv.org/abs/2410.15608 -
New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”
Blog post by Pete Warden: https://petewarden.com/2024/10/21/introducing-moonshine-the-new-state-of-the-art-for-speech-to-text/
GitHub: https://github.com/usefulsensors/moonshine
Paper: https://arxiv.org/abs/2410.15608 -
New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”
Blog post by Pete Warden: https://petewarden.com/2024/10/21/introducing-moonshine-the-new-state-of-the-art-for-speech-to-text/
GitHub: https://github.com/usefulsensors/moonshine
Paper: https://arxiv.org/abs/2410.15608 -
I'm extracting speech from audio files in French using Wav2Vec2.
the result is really not great, barely readable
"nerla sene reste trop oulué pour les épreuves notiques des gios "But adding a LLM layer to correct it works like a charm
"La Seine reste trop polluée pour les épreuves nautiques des JO."So much time saved. No need to tinker with the models and audio anymore.
#speech2text #data #audio -
I'm extracting speech from audio files in French using Wav2Vec2.
the result is really not great, barely readable
"nerla sene reste trop oulué pour les épreuves notiques des gios "But adding a LLM layer to correct it works like a charm
"La Seine reste trop polluée pour les épreuves nautiques des JO."So much time saved. No need to tinker with the models and audio anymore.
#speech2text #data #audio -
I'm extracting speech from audio files in French using Wav2Vec2.
the result is really not great, barely readable
"nerla sene reste trop oulué pour les épreuves notiques des gios "But adding a LLM layer to correct it works like a charm
"La Seine reste trop polluée pour les épreuves nautiques des JO."So much time saved. No need to tinker with the models and audio anymore.
#speech2text #data #audio -
I'm extracting speech from audio files in French using Wav2Vec2.
the result is really not great, barely readable
"nerla sene reste trop oulué pour les épreuves notiques des gios "But adding a LLM layer to correct it works like a charm
"La Seine reste trop polluée pour les épreuves nautiques des JO."So much time saved. No need to tinker with the models and audio anymore.
#speech2text #data #audio -
I'm extracting speech from audio files in French using Wav2Vec2.
the result is really not great, barely readable
"nerla sene reste trop oulué pour les épreuves notiques des gios "But adding a LLM layer to correct it works like a charm
"La Seine reste trop polluée pour les épreuves nautiques des JO."So much time saved. No need to tinker with the models and audio anymore.
#speech2text #data #audio -
The implementation of the new @deepgramai „nova-2“ speech recognition model in my self-developed #app "Anruf Fee" has now brought me the hoped for #speech2text improvements for the #German language in this app.
The attached example of an incoming spam call shows how well it works. It saves me having to answer annoying unknown callers, but at the same time ensures that I don't miss anything important by recognizing the caller's topic.
https://apps.apple.com/de/app/anruf-fee/id6443781534 -
The implementation of the new @deepgramai „nova-2“ speech recognition model in my self-developed #app "Anruf Fee" has now brought me the hoped for #speech2text improvements for the #German language in this app.
The attached example of an incoming spam call shows how well it works. It saves me having to answer annoying unknown callers, but at the same time ensures that I don't miss anything important by recognizing the caller's topic.
https://apps.apple.com/de/app/anruf-fee/id6443781534 -
The implementation of the new @deepgramai „nova-2“ speech recognition model in my self-developed #app "Anruf Fee" has now brought me the hoped for #speech2text improvements for the #German language in this app.
The attached example of an incoming spam call shows how well it works. It saves me having to answer annoying unknown callers, but at the same time ensures that I don't miss anything important by recognizing the caller's topic.
https://apps.apple.com/de/app/anruf-fee/id6443781534