home.social

#speech2text — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #speech2text, aggregated by home.social.

  1. @correctiv_org @digiges

    Cellebrite ist wahrscheinlich nicht mal #KI jenseits von #speech2text und #ocr, aber die Anwälte können darin nicht mal Entlastung suchen, weil sie 12TB nicht auswerten können. #Polizei übrigens fast auch nicht.

    Zusammen mit der #Europol Schatten IT ist der Schaden für den Rechtsstaaat nicht absehbar.

    @AwetTesfaiesus @GrueneBundestag

  2. @correctiv_org @digiges

    Cellebrite ist wahrscheinlich nicht mal #KI jenseits von #speech2text und #ocr, aber die Anwälte können darin nicht mal Entlastung suchen, weil sie 12TB nicht auswerten können. #Polizei übrigens fast auch nicht.

    Zusammen mit der #Europol Schatten IT ist der Schaden für den Rechtsstaaat nicht absehbar.

    @AwetTesfaiesus @GrueneBundestag

  3. @correctiv_org @digiges

    Cellebrite ist wahrscheinlich nicht mal #KI jenseits von #speech2text und #ocr, aber die Anwälte können darin nicht mal Entlastung suchen, weil sie 12TB nicht auswerten können. #Polizei übrigens fast auch nicht.

    Zusammen mit der #Europol Schatten IT ist der Schaden für den Rechtsstaaat nicht absehbar.

    @AwetTesfaiesus @GrueneBundestag

  4. @correctiv_org @digiges

    Cellebrite ist wahrscheinlich nicht mal #KI jenseits von #speech2text und #ocr, aber die Anwälte können darin nicht mal Entlastung suchen, weil sie 12TB nicht auswerten können. #Polizei übrigens fast auch nicht.

    Zusammen mit der #Europol Schatten IT ist der Schaden für den Rechtsstaaat nicht absehbar.

    @AwetTesfaiesus @GrueneBundestag

  5. @correctiv_org @digiges

    Cellebrite ist wahrscheinlich nicht mal #KI jenseits von #speech2text und #ocr, aber die Anwälte können darin nicht mal Entlastung suchen, weil sie 12TB nicht auswerten können. #Polizei übrigens fast auch nicht.

    Zusammen mit der #Europol Schatten IT ist der Schaden für den Rechtsstaaat nicht absehbar.

    @AwetTesfaiesus @GrueneBundestag

  6. Tìm công cụ **chuyển giọng nói sang chữ** mã nguồn mở?
    Whisper (OpenAI) là lựa chọn hàng đầu cho độ chính xác cao với hỗ trợ mô hình lớn (phù hợp VRAM 32GB). Ngoài ra, các công cụ như Kaldi, DeepSpeech (Mozilla), và NVIDIA NeMo cũng đáng cân nhắc tùy nhu cầu. #KỹThuật #AI #PhátTriểnMở #Speech2Text #CôngNghệVN

    reddit.com/r/opensource/commen

  7. Add #speech2text to your #omarchy (#arch #linux) 🎙️ 🤖 😊

    Since there is no WhisperFlow for Linux, I was forced to find something else. It's not perfect, but it works well enough, and it's 100% local ❤️ 🔒

    github.com/michabbb/omarchy-sp

    #ai #coding

  8. Add #speech2text to your #omarchy (#arch #linux) 🎙️ 🤖 😊

    Since there is no WhisperFlow for Linux, I was forced to find something else. It's not perfect, but it works well enough, and it's 100% local ❤️ 🔒

    github.com/michabbb/omarchy-sp

    #ai #coding

  9. Add #speech2text to your #omarchy (#arch #linux) 🎙️ 🤖 😊

    Since there is no WhisperFlow for Linux, I was forced to find something else. It's not perfect, but it works well enough, and it's 100% local ❤️ 🔒

    github.com/michabbb/omarchy-sp

    #ai #coding

  10. Add #speech2text to your #omarchy (#arch #linux) 🎙️ 🤖 😊

    Since there is no WhisperFlow for Linux, I was forced to find something else. It's not perfect, but it works well enough, and it's 100% local ❤️ 🔒

    github.com/michabbb/omarchy-sp

    #ai #coding

  11. Add #speech2text to your #omarchy (#arch #linux) 🎙️ 🤖 😊

    Since there is no WhisperFlow for Linux, I was forced to find something else. It's not perfect, but it works well enough, and it's 100% local ❤️ 🔒

    github.com/michabbb/omarchy-sp

    #ai #coding

  12. Ich suchte ein LLM das lokal auf meinem Handy #Speech2Text machen kann und ich fand das großartige whisperIMEplus. Es klinkt sich in die Tastatur per Icon ein und lässt sich per Knopfdruck aufrufen und zeichnet sofort Audio auf, das dann an den Cursor gepastet wird. So soll das sein :blobcoffee:

    github.com/woheller69/whisperI

  13. Ich suchte ein LLM das lokal auf meinem Handy #Speech2Text machen kann und ich fand das großartige whisperIMEplus. Es klinkt sich in die Tastatur per Icon ein und lässt sich per Knopfdruck aufrufen und zeichnet sofort Audio auf, das dann an den Cursor gepastet wird. So soll das sein :blobcoffee:

    github.com/woheller69/whisperI

  14. Ich suchte ein LLM das lokal auf meinem Handy #Speech2Text machen kann und ich fand das großartige whisperIMEplus. Es klinkt sich in die Tastatur per Icon ein und lässt sich per Knopfdruck aufrufen und zeichnet sofort Audio auf, das dann an den Cursor gepastet wird. So soll das sein :blobcoffee:

    github.com/woheller69/whisperI

  15. Progress on my little speech2text/transcription project:

    1. You press some hotkeys.
    2. You speak into your microphone.
    3. You wait for approx. 10 secs. (depending on your hardware)
    4. Text starts to magically appear on your screen!

    :awesome:

    It feels like True Magic™! 🪄 ✨

    This is why I love software development! ❤️

    #Speech2Text #AI #Whisper #Rust #RustLang #Audio #AudioTranscription

  16. Progress on my little speech2text/transcription project:

    1. You press some hotkeys.
    2. You speak into your microphone.
    3. You wait for approx. 10 secs. (depending on your hardware)
    4. Text starts to magically appear on your screen!

    :awesome:

    It feels like True Magic™! 🪄 ✨

    This is why I love software development! ❤️

    #Speech2Text #AI #Whisper #Rust #RustLang #Audio #AudioTranscription

  17. Progress on my little speech2text/transcription project:

    1. You press some hotkeys.
    2. You speak into your microphone.
    3. You wait for approx. 10 secs. (depending on your hardware)
    4. Text starts to magically appear on your screen!

    :awesome:

    It feels like True Magic™! 🪄 ✨

    This is why I love software development! ❤️

    #Speech2Text #AI #Whisper #Rust #RustLang #Audio #AudioTranscription

  18. Progress on my little speech2text/transcription project:

    1. You press some hotkeys.
    2. You speak into your microphone.
    3. You wait for approx. 10 secs. (depending on your hardware)
    4. Text starts to magically appear on your screen!

    :awesome:

    It feels like True Magic™! 🪄 ✨

    This is why I love software development! ❤️

    #Speech2Text #AI #Whisper #Rust #RustLang #Audio #AudioTranscription

  19. Progress on my little speech2text/transcription project:

    1. You press some hotkeys.
    2. You speak into your microphone.
    3. You wait for approx. 10 secs. (depending on your hardware)
    4. Text starts to magically appear on your screen!

    :awesome:

    It feels like True Magic™! 🪄 ✨

    This is why I love software development! ❤️

    #Speech2Text #AI #Whisper #Rust #RustLang #Audio #AudioTranscription

  20. Используем API Speech2Text для распознавания записей разговоров

    В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную. Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):

    habr.com/ru/articles/926918/

    #Speech2Text #api

  21. Используем API Speech2Text для распознавания записей разговоров

    В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную. Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):

    habr.com/ru/articles/926918/

    #Speech2Text #api

  22. Используем API Speech2Text для распознавания записей разговоров

    В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную. Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):

    habr.com/ru/articles/926918/

    #Speech2Text #api

  23. Используем API Speech2Text для распознавания записей разговоров

    В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную. Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):

    habr.com/ru/articles/926918/

    #Speech2Text #api

  24. #Speech #Note#Notizen und mehr -

    Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.

    Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.

    linuxnews.de/speech-note-notiz

  25. #Speech #Note#Notizen und mehr -

    Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.

    Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.

    linuxnews.de/speech-note-notiz

  26. #Speech #Note#Notizen und mehr -

    Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.

    Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.

    linuxnews.de/speech-note-notiz

  27. #Speech #Note#Notizen und mehr -

    Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.

    Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.

    linuxnews.de/speech-note-notiz

  28. #Speech #Note#Notizen und mehr -

    Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.

    Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.

    linuxnews.de/speech-note-notiz

  29. Wenn eins ein paar Audiodateien #transkribieren wollen würde, wie würde eins das auf #Debian machen? Ich hatte mal ein Tool irgendwo gefunden, dass das in CLI konnte und dann den Text meine ich sogar mit den Sprechern ausgeworfen hat. Vielleicht hab ich das Tool sogar noch installiert.

    Offline wäre super.

    #Speech2Text #VoiceRecognition
  30. Wenn eins ein paar Audiodateien #transkribieren wollen würde, wie würde eins das auf #Debian machen? Ich hatte mal ein Tool irgendwo gefunden, dass das in CLI konnte und dann den Text meine ich sogar mit den Sprechern ausgeworfen hat. Vielleicht hab ich das Tool sogar noch installiert.

    Offline wäre super.

    #Speech2Text #VoiceRecognition
  31. Wenn eins ein paar Audiodateien #transkribieren wollen würde, wie würde eins das auf #Debian machen? Ich hatte mal ein Tool irgendwo gefunden, dass das in CLI konnte und dann den Text meine ich sogar mit den Sprechern ausgeworfen hat. Vielleicht hab ich das Tool sogar noch installiert.

    Offline wäre super.

    #Speech2Text #VoiceRecognition
  32. Wenn eins ein paar Audiodateien #transkribieren wollen würde, wie würde eins das auf #Debian machen? Ich hatte mal ein Tool irgendwo gefunden, dass das in CLI konnte und dann den Text meine ich sogar mit den Sprechern ausgeworfen hat. Vielleicht hab ich das Tool sogar noch installiert.

    Offline wäre super.

    #Speech2Text #VoiceRecognition
  33. Wenn eins ein paar Audiodateien #transkribieren wollen würde, wie würde eins das auf #Debian machen? Ich hatte mal ein Tool irgendwo gefunden, dass das in CLI konnte und dann den Text meine ich sogar mit den Sprechern ausgeworfen hat. Vielleicht hab ich das Tool sogar noch installiert.

    Offline wäre super.

    #Speech2Text #VoiceRecognition
  34. New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”

    Blog post by Pete Warden: petewarden.com/2024/10/21/intr

    GitHub: github.com/usefulsensors/moons
    Paper: arxiv.org/abs/2410.15608

    #GenAI #speech2text

  35. New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”

    Blog post by Pete Warden: petewarden.com/2024/10/21/intr

    GitHub: github.com/usefulsensors/moons
    Paper: arxiv.org/abs/2410.15608

    #GenAI #speech2text

  36. New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”

    Blog post by Pete Warden: petewarden.com/2024/10/21/intr

    GitHub: github.com/usefulsensors/moons
    Paper: arxiv.org/abs/2410.15608

    #GenAI #speech2text

  37. New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”

    Blog post by Pete Warden: petewarden.com/2024/10/21/intr

    GitHub: github.com/usefulsensors/moons
    Paper: arxiv.org/abs/2410.15608

    #GenAI #speech2text

  38. New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”

    Blog post by Pete Warden: petewarden.com/2024/10/21/intr

    GitHub: github.com/usefulsensors/moons
    Paper: arxiv.org/abs/2410.15608

    #GenAI #speech2text

  39. I'm extracting speech from audio files in French using Wav2Vec2.
    the result is really not great, barely readable
    "nerla sene reste trop oulué pour les épreuves notiques des gios "

    But adding a LLM layer to correct it works like a charm
    "La Seine reste trop polluée pour les épreuves nautiques des JO."

    So much time saved. No need to tinker with the models and audio anymore.
    #speech2text #data #audio

  40. I'm extracting speech from audio files in French using Wav2Vec2.
    the result is really not great, barely readable
    "nerla sene reste trop oulué pour les épreuves notiques des gios "

    But adding a LLM layer to correct it works like a charm
    "La Seine reste trop polluée pour les épreuves nautiques des JO."

    So much time saved. No need to tinker with the models and audio anymore.
    #speech2text #data #audio

  41. I'm extracting speech from audio files in French using Wav2Vec2.
    the result is really not great, barely readable
    "nerla sene reste trop oulué pour les épreuves notiques des gios "

    But adding a LLM layer to correct it works like a charm
    "La Seine reste trop polluée pour les épreuves nautiques des JO."

    So much time saved. No need to tinker with the models and audio anymore.
    #speech2text #data #audio

  42. I'm extracting speech from audio files in French using Wav2Vec2.
    the result is really not great, barely readable
    "nerla sene reste trop oulué pour les épreuves notiques des gios "

    But adding a LLM layer to correct it works like a charm
    "La Seine reste trop polluée pour les épreuves nautiques des JO."

    So much time saved. No need to tinker with the models and audio anymore.
    #speech2text #data #audio

  43. I'm extracting speech from audio files in French using Wav2Vec2.
    the result is really not great, barely readable
    "nerla sene reste trop oulué pour les épreuves notiques des gios "

    But adding a LLM layer to correct it works like a charm
    "La Seine reste trop polluée pour les épreuves nautiques des JO."

    So much time saved. No need to tinker with the models and audio anymore.
    #speech2text #data #audio

  44. The implementation of the new @deepgramai „nova-2“ speech recognition model in my self-developed #app "Anruf Fee" has now brought me the hoped for #speech2text improvements for the #German language in this app.

    The attached example of an incoming spam call shows how well it works. It saves me having to answer annoying unknown callers, but at the same time ensures that I don't miss anything important by recognizing the caller's topic.
    apps.apple.com/de/app/anruf-fe

  45. The implementation of the new @deepgramai „nova-2“ speech recognition model in my self-developed #app "Anruf Fee" has now brought me the hoped for #speech2text improvements for the #German language in this app.

    The attached example of an incoming spam call shows how well it works. It saves me having to answer annoying unknown callers, but at the same time ensures that I don't miss anything important by recognizing the caller's topic.
    apps.apple.com/de/app/anruf-fe

  46. The implementation of the new @deepgramai „nova-2“ speech recognition model in my self-developed #app "Anruf Fee" has now brought me the hoped for #speech2text improvements for the #German language in this app.

    The attached example of an incoming spam call shows how well it works. It saves me having to answer annoying unknown callers, but at the same time ensures that I don't miss anything important by recognizing the caller's topic.
    apps.apple.com/de/app/anruf-fe