#deepgram — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #deepgram, aggregated by home.social.
-
Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная
Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня. Знакомо? Мне - до зубного скрежета. Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог. И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord. Пошёл искать. И тут началось.
https://habr.com/ru/articles/1019458/
#realtime_communications #translations #speechtotext #texttospeech #deepgram #groq #elixir #rust #open_source #voice_ai
-
Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная
Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня. Знакомо? Мне - до зубного скрежета. Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог. И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord. Пошёл искать. И тут началось.
https://habr.com/ru/articles/1019458/
#realtime_communications #translations #speechtotext #texttospeech #deepgram #groq #elixir #rust #open_source #voice_ai
-
Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная
Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня. Знакомо? Мне - до зубного скрежета. Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог. И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord. Пошёл искать. И тут началось.
https://habr.com/ru/articles/1019458/
#realtime_communications #translations #speechtotext #texttospeech #deepgram #groq #elixir #rust #open_source #voice_ai
-
Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная
Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня. Знакомо? Мне - до зубного скрежета. Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог. И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord. Пошёл искать. И тут началось.
https://habr.com/ru/articles/1019458/
#realtime_communications #translations #speechtotext #texttospeech #deepgram #groq #elixir #rust #open_source #voice_ai
-
Deepgram triples default concurrency limits as voice agents quietly move from pilot to production
https://web.brid.gy/r/https://nerds.xyz/2026/02/deepgram-triples-default-concurrency-limits/
-
Deepgram triples default concurrency limits as voice agents quietly move from pilot to production
https://fed.brid.gy/r/https://nerds.xyz/2026/02/deepgram-triples-default-concurrency-limits/
-
Deepgram triples default concurrency limits as voice agents quietly move from pilot to production
https://web.brid.gy/r/https://nerds.xyz/2026/02/deepgram-triples-default-concurrency-limits/
-
Deepgram triples default concurrency limits as voice agents quietly move from pilot to production
https://web.brid.gy/r/https://nerds.xyz/2026/02/deepgram-triples-default-concurrency-limits/
-
Deepgram triples default concurrency limits as voice agents quietly move from pilot to production
https://web.brid.gy/r/https://nerds.xyz/2026/02/deepgram-triples-default-concurrency-limits/
-
Using #GoogleGemini3 and #deepgram Nova 3 model in #Superwhisper, I could get pretty decent Bengali to English transliteration done.
My family on Whatsapp generally converse in Bengali on voice, but on chat it is generally transliterated Bengali because most cannot read the script. But manual transliteration can get hairy, and annoying on mobile for large blocks of text.
-
Using #GoogleGemini3 and #deepgram Nova 3 model in #Superwhisper, I could get pretty decent Bengali to English transliteration done.
My family on Whatsapp generally converse in Bengali on voice, but on chat it is generally transliterated Bengali because most cannot read the script. But manual transliteration can get hairy, and annoying on mobile for large blocks of text.
-
Using #GoogleGemini3 and #deepgram Nova 3 model in #Superwhisper, I could get pretty decent Bengali to English transliteration done.
My family on Whatsapp generally converse in Bengali on voice, but on chat it is generally transliterated Bengali because most cannot read the script. But manual transliteration can get hairy, and annoying on mobile for large blocks of text.
-
Using #GoogleGemini3 and #deepgram Nova 3 model in #Superwhisper, I could get pretty decent Bengali to English transliteration done.
My family on Whatsapp generally converse in Bengali on voice, but on chat it is generally transliterated Bengali because most cannot read the script. But manual transliteration can get hairy, and annoying on mobile for large blocks of text.
-
Using #GoogleGemini3 and #deepgram Nova 3 model in #Superwhisper, I could get pretty decent Bengali to English transliteration done.
My family on Whatsapp generally converse in Bengali on voice, but on chat it is generally transliterated Bengali because most cannot read the script. But manual transliteration can get hairy, and annoying on mobile for large blocks of text.
-
GameCap – Enfin des sous-titres traduits en temps réel pour vos jeux vidéo
https://fed.brid.gy/r/https://korben.info/gamecap-sous-titres-traduction-jeux-video-ia.html
-
GameCap – Enfin des sous-titres traduits en temps réel pour vos jeux vidéo
https://fed.brid.gy/r/https://korben.info/gamecap-sous-titres-traduction-jeux-video-ia.html
-
In an interview with MoveTheNeedle.news, Deepgram's VP of Product Natalie Rutgers says their Nova-3 Voice AI can transcribe multiple languages in real time, understand code-switching mid-sentence, and cut word error rates by more than 50% — all while running faster and cheaper than Big Tech rivals. "..it’ll feel totally normal to talk to your tech like you talk to a colleague — and trust that it gets you.”
-
🎤 Create custom voice agents in under 10 minutes using #Python with STT, LLM and TTS pipelines like #Deepgram, #OpenAI GPT-4o and #Cartesia Sonic. Supports realtime speech-to-speech with models like OpenAI Realtime API for lifelike conversations. Multilingual semantic turn detection in 13 languages including English, German and Spanish with <25ms latency on CPU. Automatic interruption handling and VAD for natural turn-taking outperforms platforms like #Vapi. 📚 https://docs.livekit.io
-
🎤 Create custom voice agents in under 10 minutes using #Python with STT, LLM and TTS pipelines like #Deepgram, #OpenAI GPT-4o and #Cartesia Sonic. Supports realtime speech-to-speech with models like OpenAI Realtime API for lifelike conversations. Multilingual semantic turn detection in 13 languages including English, German and Spanish with <25ms latency on CPU. Automatic interruption handling and VAD for natural turn-taking outperforms platforms like #Vapi. 📚 https://docs.livekit.io
-
🎤 Create custom voice agents in under 10 minutes using #Python with STT, LLM and TTS pipelines like #Deepgram, #OpenAI GPT-4o and #Cartesia Sonic. Supports realtime speech-to-speech with models like OpenAI Realtime API for lifelike conversations. Multilingual semantic turn detection in 13 languages including English, German and Spanish with <25ms latency on CPU. Automatic interruption handling and VAD for natural turn-taking outperforms platforms like #Vapi. 📚 https://docs.livekit.io
-
🎤 Create custom voice agents in under 10 minutes using #Python with STT, LLM and TTS pipelines like #Deepgram, #OpenAI GPT-4o and #Cartesia Sonic. Supports realtime speech-to-speech with models like OpenAI Realtime API for lifelike conversations. Multilingual semantic turn detection in 13 languages including English, German and Spanish with <25ms latency on CPU. Automatic interruption handling and VAD for natural turn-taking outperforms platforms like #Vapi. 📚 https://docs.livekit.io
-
🎤 Create custom voice agents in under 10 minutes using #Python with STT, LLM and TTS pipelines like #Deepgram, #OpenAI GPT-4o and #Cartesia Sonic. Supports realtime speech-to-speech with models like OpenAI Realtime API for lifelike conversations. Multilingual semantic turn detection in 13 languages including English, German and Spanish with <25ms latency on CPU. Automatic interruption handling and VAD for natural turn-taking outperforms platforms like #Vapi. 📚 https://docs.livekit.io
-
Kudos to #Deepgram for their fantastic transcription quality and generous free tier 💸 They make these little experiments accessible to everyone 🙌
-
🚀 Part 5: The Future of Healthcare AI!
🔹 EHR integration? ✅
🔹 Telemedicine-ready? ✅
🔹 Super fast & cost-effective? ✅
👥 Tag a healthcare pro who needs this!
Nova-3 Medical is a game-changer! 💡
#Deepgram #MedicalAI #SpeechToText #Tech #Nova-3 #HIPAA #AWS #AI #AWSBedrock -
🔒 Part 4: Secure & Customizable!
🛡️ HIPAA-compliant, VPC-ready!
🎯 Train it with 100 medical terms!
💰 Costs just $0.0077/min – 2X cheaper!
🔥 Healthcare just got a transcription UPGRADE!
Next: Why Nova-3 is a MUST for startups! Part 5! 🚀
#Deepgram #HIPAA #Healthcare #AI -
🧐 Part 2: Why Do Traditional STT Models Fail?
➡️ Medical jargon is complex 🏥
➡️ Poor audio conditions 🎙️
➡️ Misheard drug names 🚫
💡 Nova-3 Medical solves it all with AI-trained accuracy!
But how accurate is it? You won’t believe Part 3! 👀
#Deepgram #AI #SpeechToText -
📢 Part 1: Medical Transcription REDEFINED!
🚨 Deepgram’s Nova-3 Medical is here! AI-powered speech-to-text built for healthcare 🏥💡.
💬 Say goodbye to transcription errors!
63.6% fewer mistakes! 🤯
Curious how? Stay tuned for Part 2! 👀
#AI #Deepgram #Healthcare #Nova-3 #Tech -
🚀 #Deepgram introduces Voice Agent #API for natural #AI conversations:
Integrates #STT, #TTS, and #LLM technologies for seamless voice interactions
🎙️ Real-time processing with end-of-thought detection for smooth dialogues
🧠 Supports various #LLM options, including open-source and custom models
🔒 Flexible deployment with self-hosted options for enhanced security
💼 Ideal for #CustomerSupport, #DriveThru, and other enterprise applications
🔬 Developed using insights from processing billions of hours of audio
#VoiceAI #ConversationalAI #ArtificialIntelligence #EnterpriseAI
-
Expect an even hotter AI venture capital market in the wake of the Microsoft-Nuance deal - Microsoft’s huge purchase of healthtech AI company Nuance led the technology news ... - http://feedproxy.google.com/~r/Techcrunch/~3/zkEPrZ5z3kM/ #fundings&exits #venturecapital #ecnewsletter #theexchange #pitchbook #startups #deepgram #tc #ai #ml
-
Raising in a recession - Hello and welcome back to Equity, TechCrunch’s venture capital-focused podcast, where we unpack the... more: http://feedproxy.google.com/~r/Techcrunch/~3/qBvVTKgvTOs/ #fundings&exits #equitypodcast #startups #covid-19 #deepgram #equity
-
Deepgram raises $12M for enterprise speech recognition - Deepgram, a startup focused on high-quality, real-time speech recognition, announced a $12 million S... more: http://feedproxy.google.com/~r/Techcrunch/~3/3-GQPLp9lCw/ #speechrecognition #fundings&exits #recentfunding #deeplearning #startups #deepgram #seriesa #wingvc #tc #ai