#text-to-speech — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #text-to-speech, aggregated by home.social.
-
Можно ли заменить диктора open-source TTS-моделью: тестируем OmniVoice на русском языке
Привет, Хабр! Меня зовут Музафаров Данил, я работаю DS инженером в компании Raft. В этой статье я протестирую OmniVoice - Open Source TTS модель, вокруг которой сейчас много внимания, и проверю, насколько хорошо она справляется с русскоязычными бизнес-сценариями: числами, датами, ФИО, аббревиатурами, смешанным русско-английским текстом, а также длинной озвучкой.
-
Some improvements to the concatenation, prosody is still missing.
Here is a well known phrase by SCP 079.
The audio contains the same phrase first performed by Dr. Sbaitso TTS and the by Godot reimplementation.
#TTS #DrSbaitso #VoiceSynthesis #TextToSpeech #079 #SCP079 #SCP #Godot
-
[Au Fait]📢 Billet "Zotero 9" traduit sur le Blog Zotero Francophone, pour rappel => https://zotero.hypotheses.org/6316
On en est déjà à la V 9.02 de #Zotero (April 30, 2026 voir https://www.zotero.org/support/changelog)
#Zotero #update #texttospeech #writing #annotate #productivitytools #tools #digitalscholarship -
Dr. Sbaitso compared to my reimplementation in Godot (Sbaitso first) :computer_explorer: :pc_color:
Implemented: basic waveform concatenation
Missing: Interpolation, pitch control, prosody, text to phonemesIm very happy with the progress, will be great to be able to run the voice without needing emulation.
-
What I've learned so far while reverse engineering Dr Sbaitso's voice:
- Reverse engineering is hardAlso, the voice was made by very clever people. It's optimized to sound as good as possible, while consuming very few resources.
Progress after 5 days: 10%
-
Anyone have a good quality text-to-speech app that is easy to use in a browser? MacOSX has a free one built-in via accessibility, but the voice quality is low. And abrasive. I was hoping for a FireFox add-in that might be free or inexpensive. Can't find anything. #TextToSpeech #Speech #reading
-
Сравнение TTS-моделей на реальных задачах бизнеса: голосовой бот и аудиоподкасты
Это вторая часть обзора моделей для задачи синтеза речи (Text-to-Speech). В прошлой части я сравнил 7 Open Source моделей для этой задачи по нескольким критериям. В этот раз я решил посмотреть не только на Open Source-модели, но и на проприетарные TTS-решения.
-
Four open source models exist right now that do something the previous generation struggled with. They do not just generate speech. They clone a voice from a short audio sample and produce output that is genuinely difficult to compare from the original speaker.
The gap between open source and commercial TTS has been closing for a while. These four models suggest it has effectively closed for voice cloning specifically.
https://firethering.com/open-source-tts-voice-cloning/ -
Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная
Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня. Знакомо? Мне - до зубного скрежета. Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог. И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord. Пошёл искать. И тут началось.
https://habr.com/ru/articles/1019458/
#realtime_communications #translations #speechtotext #texttospeech #deepgram #groq #elixir #rust #open_source #voice_ai
-
https://handy.computer/ - Talk to any text field with Handy. #TextToSpeech #OpenSource
-
LLM SPEECH TECH SEES SHIFTS
AI researchers are working to fix accent issues in new AI speech technology. This could mean better voices for many languages by 2025.
#AISpeechTech, #LLM, #TextToSpeech, #AccentLeak, #LanguageAI
https://newsletter.tf/ai-speech-tech-fix-accent-problems-languages/
-
New AI speech systems can have accent problems when speaking different languages. This is like trying to speak two languages at once and mixing them up.
#AISpeechTech, #LLM, #TextToSpeech, #AccentLeak, #LanguageAI
https://newsletter.tf/ai-speech-tech-fix-accent-problems-languages/