home.social

#text-to-speech — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #text-to-speech, aggregated by home.social.

fetched live
  1. Можно ли заменить диктора open-source TTS-моделью: тестируем OmniVoice на русском языке

    Привет, Хабр! Меня зовут Музафаров Данил, я работаю DS инженером в компании Raft. В этой статье я протестирую OmniVoice - Open Source TTS модель, вокруг которой сейчас много внимания, и проверю, насколько хорошо она справляется с русскоязычными бизнес-сценариями: числами, датами, ФИО, аббревиатурами, смешанным русско-английским текстом, а также длинной озвучкой.

    habr.com/ru/companies/raft/art

    #Texttospeech #TTS

  2. Some improvements to the concatenation, prosody is still missing.

    Here is a well known phrase by SCP 079.

    The audio contains the same phrase first performed by Dr. Sbaitso TTS and the by Godot reimplementation.

    #TTS #DrSbaitso #VoiceSynthesis #TextToSpeech #079 #SCP079 #SCP #Godot

  3. Dr. Sbaitso compared to my reimplementation in Godot (Sbaitso first) :computer_explorer: :pc_color:

    Implemented: basic waveform concatenation
    Missing: Interpolation, pitch control, prosody, text to phonemes

    Im very happy with the progress, will be great to be able to run the voice without needing emulation.

    #TTS #DrSbaitso #VoiceSynthesis #TextToSpeech #079 #SCP079

  4. What I've learned so far while reverse engineering Dr Sbaitso's voice:
    - Reverse engineering is hard

    Also, the voice was made by very clever people. It's optimized to sound as good as possible, while consuming very few resources.

    Progress after 5 days: 10%

    #TTS #DrSbaitso #VoiceSynthesis #TextToSpeech

  5. Anyone have a good quality text-to-speech app that is easy to use in a browser? MacOSX has a free one built-in via accessibility, but the voice quality is low. And abrasive. I was hoping for a FireFox add-in that might be free or inexpensive. Can't find anything. #TextToSpeech #Speech #reading

  6. Сравнение TTS-моделей на реальных задачах бизнеса: голосовой бот и аудиоподкасты

    Это вторая часть обзора моделей для задачи синтеза речи (Text-to-Speech). В прошлой части я сравнил 7 Open Source моделей для этой задачи по нескольким критериям. В этот раз я решил посмотреть не только на Open Source-модели, но и на проприетарные TTS-решения.

    habr.com/ru/companies/raft/art

    #Texttospeech #TTS

  7. Four open source models exist right now that do something the previous generation struggled with. They do not just generate speech. They clone a voice from a short audio sample and produce output that is genuinely difficult to compare from the original speaker.

    The gap between open source and commercial TTS has been closing for a while. These four models suggest it has effectively closed for voice cloning specifically.
    firethering.com/open-source-tt

    #opensource #tts #ai #trending #texttospeech

  8. Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная

    Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня. Знакомо? Мне - до зубного скрежета. Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог. И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord. Пошёл искать. И тут началось.

    habr.com/ru/articles/1019458/

    #realtime_communications #translations #speechtotext #texttospeech #deepgram #groq #elixir #rust #open_source #voice_ai

  9. LLM SPEECH TECH SEES SHIFTS

    AI researchers are working to fix accent issues in new AI speech technology. This could mean better voices for many languages by 2025.

    #AISpeechTech, #LLM, #TextToSpeech, #AccentLeak, #LanguageAI

    newsletter.tf/ai-speech-tech-f

  10. New AI speech systems can have accent problems when speaking different languages. This is like trying to speak two languages at once and mixing them up.

    #AISpeechTech, #LLM, #TextToSpeech, #AccentLeak, #LanguageAI
    newsletter.tf/ai-speech-tech-f