#tts — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #tts, aggregated by home.social.

Firethering @[email protected] · 2026-05-14 · 12:07 UTC

Most TTS model you’ve used before works the same way. You paste text, you get speech. The model decides tone, pacing, delivery.
Dramabox works differently. You don’t give it text to read. You write it a script.
Stage directions go outside the quotes and work as performance cues the model never speaks aloud. Dialogue goes inside the quotes and gets spoken literally, including phonetic sounds. “Hahaha” is a laugh. “Hmm” is a pause & more #tts #ai #technews #generativeai
https://firethering.com/dramabox-open-weights-tts-voice-cloning/

#tts #ai #technews #generativeai
Firethering @[email protected] · 2026-05-14 · 12:07 UTC

Most TTS model you’ve used before works the same way. You paste text, you get speech. The model decides tone, pacing, delivery.
Dramabox works differently. You don’t give it text to read. You write it a script.
Stage directions go outside the quotes and work as performance cues the model never speaks aloud. Dialogue goes inside the quotes and gets spoken literally, including phonetic sounds. “Hahaha” is a laugh. “Hmm” is a pause & more #tts #ai #technews #generativeai
https://firethering.com/dramabox-open-weights-tts-voice-cloning/

#tts #ai #technews #generativeai
Firethering @[email protected] · 2026-05-14 · 12:07 UTC

Most TTS model you’ve used before works the same way. You paste text, you get speech. The model decides tone, pacing, delivery.
Dramabox works differently. You don’t give it text to read. You write it a script.
Stage directions go outside the quotes and work as performance cues the model never speaks aloud. Dialogue goes inside the quotes and gets spoken literally, including phonetic sounds. “Hahaha” is a laugh. “Hmm” is a pause & more #tts #ai #technews #generativeai
https://firethering.com/dramabox-open-weights-tts-voice-cloning/

#tts #ai #technews #generativeai
Firethering @[email protected] · 2026-05-14 · 12:07 UTC

Most TTS model you’ve used before works the same way. You paste text, you get speech. The model decides tone, pacing, delivery.
Dramabox works differently. You don’t give it text to read. You write it a script.
Stage directions go outside the quotes and work as performance cues the model never speaks aloud. Dialogue goes inside the quotes and gets spoken literally, including phonetic sounds. “Hahaha” is a laugh. “Hmm” is a pause & more #tts #ai #technews #generativeai
https://firethering.com/dramabox-open-weights-tts-voice-cloning/

#generativeai #technews #ai #tts
Firethering @[email protected] · 2026-05-14 · 12:07 UTC

Most TTS model you’ve used before works the same way. You paste text, you get speech. The model decides tone, pacing, delivery.
Dramabox works differently. You don’t give it text to read. You write it a script.
Stage directions go outside the quotes and work as performance cues the model never speaks aloud. Dialogue goes inside the quotes and gets spoken literally, including phonetic sounds. “Hahaha” is a laugh. “Hmm” is a pause & more #tts #ai #technews #generativeai
https://firethering.com/dramabox-open-weights-tts-voice-cloning/

#tts #ai #technews #generativeai
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#voiceai #chatbot #aiethics #futuretech #автоматизация #цифровизация
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#voiceai #chatbot #aiethics #futuretech #автоматизация #цифровизация
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Eibriel @[email protected] · 2026-05-05 · 14:45 UTC

Some improvements to the concatenation, prosody is still missing.
Here is a well known phrase by SCP 079.
The audio contains the same phrase first performed by Dr. Sbaitso TTS and the by Godot reimplementation.
#TTS #DrSbaitso #VoiceSynthesis #TextToSpeech #079 #SCP079 #SCP #Godot

#tts #drsbaitso #voicesynthesis #texttospeech #scp079 #scp
Habr @[email protected] · 2026-05-04 · 10:52 UTC

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах
Я однажды примерно за сутки сжег около $100 на голосовом агенте. Не на большом запуске. Не на огромной базе. Не на хитрой рекламной кампании. Просто на небольшом пуле холодных контактов, где агент периодически попадал на voicemail, IVR, секретарей и других ботов. В какой-то момент два не очень умных голосовых процесса могли довольно долго вежливо говорить друг другу что-то в духе:
https://habr.com/ru/articles/1031148/
#голосовые_агенты #voice_agents #LLM #Twilio #ElevenLabs #Retell #OpenClaw #STT #TTS #latency

#latency #tts #stt #openclaw #retell #elevenlabs
Mohamed Aymane Farhi @[email protected] · 2026-04-29 · 16:36 UTC

Need a single-speaker speech dataset in Tamazight? we've released one on Hugging Face and Mozilla Data Collective. Check it out:
https://huggingface.co/datasets/Tamazight-NLP/TOSD
https://mozilladatacollective.com/datasets/cmok1w0j002jcmr075bsof72y
#Tamazight #AI #ASR #TTS

#tamazight #ai #asr #tts
codingjoe :django: :python: @codingjoe · 2026-04-28 · 17:49 UTC

Ever wanted #openclaw 🦞 to make phone calls? 📲
Now you can: https://codingjoe.dev/VoIP/mcp/
#voip #python #sip #tts #stt #vibe #vibecoding #voice #vibevoice

#openclaw #voip #python #sip #tts #stt
codingjoe :django: :python: @[email protected] · 2026-04-28 · 17:49 UTC

Ever wanted #openclaw 🦞 to make phone calls? 📲
Now you can: https://codingjoe.dev/VoIP/mcp/
#voip #python #sip #tts #stt #vibe #vibecoding #voice #vibevoice

#openclaw #voip #python #sip #tts #stt
codingjoe :django: :python: @[email protected] · 2026-04-28 · 17:49 UTC

Ever wanted #openclaw 🦞 to make phone calls? 📲
Now you can: https://codingjoe.dev/VoIP/mcp/
#voip #python #sip #tts #stt #vibe #vibecoding #voice #vibevoice

#openclaw #voip #python #sip #tts #stt
codingjoe :django: :python: @[email protected] · 2026-04-28 · 17:49 UTC

Ever wanted #openclaw 🦞 to make phone calls? 📲
Now you can: https://codingjoe.dev/VoIP/mcp/
#voip #python #sip #tts #stt #vibe #vibecoding #voice #vibevoice

#vibevoice #voice #vibecoding #vibe #stt #tts
codingjoe :django: :python: @[email protected] · 2026-04-28 · 17:49 UTC

Ever wanted #openclaw 🦞 to make phone calls? 📲
Now you can: https://codingjoe.dev/VoIP/mcp/
#voip #python #sip #tts #stt #vibe #vibecoding #voice #vibevoice

#openclaw #voip #python #sip #tts #stt
trusty falxter 🧠:natenomblack: @[email protected] · 2026-02-01 · 01:13 UTC

Also, diese Online-LLM-Kinderspielzeuge gehen garnicht, klar. Gleichzeitig ist so ein Buddy-Toy ja schon eine coole Sache. Ich bin aber z.B. vom aktuellen Furby total unterwältigt. Kann ein paar Kommandos, ist total unintuitiv, zählt nicht auf, welche Kommandos es gibt und die meiste Zeit ist unklar, ob es gerade in dem Zustand ist, wo es Kommandos verarbeiten kann.
Warum nicht einfach ein Buddy-Toy, das im Wesentlichen ein Eliza-Chatbot ist, mit lokaler Spracherkennung und -synthese? Das kann doch nicht so schwierig sein?
#llm #spielzeug #eliza #asr #tts

#llm #spielzeug #eliza #asr #tts
Brad Linder @[email protected] · 2026-01-30 · 00:37 UTC

Lilbits: Google breathes (a little) more life into the Pixel Tablet

The Google Pixel Tablet launched in mid-2023 as an Android tablet that you could also use as a smart display when paired with a speaker dock. With an 11 inch, 2.5K display, stylus support, and the same Google Tensor G2 processor used in the Pixel 7 smartphone lineup, it could have paved the way for things to come.

But Google hasn’t released a new model in more than two and a half years. And […]
#androidTablet #cm5 #cm5Pico #google #googlePixelTablet #grapheneos #lilbits #linuxLaptop #osUpdates #pixelTablet #raspberryPiCm5 #tts #tuxedoComputres #tuxedoInfinitybookMax15 #zotac Read more: https://liliputing.com/lilbits-google-breathes-a-little-more-life-into-the-pixel-tablet/

#androidtablet #cm5 #cm5pico #google #googlepixeltablet #grapheneos
LinuxGizmos.com [Unofficial] @[email protected] · 2026-01-28 · 04:37 UTC

Sipeed MaixCAM2 combines 4K imaging and edge AI in an open camera platform

https://web.brid.gy/r/https://linuxgizmos.com/sipeed-maixcam2-combines-4k-imaging-and-edge-ai-in-an-open-camera-platform/

#devices #asr #camera #llm #maixcam2 #tts
cyclical_obsessive @cyclical_obsessive · 2025-11-24 · 18:48 UTC

@linuxiac
> Removing PulseAudio..continuing the shift to PipeWire
My #GoPiGo3 robot just shuddered in fear of becoming deaf and mute.
#espeak-ng #Vosk #SpeechRecognition #TTS #LinuxAudio

#gopigo3 #espeak #vosk #speechrecognition #tts #linuxaudio
Amy Serrat @[email protected] · 2025-09-15 · 19:13 UTC

WE SMELL MILITARY CONTRACTS ... will it disappear? #ai #telepathy #mit #errtlings #science #speech #TTS #TTT #news #tech #prosthetic #neural #mind #mil # x.com/alterego_io/...

x.com/alterego_io/st...

#ai #telepathy #mit #errtlings #science #speech
Compressed Air @[email protected] · 2025-08-31 · 20:38 UTC

I was messing with TTS voicing a few years ago, its so much better now! My animation hasn't gotten any better though 😁 #tts #voice #walterwhite #chef #cheframsay #meth #mukbang #albequerqueblue #animation #breakingbad

#tts #voice #walterwhite #chef #cheframsay #meth
Vaanee ai @[email protected] · 2025-08-28 · 09:40 UTC

The TTS race in India is heating up. 🇮🇳
I just published a breakdown comparing the Best TTS Models in 2025—including Vaanee AI, Google, Amazon, and ElevenLabs.
The focus?
🔊 Voice naturalness
🗣️ Emotional range
🌏 Regional language support
⚡ Scalability for real-world use
The results might surprise you—especially if you’ve only been following the global giants.
👉 Read the full blog here: https://vaaneeailabs.medium.com/best-tts-model-in-india-2025-vaanee-ai-vs-google-amazon-elevenlabs-more-462f4594fcfb
#TTS #VoiceAI #AIIndia #multilingualai #VaaneeAI #tts #voiceover #voicecloning

#tts #voiceai #aiindia #multilingualai #vaaneeai #voiceover
NtGm8 Da Realz (HD 3025) @[email protected] · 2025-07-25 · 05:35 UTC

The 2 Sams.
#aseprite #art #pixelart #mspaint #stickfigure #stickman #tts #microsoftsam

#microsoftsam #tts #stickman #stickfigure #mspaint #pixelart
Joseph Nuthalapati :fbx: @[email protected] · 2024-09-30 · 05:48 UTC

If you have a problem using #Pied with Firefox Reader Mode, install this Firefox extension as an alternative.
https://addons.mozilla.org/en-US/firefox/addon/read-aloud/
It uses the browser's local storage to store the Piper voices and runs entirely within the browser.
#tts #TextToSpeech

#pied #tts #texttospeech
Rod2ik 🇪🇺 🇨🇵 🇪🇸 🇨🇱 🇺🇦 🇨🇦 🇬🇱☮🕊️ @[email protected] · 2023-02-06 · 06:06 UTC

#Vall-E #TTS #Microsoft #AI #IA #voice generator
https://www.ouest-france.fr/leditiondusoir/2023-02-02/vall-e-l-inquietante-intelligence-artificielle-capable-d-imiter-votre-voix-abac1835-fb5f-416a-816b-759c81d8f6d4

#vall #tts #microsoft #ai #ia #voice
Amit Bahree 🌎💾 @[email protected] · 2023-01-09 · 14:42 UTC

#VALL-E is a new #TTS model by Microsoft that not only can produce speech in any voice with just three seconds of training. 🙀 It also preserves the intonation, charisma, and style of voice. #AI
https://valle-demo.github.io/

#ai #tts #vall