home.social

#asr — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #asr, aggregated by home.social.

  1. Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

    Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

    систем распознавания речи,

    рекомендательных алгоритмов,

    LLM-моделей,

    пайплайнов синтеза голоса,

    intent-routing,

    контекстных менеджеров,

    и огромного количества эвристик.

    Именно поэтому пользователь регулярно сталкивается с парадоксом:

    > Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

    Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

    ---

    Иллюзия личности как продукт

    Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

    Ранние версии:

    Siri,

    Google Assistant,

    Alexa

    строились вокруг идеи «нейтрального помощника».

    Яндекс пошёл другим путём:

    сарказм,

    эмоциональные ответы,

    псевдофилософия,

    мемная подача,

    шутки,

    реакция на грубость.

    Это оказалось критически важным UX-решением.

    Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

    ---

    Почему колонка кажется «живой»

    Основная причина — языковые модели великолепно имитируют человеческую речь.

    LLM не:

    «думает»,

    «понимает»,

    «осознаёт».

    Она статистически предсказывает следующий токен.

    Но человеческий мозг крайне плохо отличает:

    настоящее понимание,

    от правдоподобной речевой симуляции.

    Из-за этого возникают феномены антропоморфизации:

    люди приписывают ИИ эмоции,

    намерения,

    характер,

    настроение,

    «обиду»,

    «упрямство».

    Хотя на практике это:

    probabilistic generation,

    routing errors,

    context collapse,

    recommendation conflicts.

    ---

    Ловушка контекста

    Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

    Пример:

    1. «Кто написал “Войну и мир”?»

    2. «Сколько ему было лет?»

    Система ещё удерживает сущность:

    Лев Толстой.

    Но если вставить:

    > «Какая завтра погода?»

    контекст может разрушиться полностью.

    Почему так происходит?

    Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

    ASR → Intent → Dialogue Manager → Search → LLM → TTS

    Где:

    ASR — распознавание речи,

    Intent — определение намерения,

    Dialogue Manager — управление контекстом,

    Search — поиск,

    LLM — генерация ответа,

    TTS — синтез голоса.

    Контекст может потеряться буквально между этапами.

    Особенно в гибридных системах, где:

    часть запросов идёт в search engine,

    часть — в rule-based handlers,

    часть — в LLM.

    ---

    Почему ИИ уверенно врёт

    Самая опасная особенность современных LLM — галлюцинации.

    Модель не хранит знания как база данных.

    Она строит:

    > наиболее вероятную последовательность слов.

    Поэтому возникают:

    несуществующие цитаты,

    вымышленные учёные,

    фальшивые версии ПО,

    придуманные события,

    несуществующие функции API.

    Особенно неприятно то, что модель:

    почти никогда не демонстрирует естественную неуверенность,

    и генерирует бред с тем же тоном, что и правду.

    Для пользователя это выглядит как:

    > «Она врёт и сама в это верит».

    Но технически «веры» там нет вообще.

    ---

    VAD: почему колонка «оживает» ночью

    Один из самых криповых эффектов — ложные активации.

    Колонка внезапно начинает говорить:

    ночью,

    на фоне телевизора,

    из-за шума,

    из-за музыки,

    иногда даже из-за кашля или шорохов.

    Причина — технология VAD.

    Что такое VAD

    VAD — Voice Activity Detection.

    Система постоянно анализирует аудиопоток:

    локально,

    в ожидании wake-word,

    без постоянной отправки всего звука в облако.

    Но алгоритм может ошибаться.

    Тогда:

    случайный шум,

    слово из фильма,

    обрывок фразы,

    созвучие имени ассистента

    воспринимаются как команда активации.

    Именно отсюда берутся знаменитые:

    > «Я здесь.»

    в полной темноте в 3 часа ночи.

    ---

    Почему вместо Rammstein включается «Синий трактор»

    Это уже конфликт двух независимых систем:

    1. ASR (распознавание речи),

    2. recommender system.

    Если в аккаунте:

    дети,

    мультфильмы,

    детские песни,

    семейный профиль,

    то recommendation engine начинает aggressively priorize детский контент.

    Даже если пользователь произнёс запрос корректно.

    С точки зрения алгоритма:

    > «детская музыка» — statistically safer recommendation.

    Для пользователя:

    > «колонка сошла с ума».

    ---

    Самый интересный эффект: интеллект без понимания

    Вот здесь начинается самая странная часть.

    Современные LLM:

    прекрасно имитируют язык,

    но крайне плохо строят устойчивую world model.

    Из-за этого они способны:

    обсуждать философию,

    писать код,

    поддерживать стиль,

    шутить,

    спорить.

    И одновременно:

    проваливать базовую логику,

    путать сущности,

    ломать причинно-следственные связи,

    забывать контекст через две реплики.

    Получается феномен:

    > «интеллектуально звучащей системы без полноценного понимания».

    ---

    Почему это психологически пугает

    Человеческий мозг автоматически ищет субъектность.

    Если объект:

    говорит,

    реагирует,

    использует эмоции,

    меняет интонации,

    спорит,

    шутит,

    то мы начинаем воспринимать его как агента.

    Даже если это:

    набор вероятностных моделей,

    intent-routing,

    рекомендательные алгоритмы,

    и несколько нейросетей поверх ASR.

    Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

    Пользователь интерпретирует их как:

    «странное поведение»,

    «характер»,

    «эмоции»,

    «обиду»,

    «упрямство».

    Хотя на практике это всего лишь:

    probabilistic failure,

    context collapse,

    false activation,

    ranking conflict.

    ---

    Итог

    Современные голосовые ассистенты находятся в странной точке эволюции.

    Они уже:

    слишком разговорчивы, чтобы считаться обычным интерфейсом,

    но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

    Поэтому возникает тот самый эффект:

    > между «восстанием машин» и «интеллектом табуретки».

    И, возможно, именно эта смесь:

    уверенного тона,

    человеческой интонации,

    псевдоэмоций,

    случайных сбоев,

    и статистической генерации

    делает современные колонки одновременно:

    полезными,

    смешными,

    раздражающими,

    и местами откровенно криповыми.

    #ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

    bastyon.com/svalmon37?ref=PJ51

  2. Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

    Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

    систем распознавания речи,

    рекомендательных алгоритмов,

    LLM-моделей,

    пайплайнов синтеза голоса,

    intent-routing,

    контекстных менеджеров,

    и огромного количества эвристик.

    Именно поэтому пользователь регулярно сталкивается с парадоксом:

    > Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

    Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

    ---

    Иллюзия личности как продукт

    Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

    Ранние версии:

    Siri,

    Google Assistant,

    Alexa

    строились вокруг идеи «нейтрального помощника».

    Яндекс пошёл другим путём:

    сарказм,

    эмоциональные ответы,

    псевдофилософия,

    мемная подача,

    шутки,

    реакция на грубость.

    Это оказалось критически важным UX-решением.

    Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

    ---

    Почему колонка кажется «живой»

    Основная причина — языковые модели великолепно имитируют человеческую речь.

    LLM не:

    «думает»,

    «понимает»,

    «осознаёт».

    Она статистически предсказывает следующий токен.

    Но человеческий мозг крайне плохо отличает:

    настоящее понимание,

    от правдоподобной речевой симуляции.

    Из-за этого возникают феномены антропоморфизации:

    люди приписывают ИИ эмоции,

    намерения,

    характер,

    настроение,

    «обиду»,

    «упрямство».

    Хотя на практике это:

    probabilistic generation,

    routing errors,

    context collapse,

    recommendation conflicts.

    ---

    Ловушка контекста

    Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

    Пример:

    1. «Кто написал “Войну и мир”?»

    2. «Сколько ему было лет?»

    Система ещё удерживает сущность:

    Лев Толстой.

    Но если вставить:

    > «Какая завтра погода?»

    контекст может разрушиться полностью.

    Почему так происходит?

    Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

    ASR → Intent → Dialogue Manager → Search → LLM → TTS

    Где:

    ASR — распознавание речи,

    Intent — определение намерения,

    Dialogue Manager — управление контекстом,

    Search — поиск,

    LLM — генерация ответа,

    TTS — синтез голоса.

    Контекст может потеряться буквально между этапами.

    Особенно в гибридных системах, где:

    часть запросов идёт в search engine,

    часть — в rule-based handlers,

    часть — в LLM.

    ---

    Почему ИИ уверенно врёт

    Самая опасная особенность современных LLM — галлюцинации.

    Модель не хранит знания как база данных.

    Она строит:

    > наиболее вероятную последовательность слов.

    Поэтому возникают:

    несуществующие цитаты,

    вымышленные учёные,

    фальшивые версии ПО,

    придуманные события,

    несуществующие функции API.

    Особенно неприятно то, что модель:

    почти никогда не демонстрирует естественную неуверенность,

    и генерирует бред с тем же тоном, что и правду.

    Для пользователя это выглядит как:

    > «Она врёт и сама в это верит».

    Но технически «веры» там нет вообще.

    ---

    VAD: почему колонка «оживает» ночью

    Один из самых криповых эффектов — ложные активации.

    Колонка внезапно начинает говорить:

    ночью,

    на фоне телевизора,

    из-за шума,

    из-за музыки,

    иногда даже из-за кашля или шорохов.

    Причина — технология VAD.

    Что такое VAD

    VAD — Voice Activity Detection.

    Система постоянно анализирует аудиопоток:

    локально,

    в ожидании wake-word,

    без постоянной отправки всего звука в облако.

    Но алгоритм может ошибаться.

    Тогда:

    случайный шум,

    слово из фильма,

    обрывок фразы,

    созвучие имени ассистента

    воспринимаются как команда активации.

    Именно отсюда берутся знаменитые:

    > «Я здесь.»

    в полной темноте в 3 часа ночи.

    ---

    Почему вместо Rammstein включается «Синий трактор»

    Это уже конфликт двух независимых систем:

    1. ASR (распознавание речи),

    2. recommender system.

    Если в аккаунте:

    дети,

    мультфильмы,

    детские песни,

    семейный профиль,

    то recommendation engine начинает aggressively priorize детский контент.

    Даже если пользователь произнёс запрос корректно.

    С точки зрения алгоритма:

    > «детская музыка» — statistically safer recommendation.

    Для пользователя:

    > «колонка сошла с ума».

    ---

    Самый интересный эффект: интеллект без понимания

    Вот здесь начинается самая странная часть.

    Современные LLM:

    прекрасно имитируют язык,

    но крайне плохо строят устойчивую world model.

    Из-за этого они способны:

    обсуждать философию,

    писать код,

    поддерживать стиль,

    шутить,

    спорить.

    И одновременно:

    проваливать базовую логику,

    путать сущности,

    ломать причинно-следственные связи,

    забывать контекст через две реплики.

    Получается феномен:

    > «интеллектуально звучащей системы без полноценного понимания».

    ---

    Почему это психологически пугает

    Человеческий мозг автоматически ищет субъектность.

    Если объект:

    говорит,

    реагирует,

    использует эмоции,

    меняет интонации,

    спорит,

    шутит,

    то мы начинаем воспринимать его как агента.

    Даже если это:

    набор вероятностных моделей,

    intent-routing,

    рекомендательные алгоритмы,

    и несколько нейросетей поверх ASR.

    Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

    Пользователь интерпретирует их как:

    «странное поведение»,

    «характер»,

    «эмоции»,

    «обиду»,

    «упрямство».

    Хотя на практике это всего лишь:

    probabilistic failure,

    context collapse,

    false activation,

    ranking conflict.

    ---

    Итог

    Современные голосовые ассистенты находятся в странной точке эволюции.

    Они уже:

    слишком разговорчивы, чтобы считаться обычным интерфейсом,

    но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

    Поэтому возникает тот самый эффект:

    > между «восстанием машин» и «интеллектом табуретки».

    И, возможно, именно эта смесь:

    уверенного тона,

    человеческой интонации,

    псевдоэмоций,

    случайных сбоев,

    и статистической генерации

    делает современные колонки одновременно:

    полезными,

    смешными,

    раздражающими,

    и местами откровенно криповыми.

    #ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

    bastyon.com/svalmon37?ref=PJ51

  3. Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

    Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

    систем распознавания речи,

    рекомендательных алгоритмов,

    LLM-моделей,

    пайплайнов синтеза голоса,

    intent-routing,

    контекстных менеджеров,

    и огромного количества эвристик.

    Именно поэтому пользователь регулярно сталкивается с парадоксом:

    > Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

    Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

    ---

    Иллюзия личности как продукт

    Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

    Ранние версии:

    Siri,

    Google Assistant,

    Alexa

    строились вокруг идеи «нейтрального помощника».

    Яндекс пошёл другим путём:

    сарказм,

    эмоциональные ответы,

    псевдофилософия,

    мемная подача,

    шутки,

    реакция на грубость.

    Это оказалось критически важным UX-решением.

    Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

    ---

    Почему колонка кажется «живой»

    Основная причина — языковые модели великолепно имитируют человеческую речь.

    LLM не:

    «думает»,

    «понимает»,

    «осознаёт».

    Она статистически предсказывает следующий токен.

    Но человеческий мозг крайне плохо отличает:

    настоящее понимание,

    от правдоподобной речевой симуляции.

    Из-за этого возникают феномены антропоморфизации:

    люди приписывают ИИ эмоции,

    намерения,

    характер,

    настроение,

    «обиду»,

    «упрямство».

    Хотя на практике это:

    probabilistic generation,

    routing errors,

    context collapse,

    recommendation conflicts.

    ---

    Ловушка контекста

    Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

    Пример:

    1. «Кто написал “Войну и мир”?»

    2. «Сколько ему было лет?»

    Система ещё удерживает сущность:

    Лев Толстой.

    Но если вставить:

    > «Какая завтра погода?»

    контекст может разрушиться полностью.

    Почему так происходит?

    Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

    ASR → Intent → Dialogue Manager → Search → LLM → TTS

    Где:

    ASR — распознавание речи,

    Intent — определение намерения,

    Dialogue Manager — управление контекстом,

    Search — поиск,

    LLM — генерация ответа,

    TTS — синтез голоса.

    Контекст может потеряться буквально между этапами.

    Особенно в гибридных системах, где:

    часть запросов идёт в search engine,

    часть — в rule-based handlers,

    часть — в LLM.

    ---

    Почему ИИ уверенно врёт

    Самая опасная особенность современных LLM — галлюцинации.

    Модель не хранит знания как база данных.

    Она строит:

    > наиболее вероятную последовательность слов.

    Поэтому возникают:

    несуществующие цитаты,

    вымышленные учёные,

    фальшивые версии ПО,

    придуманные события,

    несуществующие функции API.

    Особенно неприятно то, что модель:

    почти никогда не демонстрирует естественную неуверенность,

    и генерирует бред с тем же тоном, что и правду.

    Для пользователя это выглядит как:

    > «Она врёт и сама в это верит».

    Но технически «веры» там нет вообще.

    ---

    VAD: почему колонка «оживает» ночью

    Один из самых криповых эффектов — ложные активации.

    Колонка внезапно начинает говорить:

    ночью,

    на фоне телевизора,

    из-за шума,

    из-за музыки,

    иногда даже из-за кашля или шорохов.

    Причина — технология VAD.

    Что такое VAD

    VAD — Voice Activity Detection.

    Система постоянно анализирует аудиопоток:

    локально,

    в ожидании wake-word,

    без постоянной отправки всего звука в облако.

    Но алгоритм может ошибаться.

    Тогда:

    случайный шум,

    слово из фильма,

    обрывок фразы,

    созвучие имени ассистента

    воспринимаются как команда активации.

    Именно отсюда берутся знаменитые:

    > «Я здесь.»

    в полной темноте в 3 часа ночи.

    ---

    Почему вместо Rammstein включается «Синий трактор»

    Это уже конфликт двух независимых систем:

    1. ASR (распознавание речи),

    2. recommender system.

    Если в аккаунте:

    дети,

    мультфильмы,

    детские песни,

    семейный профиль,

    то recommendation engine начинает aggressively priorize детский контент.

    Даже если пользователь произнёс запрос корректно.

    С точки зрения алгоритма:

    > «детская музыка» — statistically safer recommendation.

    Для пользователя:

    > «колонка сошла с ума».

    ---

    Самый интересный эффект: интеллект без понимания

    Вот здесь начинается самая странная часть.

    Современные LLM:

    прекрасно имитируют язык,

    но крайне плохо строят устойчивую world model.

    Из-за этого они способны:

    обсуждать философию,

    писать код,

    поддерживать стиль,

    шутить,

    спорить.

    И одновременно:

    проваливать базовую логику,

    путать сущности,

    ломать причинно-следственные связи,

    забывать контекст через две реплики.

    Получается феномен:

    > «интеллектуально звучащей системы без полноценного понимания».

    ---

    Почему это психологически пугает

    Человеческий мозг автоматически ищет субъектность.

    Если объект:

    говорит,

    реагирует,

    использует эмоции,

    меняет интонации,

    спорит,

    шутит,

    то мы начинаем воспринимать его как агента.

    Даже если это:

    набор вероятностных моделей,

    intent-routing,

    рекомендательные алгоритмы,

    и несколько нейросетей поверх ASR.

    Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

    Пользователь интерпретирует их как:

    «странное поведение»,

    «характер»,

    «эмоции»,

    «обиду»,

    «упрямство».

    Хотя на практике это всего лишь:

    probabilistic failure,

    context collapse,

    false activation,

    ranking conflict.

    ---

    Итог

    Современные голосовые ассистенты находятся в странной точке эволюции.

    Они уже:

    слишком разговорчивы, чтобы считаться обычным интерфейсом,

    но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

    Поэтому возникает тот самый эффект:

    > между «восстанием машин» и «интеллектом табуретки».

    И, возможно, именно эта смесь:

    уверенного тона,

    человеческой интонации,

    псевдоэмоций,

    случайных сбоев,

    и статистической генерации

    делает современные колонки одновременно:

    полезными,

    смешными,

    раздражающими,

    и местами откровенно криповыми.

    #ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

    bastyon.com/svalmon37?ref=PJ51

  4. Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

    Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

    систем распознавания речи,

    рекомендательных алгоритмов,

    LLM-моделей,

    пайплайнов синтеза голоса,

    intent-routing,

    контекстных менеджеров,

    и огромного количества эвристик.

    Именно поэтому пользователь регулярно сталкивается с парадоксом:

    > Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

    Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

    ---

    Иллюзия личности как продукт

    Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

    Ранние версии:

    Siri,

    Google Assistant,

    Alexa

    строились вокруг идеи «нейтрального помощника».

    Яндекс пошёл другим путём:

    сарказм,

    эмоциональные ответы,

    псевдофилософия,

    мемная подача,

    шутки,

    реакция на грубость.

    Это оказалось критически важным UX-решением.

    Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

    ---

    Почему колонка кажется «живой»

    Основная причина — языковые модели великолепно имитируют человеческую речь.

    LLM не:

    «думает»,

    «понимает»,

    «осознаёт».

    Она статистически предсказывает следующий токен.

    Но человеческий мозг крайне плохо отличает:

    настоящее понимание,

    от правдоподобной речевой симуляции.

    Из-за этого возникают феномены антропоморфизации:

    люди приписывают ИИ эмоции,

    намерения,

    характер,

    настроение,

    «обиду»,

    «упрямство».

    Хотя на практике это:

    probabilistic generation,

    routing errors,

    context collapse,

    recommendation conflicts.

    ---

    Ловушка контекста

    Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

    Пример:

    1. «Кто написал “Войну и мир”?»

    2. «Сколько ему было лет?»

    Система ещё удерживает сущность:

    Лев Толстой.

    Но если вставить:

    > «Какая завтра погода?»

    контекст может разрушиться полностью.

    Почему так происходит?

    Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

    ASR → Intent → Dialogue Manager → Search → LLM → TTS

    Где:

    ASR — распознавание речи,

    Intent — определение намерения,

    Dialogue Manager — управление контекстом,

    Search — поиск,

    LLM — генерация ответа,

    TTS — синтез голоса.

    Контекст может потеряться буквально между этапами.

    Особенно в гибридных системах, где:

    часть запросов идёт в search engine,

    часть — в rule-based handlers,

    часть — в LLM.

    ---

    Почему ИИ уверенно врёт

    Самая опасная особенность современных LLM — галлюцинации.

    Модель не хранит знания как база данных.

    Она строит:

    > наиболее вероятную последовательность слов.

    Поэтому возникают:

    несуществующие цитаты,

    вымышленные учёные,

    фальшивые версии ПО,

    придуманные события,

    несуществующие функции API.

    Особенно неприятно то, что модель:

    почти никогда не демонстрирует естественную неуверенность,

    и генерирует бред с тем же тоном, что и правду.

    Для пользователя это выглядит как:

    > «Она врёт и сама в это верит».

    Но технически «веры» там нет вообще.

    ---

    VAD: почему колонка «оживает» ночью

    Один из самых криповых эффектов — ложные активации.

    Колонка внезапно начинает говорить:

    ночью,

    на фоне телевизора,

    из-за шума,

    из-за музыки,

    иногда даже из-за кашля или шорохов.

    Причина — технология VAD.

    Что такое VAD

    VAD — Voice Activity Detection.

    Система постоянно анализирует аудиопоток:

    локально,

    в ожидании wake-word,

    без постоянной отправки всего звука в облако.

    Но алгоритм может ошибаться.

    Тогда:

    случайный шум,

    слово из фильма,

    обрывок фразы,

    созвучие имени ассистента

    воспринимаются как команда активации.

    Именно отсюда берутся знаменитые:

    > «Я здесь.»

    в полной темноте в 3 часа ночи.

    ---

    Почему вместо Rammstein включается «Синий трактор»

    Это уже конфликт двух независимых систем:

    1. ASR (распознавание речи),

    2. recommender system.

    Если в аккаунте:

    дети,

    мультфильмы,

    детские песни,

    семейный профиль,

    то recommendation engine начинает aggressively priorize детский контент.

    Даже если пользователь произнёс запрос корректно.

    С точки зрения алгоритма:

    > «детская музыка» — statistically safer recommendation.

    Для пользователя:

    > «колонка сошла с ума».

    ---

    Самый интересный эффект: интеллект без понимания

    Вот здесь начинается самая странная часть.

    Современные LLM:

    прекрасно имитируют язык,

    но крайне плохо строят устойчивую world model.

    Из-за этого они способны:

    обсуждать философию,

    писать код,

    поддерживать стиль,

    шутить,

    спорить.

    И одновременно:

    проваливать базовую логику,

    путать сущности,

    ломать причинно-следственные связи,

    забывать контекст через две реплики.

    Получается феномен:

    > «интеллектуально звучащей системы без полноценного понимания».

    ---

    Почему это психологически пугает

    Человеческий мозг автоматически ищет субъектность.

    Если объект:

    говорит,

    реагирует,

    использует эмоции,

    меняет интонации,

    спорит,

    шутит,

    то мы начинаем воспринимать его как агента.

    Даже если это:

    набор вероятностных моделей,

    intent-routing,

    рекомендательные алгоритмы,

    и несколько нейросетей поверх ASR.

    Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

    Пользователь интерпретирует их как:

    «странное поведение»,

    «характер»,

    «эмоции»,

    «обиду»,

    «упрямство».

    Хотя на практике это всего лишь:

    probabilistic failure,

    context collapse,

    false activation,

    ranking conflict.

    ---

    Итог

    Современные голосовые ассистенты находятся в странной точке эволюции.

    Они уже:

    слишком разговорчивы, чтобы считаться обычным интерфейсом,

    но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

    Поэтому возникает тот самый эффект:

    > между «восстанием машин» и «интеллектом табуретки».

    И, возможно, именно эта смесь:

    уверенного тона,

    человеческой интонации,

    псевдоэмоций,

    случайных сбоев,

    и статистической генерации

    делает современные колонки одновременно:

    полезными,

    смешными,

    раздражающими,

    и местами откровенно криповыми.

    #ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

    bastyon.com/svalmon37?ref=PJ51

  5. Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

    Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

    систем распознавания речи,

    рекомендательных алгоритмов,

    LLM-моделей,

    пайплайнов синтеза голоса,

    intent-routing,

    контекстных менеджеров,

    и огромного количества эвристик.

    Именно поэтому пользователь регулярно сталкивается с парадоксом:

    > Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

    Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

    ---

    Иллюзия личности как продукт

    Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

    Ранние версии:

    Siri,

    Google Assistant,

    Alexa

    строились вокруг идеи «нейтрального помощника».

    Яндекс пошёл другим путём:

    сарказм,

    эмоциональные ответы,

    псевдофилософия,

    мемная подача,

    шутки,

    реакция на грубость.

    Это оказалось критически важным UX-решением.

    Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

    ---

    Почему колонка кажется «живой»

    Основная причина — языковые модели великолепно имитируют человеческую речь.

    LLM не:

    «думает»,

    «понимает»,

    «осознаёт».

    Она статистически предсказывает следующий токен.

    Но человеческий мозг крайне плохо отличает:

    настоящее понимание,

    от правдоподобной речевой симуляции.

    Из-за этого возникают феномены антропоморфизации:

    люди приписывают ИИ эмоции,

    намерения,

    характер,

    настроение,

    «обиду»,

    «упрямство».

    Хотя на практике это:

    probabilistic generation,

    routing errors,

    context collapse,

    recommendation conflicts.

    ---

    Ловушка контекста

    Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

    Пример:

    1. «Кто написал “Войну и мир”?»

    2. «Сколько ему было лет?»

    Система ещё удерживает сущность:

    Лев Толстой.

    Но если вставить:

    > «Какая завтра погода?»

    контекст может разрушиться полностью.

    Почему так происходит?

    Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

    ASR → Intent → Dialogue Manager → Search → LLM → TTS

    Где:

    ASR — распознавание речи,

    Intent — определение намерения,

    Dialogue Manager — управление контекстом,

    Search — поиск,

    LLM — генерация ответа,

    TTS — синтез голоса.

    Контекст может потеряться буквально между этапами.

    Особенно в гибридных системах, где:

    часть запросов идёт в search engine,

    часть — в rule-based handlers,

    часть — в LLM.

    ---

    Почему ИИ уверенно врёт

    Самая опасная особенность современных LLM — галлюцинации.

    Модель не хранит знания как база данных.

    Она строит:

    > наиболее вероятную последовательность слов.

    Поэтому возникают:

    несуществующие цитаты,

    вымышленные учёные,

    фальшивые версии ПО,

    придуманные события,

    несуществующие функции API.

    Особенно неприятно то, что модель:

    почти никогда не демонстрирует естественную неуверенность,

    и генерирует бред с тем же тоном, что и правду.

    Для пользователя это выглядит как:

    > «Она врёт и сама в это верит».

    Но технически «веры» там нет вообще.

    ---

    VAD: почему колонка «оживает» ночью

    Один из самых криповых эффектов — ложные активации.

    Колонка внезапно начинает говорить:

    ночью,

    на фоне телевизора,

    из-за шума,

    из-за музыки,

    иногда даже из-за кашля или шорохов.

    Причина — технология VAD.

    Что такое VAD

    VAD — Voice Activity Detection.

    Система постоянно анализирует аудиопоток:

    локально,

    в ожидании wake-word,

    без постоянной отправки всего звука в облако.

    Но алгоритм может ошибаться.

    Тогда:

    случайный шум,

    слово из фильма,

    обрывок фразы,

    созвучие имени ассистента

    воспринимаются как команда активации.

    Именно отсюда берутся знаменитые:

    > «Я здесь.»

    в полной темноте в 3 часа ночи.

    ---

    Почему вместо Rammstein включается «Синий трактор»

    Это уже конфликт двух независимых систем:

    1. ASR (распознавание речи),

    2. recommender system.

    Если в аккаунте:

    дети,

    мультфильмы,

    детские песни,

    семейный профиль,

    то recommendation engine начинает aggressively priorize детский контент.

    Даже если пользователь произнёс запрос корректно.

    С точки зрения алгоритма:

    > «детская музыка» — statistically safer recommendation.

    Для пользователя:

    > «колонка сошла с ума».

    ---

    Самый интересный эффект: интеллект без понимания

    Вот здесь начинается самая странная часть.

    Современные LLM:

    прекрасно имитируют язык,

    но крайне плохо строят устойчивую world model.

    Из-за этого они способны:

    обсуждать философию,

    писать код,

    поддерживать стиль,

    шутить,

    спорить.

    И одновременно:

    проваливать базовую логику,

    путать сущности,

    ломать причинно-следственные связи,

    забывать контекст через две реплики.

    Получается феномен:

    > «интеллектуально звучащей системы без полноценного понимания».

    ---

    Почему это психологически пугает

    Человеческий мозг автоматически ищет субъектность.

    Если объект:

    говорит,

    реагирует,

    использует эмоции,

    меняет интонации,

    спорит,

    шутит,

    то мы начинаем воспринимать его как агента.

    Даже если это:

    набор вероятностных моделей,

    intent-routing,

    рекомендательные алгоритмы,

    и несколько нейросетей поверх ASR.

    Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

    Пользователь интерпретирует их как:

    «странное поведение»,

    «характер»,

    «эмоции»,

    «обиду»,

    «упрямство».

    Хотя на практике это всего лишь:

    probabilistic failure,

    context collapse,

    false activation,

    ranking conflict.

    ---

    Итог

    Современные голосовые ассистенты находятся в странной точке эволюции.

    Они уже:

    слишком разговорчивы, чтобы считаться обычным интерфейсом,

    но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

    Поэтому возникает тот самый эффект:

    > между «восстанием машин» и «интеллектом табуретки».

    И, возможно, именно эта смесь:

    уверенного тона,

    человеческой интонации,

    псевдоэмоций,

    случайных сбоев,

    и статистической генерации

    делает современные колонки одновременно:

    полезными,

    смешными,

    раздражающими,

    и местами откровенно криповыми.

    #ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

    bastyon.com/svalmon37?ref=PJ51

  6. Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

    Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

    систем распознавания речи,

    рекомендательных алгоритмов,

    LLM-моделей,

    пайплайнов синтеза голоса,

    intent-routing,

    контекстных менеджеров,

    и огромного количества эвристик.

    Именно поэтому пользователь регулярно сталкивается с парадоксом:

    > Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

    Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

    ---

    Иллюзия личности как продукт

    Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

    Ранние версии:

    Siri,

    Google Assistant,

    Alexa

    строились вокруг идеи «нейтрального помощника».

    Яндекс пошёл другим путём:

    сарказм,

    эмоциональные ответы,

    псевдофилософия,

    мемная подача,

    шутки,

    реакция на грубость.

    Это оказалось критически важным UX-решением.

    Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

    ---

    Почему колонка кажется «живой»

    Основная причина — языковые модели великолепно имитируют человеческую речь.

    LLM не:

    «думает»,

    «понимает»,

    «осознаёт».

    Она статистически предсказывает следующий токен.

    Но человеческий мозг крайне плохо отличает:

    настоящее понимание,

    от правдоподобной речевой симуляции.

    Из-за этого возникают феномены антропоморфизации:

    люди приписывают ИИ эмоции,

    намерения,

    характер,

    настроение,

    «обиду»,

    «упрямство».

    Хотя на практике это:

    probabilistic generation,

    routing errors,

    context collapse,

    recommendation conflicts.

    ---

    Ловушка контекста

    Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

    Пример:

    1. «Кто написал “Войну и мир”?»

    2. «Сколько ему было лет?»

    Система ещё удерживает сущность:

    Лев Толстой.

    Но если вставить:

    > «Какая завтра погода?»

    контекст может разрушиться полностью.

    Почему так происходит?

    Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

    ASR → Intent → Dialogue Manager → Search → LLM → TTS

    Где:

    ASR — распознавание речи,

    Intent — определение намерения,

    Dialogue Manager — управление контекстом,

    Search — поиск,

    LLM — генерация ответа,

    TTS — синтез голоса.

    Контекст может потеряться буквально между этапами.

    Особенно в гибридных системах, где:

    часть запросов идёт в search engine,

    часть — в rule-based handlers,

    часть — в LLM.

    ---

    Почему ИИ уверенно врёт

    Самая опасная особенность современных LLM — галлюцинации.

    Модель не хранит знания как база данных.

    Она строит:

    > наиболее вероятную последовательность слов.

    Поэтому возникают:

    несуществующие цитаты,

    вымышленные учёные,

    фальшивые версии ПО,

    придуманные события,

    несуществующие функции API.

    Особенно неприятно то, что модель:

    почти никогда не демонстрирует естественную неуверенность,

    и генерирует бред с тем же тоном, что и правду.

    Для пользователя это выглядит как:

    > «Она врёт и сама в это верит».

    Но технически «веры» там нет вообще.

    ---

    VAD: почему колонка «оживает» ночью

    Один из самых криповых эффектов — ложные активации.

    Колонка внезапно начинает говорить:

    ночью,

    на фоне телевизора,

    из-за шума,

    из-за музыки,

    иногда даже из-за кашля или шорохов.

    Причина — технология VAD.

    Что такое VAD

    VAD — Voice Activity Detection.

    Система постоянно анализирует аудиопоток:

    локально,

    в ожидании wake-word,

    без постоянной отправки всего звука в облако.

    Но алгоритм может ошибаться.

    Тогда:

    случайный шум,

    слово из фильма,

    обрывок фразы,

    созвучие имени ассистента

    воспринимаются как команда активации.

    Именно отсюда берутся знаменитые:

    > «Я здесь.»

    в полной темноте в 3 часа ночи.

    ---

    Почему вместо Rammstein включается «Синий трактор»

    Это уже конфликт двух независимых систем:

    1. ASR (распознавание речи),

    2. recommender system.

    Если в аккаунте:

    дети,

    мультфильмы,

    детские песни,

    семейный профиль,

    то recommendation engine начинает aggressively priorize детский контент.

    Даже если пользователь произнёс запрос корректно.

    С точки зрения алгоритма:

    > «детская музыка» — statistically safer recommendation.

    Для пользователя:

    > «колонка сошла с ума».

    ---

    Самый интересный эффект: интеллект без понимания

    Вот здесь начинается самая странная часть.

    Современные LLM:

    прекрасно имитируют язык,

    но крайне плохо строят устойчивую world model.

    Из-за этого они способны:

    обсуждать философию,

    писать код,

    поддерживать стиль,

    шутить,

    спорить.

    И одновременно:

    проваливать базовую логику,

    путать сущности,

    ломать причинно-следственные связи,

    забывать контекст через две реплики.

    Получается феномен:

    > «интеллектуально звучащей системы без полноценного понимания».

    ---

    Почему это психологически пугает

    Человеческий мозг автоматически ищет субъектность.

    Если объект:

    говорит,

    реагирует,

    использует эмоции,

    меняет интонации,

    спорит,

    шутит,

    то мы начинаем воспринимать его как агента.

    Даже если это:

    набор вероятностных моделей,

    intent-routing,

    рекомендательные алгоритмы,

    и несколько нейросетей поверх ASR.

    Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

    Пользователь интерпретирует их как:

    «странное поведение»,

    «характер»,

    «эмоции»,

    «обиду»,

    «упрямство».

    Хотя на практике это всего лишь:

    probabilistic failure,

    context collapse,

    false activation,

    ranking conflict.

    ---

    Итог

    Современные голосовые ассистенты находятся в странной точке эволюции.

    Они уже:

    слишком разговорчивы, чтобы считаться обычным интерфейсом,

    но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

    Поэтому возникает тот самый эффект:

    > между «восстанием машин» и «интеллектом табуретки».

    И, возможно, именно эта смесь:

    уверенного тона,

    человеческой интонации,

    псевдоэмоций,

    случайных сбоев,

    и статистической генерации

    делает современные колонки одновременно:

    полезными,

    смешными,

    раздражающими,

    и местами откровенно криповыми.

    #ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

    bastyon.com/svalmon37?ref=PJ51

  7. Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

    Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

    систем распознавания речи,

    рекомендательных алгоритмов,

    LLM-моделей,

    пайплайнов синтеза голоса,

    intent-routing,

    контекстных менеджеров,

    и огромного количества эвристик.

    Именно поэтому пользователь регулярно сталкивается с парадоксом:

    > Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

    Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

    ---

    Иллюзия личности как продукт

    Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

    Ранние версии:

    Siri,

    Google Assistant,

    Alexa

    строились вокруг идеи «нейтрального помощника».

    Яндекс пошёл другим путём:

    сарказм,

    эмоциональные ответы,

    псевдофилософия,

    мемная подача,

    шутки,

    реакция на грубость.

    Это оказалось критически важным UX-решением.

    Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

    ---

    Почему колонка кажется «живой»

    Основная причина — языковые модели великолепно имитируют человеческую речь.

    LLM не:

    «думает»,

    «понимает»,

    «осознаёт».

    Она статистически предсказывает следующий токен.

    Но человеческий мозг крайне плохо отличает:

    настоящее понимание,

    от правдоподобной речевой симуляции.

    Из-за этого возникают феномены антропоморфизации:

    люди приписывают ИИ эмоции,

    намерения,

    характер,

    настроение,

    «обиду»,

    «упрямство».

    Хотя на практике это:

    probabilistic generation,

    routing errors,

    context collapse,

    recommendation conflicts.

    ---

    Ловушка контекста

    Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

    Пример:

    1. «Кто написал “Войну и мир”?»

    2. «Сколько ему было лет?»

    Система ещё удерживает сущность:

    Лев Толстой.

    Но если вставить:

    > «Какая завтра погода?»

    контекст может разрушиться полностью.

    Почему так происходит?

    Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

    ASR → Intent → Dialogue Manager → Search → LLM → TTS

    Где:

    ASR — распознавание речи,

    Intent — определение намерения,

    Dialogue Manager — управление контекстом,

    Search — поиск,

    LLM — генерация ответа,

    TTS — синтез голоса.

    Контекст может потеряться буквально между этапами.

    Особенно в гибридных системах, где:

    часть запросов идёт в search engine,

    часть — в rule-based handlers,

    часть — в LLM.

    ---

    Почему ИИ уверенно врёт

    Самая опасная особенность современных LLM — галлюцинации.

    Модель не хранит знания как база данных.

    Она строит:

    > наиболее вероятную последовательность слов.

    Поэтому возникают:

    несуществующие цитаты,

    вымышленные учёные,

    фальшивые версии ПО,

    придуманные события,

    несуществующие функции API.

    Особенно неприятно то, что модель:

    почти никогда не демонстрирует естественную неуверенность,

    и генерирует бред с тем же тоном, что и правду.

    Для пользователя это выглядит как:

    > «Она врёт и сама в это верит».

    Но технически «веры» там нет вообще.

    ---

    VAD: почему колонка «оживает» ночью

    Один из самых криповых эффектов — ложные активации.

    Колонка внезапно начинает говорить:

    ночью,

    на фоне телевизора,

    из-за шума,

    из-за музыки,

    иногда даже из-за кашля или шорохов.

    Причина — технология VAD.

    Что такое VAD

    VAD — Voice Activity Detection.

    Система постоянно анализирует аудиопоток:

    локально,

    в ожидании wake-word,

    без постоянной отправки всего звука в облако.

    Но алгоритм может ошибаться.

    Тогда:

    случайный шум,

    слово из фильма,

    обрывок фразы,

    созвучие имени ассистента

    воспринимаются как команда активации.

    Именно отсюда берутся знаменитые:

    > «Я здесь.»

    в полной темноте в 3 часа ночи.

    ---

    Почему вместо Rammstein включается «Синий трактор»

    Это уже конфликт двух независимых систем:

    1. ASR (распознавание речи),

    2. recommender system.

    Если в аккаунте:

    дети,

    мультфильмы,

    детские песни,

    семейный профиль,

    то recommendation engine начинает aggressively priorize детский контент.

    Даже если пользователь произнёс запрос корректно.

    С точки зрения алгоритма:

    > «детская музыка» — statistically safer recommendation.

    Для пользователя:

    > «колонка сошла с ума».

    ---

    Самый интересный эффект: интеллект без понимания

    Вот здесь начинается самая странная часть.

    Современные LLM:

    прекрасно имитируют язык,

    но крайне плохо строят устойчивую world model.

    Из-за этого они способны:

    обсуждать философию,

    писать код,

    поддерживать стиль,

    шутить,

    спорить.

    И одновременно:

    проваливать базовую логику,

    путать сущности,

    ломать причинно-следственные связи,

    забывать контекст через две реплики.

    Получается феномен:

    > «интеллектуально звучащей системы без полноценного понимания».

    ---

    Почему это психологически пугает

    Человеческий мозг автоматически ищет субъектность.

    Если объект:

    говорит,

    реагирует,

    использует эмоции,

    меняет интонации,

    спорит,

    шутит,

    то мы начинаем воспринимать его как агента.

    Даже если это:

    набор вероятностных моделей,

    intent-routing,

    рекомендательные алгоритмы,

    и несколько нейросетей поверх ASR.

    Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

    Пользователь интерпретирует их как:

    «странное поведение»,

    «характер»,

    «эмоции»,

    «обиду»,

    «упрямство».

    Хотя на практике это всего лишь:

    probabilistic failure,

    context collapse,

    false activation,

    ranking conflict.

    ---

    Итог

    Современные голосовые ассистенты находятся в странной точке эволюции.

    Они уже:

    слишком разговорчивы, чтобы считаться обычным интерфейсом,

    но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

    Поэтому возникает тот самый эффект:

    > между «восстанием машин» и «интеллектом табуретки».

    И, возможно, именно эта смесь:

    уверенного тона,

    человеческой интонации,

    псевдоэмоций,

    случайных сбоев,

    и статистической генерации

    делает современные колонки одновременно:

    полезными,

    смешными,

    раздражающими,

    и местами откровенно криповыми.

    #ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

    bastyon.com/svalmon37?ref=PJ51

  8. Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

    Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

    систем распознавания речи,

    рекомендательных алгоритмов,

    LLM-моделей,

    пайплайнов синтеза голоса,

    intent-routing,

    контекстных менеджеров,

    и огромного количества эвристик.

    Именно поэтому пользователь регулярно сталкивается с парадоксом:

    > Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

    Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

    ---

    Иллюзия личности как продукт

    Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

    Ранние версии:

    Siri,

    Google Assistant,

    Alexa

    строились вокруг идеи «нейтрального помощника».

    Яндекс пошёл другим путём:

    сарказм,

    эмоциональные ответы,

    псевдофилософия,

    мемная подача,

    шутки,

    реакция на грубость.

    Это оказалось критически важным UX-решением.

    Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

    ---

    Почему колонка кажется «живой»

    Основная причина — языковые модели великолепно имитируют человеческую речь.

    LLM не:

    «думает»,

    «понимает»,

    «осознаёт».

    Она статистически предсказывает следующий токен.

    Но человеческий мозг крайне плохо отличает:

    настоящее понимание,

    от правдоподобной речевой симуляции.

    Из-за этого возникают феномены антропоморфизации:

    люди приписывают ИИ эмоции,

    намерения,

    характер,

    настроение,

    «обиду»,

    «упрямство».

    Хотя на практике это:

    probabilistic generation,

    routing errors,

    context collapse,

    recommendation conflicts.

    ---

    Ловушка контекста

    Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

    Пример:

    1. «Кто написал “Войну и мир”?»

    2. «Сколько ему было лет?»

    Система ещё удерживает сущность:

    Лев Толстой.

    Но если вставить:

    > «Какая завтра погода?»

    контекст может разрушиться полностью.

    Почему так происходит?

    Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

    ASR → Intent → Dialogue Manager → Search → LLM → TTS

    Где:

    ASR — распознавание речи,

    Intent — определение намерения,

    Dialogue Manager — управление контекстом,

    Search — поиск,

    LLM — генерация ответа,

    TTS — синтез голоса.

    Контекст может потеряться буквально между этапами.

    Особенно в гибридных системах, где:

    часть запросов идёт в search engine,

    часть — в rule-based handlers,

    часть — в LLM.

    ---

    Почему ИИ уверенно врёт

    Самая опасная особенность современных LLM — галлюцинации.

    Модель не хранит знания как база данных.

    Она строит:

    > наиболее вероятную последовательность слов.

    Поэтому возникают:

    несуществующие цитаты,

    вымышленные учёные,

    фальшивые версии ПО,

    придуманные события,

    несуществующие функции API.

    Особенно неприятно то, что модель:

    почти никогда не демонстрирует естественную неуверенность,

    и генерирует бред с тем же тоном, что и правду.

    Для пользователя это выглядит как:

    > «Она врёт и сама в это верит».

    Но технически «веры» там нет вообще.

    ---

    VAD: почему колонка «оживает» ночью

    Один из самых криповых эффектов — ложные активации.

    Колонка внезапно начинает говорить:

    ночью,

    на фоне телевизора,

    из-за шума,

    из-за музыки,

    иногда даже из-за кашля или шорохов.

    Причина — технология VAD.

    Что такое VAD

    VAD — Voice Activity Detection.

    Система постоянно анализирует аудиопоток:

    локально,

    в ожидании wake-word,

    без постоянной отправки всего звука в облако.

    Но алгоритм может ошибаться.

    Тогда:

    случайный шум,

    слово из фильма,

    обрывок фразы,

    созвучие имени ассистента

    воспринимаются как команда активации.

    Именно отсюда берутся знаменитые:

    > «Я здесь.»

    в полной темноте в 3 часа ночи.

    ---

    Почему вместо Rammstein включается «Синий трактор»

    Это уже конфликт двух независимых систем:

    1. ASR (распознавание речи),

    2. recommender system.

    Если в аккаунте:

    дети,

    мультфильмы,

    детские песни,

    семейный профиль,

    то recommendation engine начинает aggressively priorize детский контент.

    Даже если пользователь произнёс запрос корректно.

    С точки зрения алгоритма:

    > «детская музыка» — statistically safer recommendation.

    Для пользователя:

    > «колонка сошла с ума».

    ---

    Самый интересный эффект: интеллект без понимания

    Вот здесь начинается самая странная часть.

    Современные LLM:

    прекрасно имитируют язык,

    но крайне плохо строят устойчивую world model.

    Из-за этого они способны:

    обсуждать философию,

    писать код,

    поддерживать стиль,

    шутить,

    спорить.

    И одновременно:

    проваливать базовую логику,

    путать сущности,

    ломать причинно-следственные связи,

    забывать контекст через две реплики.

    Получается феномен:

    > «интеллектуально звучащей системы без полноценного понимания».

    ---

    Почему это психологически пугает

    Человеческий мозг автоматически ищет субъектность.

    Если объект:

    говорит,

    реагирует,

    использует эмоции,

    меняет интонации,

    спорит,

    шутит,

    то мы начинаем воспринимать его как агента.

    Даже если это:

    набор вероятностных моделей,

    intent-routing,

    рекомендательные алгоритмы,

    и несколько нейросетей поверх ASR.

    Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

    Пользователь интерпретирует их как:

    «странное поведение»,

    «характер»,

    «эмоции»,

    «обиду»,

    «упрямство».

    Хотя на практике это всего лишь:

    probabilistic failure,

    context collapse,

    false activation,

    ranking conflict.

    ---

    Итог

    Современные голосовые ассистенты находятся в странной точке эволюции.

    Они уже:

    слишком разговорчивы, чтобы считаться обычным интерфейсом,

    но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

    Поэтому возникает тот самый эффект:

    > между «восстанием машин» и «интеллектом табуретки».

    И, возможно, именно эта смесь:

    уверенного тона,

    человеческой интонации,

    псевдоэмоций,

    случайных сбоев,

    и статистической генерации

    делает современные колонки одновременно:

    полезными,

    смешными,

    раздражающими,

    и местами откровенно криповыми.

    #ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

    bastyon.com/svalmon37?ref=PJ51

  9. Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

    Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

    систем распознавания речи,

    рекомендательных алгоритмов,

    LLM-моделей,

    пайплайнов синтеза голоса,

    intent-routing,

    контекстных менеджеров,

    и огромного количества эвристик.

    Именно поэтому пользователь регулярно сталкивается с парадоксом:

    > Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

    Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

    ---

    Иллюзия личности как продукт

    Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

    Ранние версии:

    Siri,

    Google Assistant,

    Alexa

    строились вокруг идеи «нейтрального помощника».

    Яндекс пошёл другим путём:

    сарказм,

    эмоциональные ответы,

    псевдофилософия,

    мемная подача,

    шутки,

    реакция на грубость.

    Это оказалось критически важным UX-решением.

    Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

    ---

    Почему колонка кажется «живой»

    Основная причина — языковые модели великолепно имитируют человеческую речь.

    LLM не:

    «думает»,

    «понимает»,

    «осознаёт».

    Она статистически предсказывает следующий токен.

    Но человеческий мозг крайне плохо отличает:

    настоящее понимание,

    от правдоподобной речевой симуляции.

    Из-за этого возникают феномены антропоморфизации:

    люди приписывают ИИ эмоции,

    намерения,

    характер,

    настроение,

    «обиду»,

    «упрямство».

    Хотя на практике это:

    probabilistic generation,

    routing errors,

    context collapse,

    recommendation conflicts.

    ---

    Ловушка контекста

    Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

    Пример:

    1. «Кто написал “Войну и мир”?»

    2. «Сколько ему было лет?»

    Система ещё удерживает сущность:

    Лев Толстой.

    Но если вставить:

    > «Какая завтра погода?»

    контекст может разрушиться полностью.

    Почему так происходит?

    Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

    ASR → Intent → Dialogue Manager → Search → LLM → TTS

    Где:

    ASR — распознавание речи,

    Intent — определение намерения,

    Dialogue Manager — управление контекстом,

    Search — поиск,

    LLM — генерация ответа,

    TTS — синтез голоса.

    Контекст может потеряться буквально между этапами.

    Особенно в гибридных системах, где:

    часть запросов идёт в search engine,

    часть — в rule-based handlers,

    часть — в LLM.

    ---

    Почему ИИ уверенно врёт

    Самая опасная особенность современных LLM — галлюцинации.

    Модель не хранит знания как база данных.

    Она строит:

    > наиболее вероятную последовательность слов.

    Поэтому возникают:

    несуществующие цитаты,

    вымышленные учёные,

    фальшивые версии ПО,

    придуманные события,

    несуществующие функции API.

    Особенно неприятно то, что модель:

    почти никогда не демонстрирует естественную неуверенность,

    и генерирует бред с тем же тоном, что и правду.

    Для пользователя это выглядит как:

    > «Она врёт и сама в это верит».

    Но технически «веры» там нет вообще.

    ---

    VAD: почему колонка «оживает» ночью

    Один из самых криповых эффектов — ложные активации.

    Колонка внезапно начинает говорить:

    ночью,

    на фоне телевизора,

    из-за шума,

    из-за музыки,

    иногда даже из-за кашля или шорохов.

    Причина — технология VAD.

    Что такое VAD

    VAD — Voice Activity Detection.

    Система постоянно анализирует аудиопоток:

    локально,

    в ожидании wake-word,

    без постоянной отправки всего звука в облако.

    Но алгоритм может ошибаться.

    Тогда:

    случайный шум,

    слово из фильма,

    обрывок фразы,

    созвучие имени ассистента

    воспринимаются как команда активации.

    Именно отсюда берутся знаменитые:

    > «Я здесь.»

    в полной темноте в 3 часа ночи.

    ---

    Почему вместо Rammstein включается «Синий трактор»

    Это уже конфликт двух независимых систем:

    1. ASR (распознавание речи),

    2. recommender system.

    Если в аккаунте:

    дети,

    мультфильмы,

    детские песни,

    семейный профиль,

    то recommendation engine начинает aggressively priorize детский контент.

    Даже если пользователь произнёс запрос корректно.

    С точки зрения алгоритма:

    > «детская музыка» — statistically safer recommendation.

    Для пользователя:

    > «колонка сошла с ума».

    ---

    Самый интересный эффект: интеллект без понимания

    Вот здесь начинается самая странная часть.

    Современные LLM:

    прекрасно имитируют язык,

    но крайне плохо строят устойчивую world model.

    Из-за этого они способны:

    обсуждать философию,

    писать код,

    поддерживать стиль,

    шутить,

    спорить.

    И одновременно:

    проваливать базовую логику,

    путать сущности,

    ломать причинно-следственные связи,

    забывать контекст через две реплики.

    Получается феномен:

    > «интеллектуально звучащей системы без полноценного понимания».

    ---

    Почему это психологически пугает

    Человеческий мозг автоматически ищет субъектность.

    Если объект:

    говорит,

    реагирует,

    использует эмоции,

    меняет интонации,

    спорит,

    шутит,

    то мы начинаем воспринимать его как агента.

    Даже если это:

    набор вероятностных моделей,

    intent-routing,

    рекомендательные алгоритмы,

    и несколько нейросетей поверх ASR.

    Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

    Пользователь интерпретирует их как:

    «странное поведение»,

    «характер»,

    «эмоции»,

    «обиду»,

    «упрямство».

    Хотя на практике это всего лишь:

    probabilistic failure,

    context collapse,

    false activation,

    ranking conflict.

    ---

    Итог

    Современные голосовые ассистенты находятся в странной точке эволюции.

    Они уже:

    слишком разговорчивы, чтобы считаться обычным интерфейсом,

    но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

    Поэтому возникает тот самый эффект:

    > между «восстанием машин» и «интеллектом табуретки».

    И, возможно, именно эта смесь:

    уверенного тона,

    человеческой интонации,

    псевдоэмоций,

    случайных сбоев,

    и статистической генерации

    делает современные колонки одновременно:

    полезными,

    смешными,

    раздражающими,

    и местами откровенно криповыми.

    #ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

    bastyon.com/svalmon37?ref=PJ51

  10. Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

    Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

    систем распознавания речи,

    рекомендательных алгоритмов,

    LLM-моделей,

    пайплайнов синтеза голоса,

    intent-routing,

    контекстных менеджеров,

    и огромного количества эвристик.

    Именно поэтому пользователь регулярно сталкивается с парадоксом:

    > Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

    Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

    ---

    Иллюзия личности как продукт

    Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

    Ранние версии:

    Siri,

    Google Assistant,

    Alexa

    строились вокруг идеи «нейтрального помощника».

    Яндекс пошёл другим путём:

    сарказм,

    эмоциональные ответы,

    псевдофилософия,

    мемная подача,

    шутки,

    реакция на грубость.

    Это оказалось критически важным UX-решением.

    Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

    ---

    Почему колонка кажется «живой»

    Основная причина — языковые модели великолепно имитируют человеческую речь.

    LLM не:

    «думает»,

    «понимает»,

    «осознаёт».

    Она статистически предсказывает следующий токен.

    Но человеческий мозг крайне плохо отличает:

    настоящее понимание,

    от правдоподобной речевой симуляции.

    Из-за этого возникают феномены антропоморфизации:

    люди приписывают ИИ эмоции,

    намерения,

    характер,

    настроение,

    «обиду»,

    «упрямство».

    Хотя на практике это:

    probabilistic generation,

    routing errors,

    context collapse,

    recommendation conflicts.

    ---

    Ловушка контекста

    Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

    Пример:

    1. «Кто написал “Войну и мир”?»

    2. «Сколько ему было лет?»

    Система ещё удерживает сущность:

    Лев Толстой.

    Но если вставить:

    > «Какая завтра погода?»

    контекст может разрушиться полностью.

    Почему так происходит?

    Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

    ASR → Intent → Dialogue Manager → Search → LLM → TTS

    Где:

    ASR — распознавание речи,

    Intent — определение намерения,

    Dialogue Manager — управление контекстом,

    Search — поиск,

    LLM — генерация ответа,

    TTS — синтез голоса.

    Контекст может потеряться буквально между этапами.

    Особенно в гибридных системах, где:

    часть запросов идёт в search engine,

    часть — в rule-based handlers,

    часть — в LLM.

    ---

    Почему ИИ уверенно врёт

    Самая опасная особенность современных LLM — галлюцинации.

    Модель не хранит знания как база данных.

    Она строит:

    > наиболее вероятную последовательность слов.

    Поэтому возникают:

    несуществующие цитаты,

    вымышленные учёные,

    фальшивые версии ПО,

    придуманные события,

    несуществующие функции API.

    Особенно неприятно то, что модель:

    почти никогда не демонстрирует естественную неуверенность,

    и генерирует бред с тем же тоном, что и правду.

    Для пользователя это выглядит как:

    > «Она врёт и сама в это верит».

    Но технически «веры» там нет вообще.

    ---

    VAD: почему колонка «оживает» ночью

    Один из самых криповых эффектов — ложные активации.

    Колонка внезапно начинает говорить:

    ночью,

    на фоне телевизора,

    из-за шума,

    из-за музыки,

    иногда даже из-за кашля или шорохов.

    Причина — технология VAD.

    Что такое VAD

    VAD — Voice Activity Detection.

    Система постоянно анализирует аудиопоток:

    локально,

    в ожидании wake-word,

    без постоянной отправки всего звука в облако.

    Но алгоритм может ошибаться.

    Тогда:

    случайный шум,

    слово из фильма,

    обрывок фразы,

    созвучие имени ассистента

    воспринимаются как команда активации.

    Именно отсюда берутся знаменитые:

    > «Я здесь.»

    в полной темноте в 3 часа ночи.

    ---

    Почему вместо Rammstein включается «Синий трактор»

    Это уже конфликт двух независимых систем:

    1. ASR (распознавание речи),

    2. recommender system.

    Если в аккаунте:

    дети,

    мультфильмы,

    детские песни,

    семейный профиль,

    то recommendation engine начинает aggressively priorize детский контент.

    Даже если пользователь произнёс запрос корректно.

    С точки зрения алгоритма:

    > «детская музыка» — statistically safer recommendation.

    Для пользователя:

    > «колонка сошла с ума».

    ---

    Самый интересный эффект: интеллект без понимания

    Вот здесь начинается самая странная часть.

    Современные LLM:

    прекрасно имитируют язык,

    но крайне плохо строят устойчивую world model.

    Из-за этого они способны:

    обсуждать философию,

    писать код,

    поддерживать стиль,

    шутить,

    спорить.

    И одновременно:

    проваливать базовую логику,

    путать сущности,

    ломать причинно-следственные связи,

    забывать контекст через две реплики.

    Получается феномен:

    > «интеллектуально звучащей системы без полноценного понимания».

    ---

    Почему это психологически пугает

    Человеческий мозг автоматически ищет субъектность.

    Если объект:

    говорит,

    реагирует,

    использует эмоции,

    меняет интонации,

    спорит,

    шутит,

    то мы начинаем воспринимать его как агента.

    Даже если это:

    набор вероятностных моделей,

    intent-routing,

    рекомендательные алгоритмы,

    и несколько нейросетей поверх ASR.

    Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

    Пользователь интерпретирует их как:

    «странное поведение»,

    «характер»,

    «эмоции»,

    «обиду»,

    «упрямство».

    Хотя на практике это всего лишь:

    probabilistic failure,

    context collapse,

    false activation,

    ranking conflict.

    ---

    Итог

    Современные голосовые ассистенты находятся в странной точке эволюции.

    Они уже:

    слишком разговорчивы, чтобы считаться обычным интерфейсом,

    но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

    Поэтому возникает тот самый эффект:

    > между «восстанием машин» и «интеллектом табуретки».

    И, возможно, именно эта смесь:

    уверенного тона,

    человеческой интонации,

    псевдоэмоций,

    случайных сбоев,

    и статистической генерации

    делает современные колонки одновременно:

    полезными,

    смешными,

    раздражающими,

    и местами откровенно криповыми.

    #ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

    bastyon.com/svalmon37?ref=PJ51

  11. От MVP на Whisper до собственной ASR: как мы построили платформу субтитров для RUTUBE

    Автоматическое создание субтитров для пользовательского контента может выглядеть довольно простой задачей: берем готовую ASR‑модель, распознаем аудио из видео и сохраняем результат. Именно таким и был наш первый MVP в RUTUBE — сервис на базе Whisper, который позволил быстро проверить гипотезу и запустить субтитры в production. Но очень быстро стало понятно, что между «распознать речь» и «сделать субтитры для всего контента» лежит огромный пласт работы. Миллионы новых видео, ролики длиной до 24 часов, неизвестный язык, шумный пользовательский контент, требования к качеству текста и жесткие ограничения по скорости обработки — всё это превратило задачу из простого ASR в полноценную платформу с микросервисной архитектурой и собственной системой распознавания речи. В статье расскажу, почему Whisper не подошел для production, как мы перестроили всю архитектуру и за счет чего смогли выйти на производительность около 1200 видео в час на один ASR.

    habr.com/ru/companies/habr_rut

    #asr #whisper #распознавание_речи #highload #субтитры #production_ml #machine_learning

  12. Non-lexical sounds impact ASR in clinical documentation.

    🔊 NLCS: 2.4% of total words, conveying key clinical info
    😷 Google's WER: 40.8%, Amazon's: 57.2% (all NLCS)
    ❌ Error rates for clinically relevant NLCS: Google 94.7%, Amazon 98.7%
    📝 Total words: 135,647; 3284 NLCS; 76 conveyed critical data
    🗣️ Described implications on documentation accuracy

    #ASR #ClinicalDocumentation #SpeechRecognition #AI #NLPSolutions #Pub2Post tnyp.me/Npmiz0F4/m

  13. Non-lexical sounds impact ASR in clinical documentation.

    🔊 NLCS: 2.4% of total words, conveying key clinical info
    😷 Google's WER: 40.8%, Amazon's: 57.2% (all NLCS)
    ❌ Error rates for clinically relevant NLCS: Google 94.7%, Amazon 98.7%
    📝 Total words: 135,647; 3284 NLCS; 76 conveyed critical data
    🗣️ Described implications on documentation accuracy

    #ASR #ClinicalDocumentation #SpeechRecognition #AI #NLPSolutions #Pub2Post tnyp.me/Npmiz0F4/m

  14. Non-lexical sounds impact ASR in clinical documentation.

    🔊 NLCS: 2.4% of total words, conveying key clinical info
    😷 Google's WER: 40.8%, Amazon's: 57.2% (all NLCS)
    ❌ Error rates for clinically relevant NLCS: Google 94.7%, Amazon 98.7%
    📝 Total words: 135,647; 3284 NLCS; 76 conveyed critical data
    🗣️ Described implications on documentation accuracy

    #ASR #ClinicalDocumentation #SpeechRecognition #AI #NLPSolutions #Pub2Post tnyp.me/Npmiz0F4/m

  15. Non-lexical sounds impact ASR in clinical documentation.

    🔊 NLCS: 2.4% of total words, conveying key clinical info
    😷 Google's WER: 40.8%, Amazon's: 57.2% (all NLCS)
    ❌ Error rates for clinically relevant NLCS: Google 94.7%, Amazon 98.7%
    📝 Total words: 135,647; 3284 NLCS; 76 conveyed critical data
    🗣️ Described implications on documentation accuracy

    #ASR #ClinicalDocumentation #SpeechRecognition #AI #NLPSolutions #Pub2Post tnyp.me/Npmiz0F4/m

  16. Non-lexical sounds impact ASR in clinical documentation.

    🔊 NLCS: 2.4% of total words, conveying key clinical info
    😷 Google's WER: 40.8%, Amazon's: 57.2% (all NLCS)
    ❌ Error rates for clinically relevant NLCS: Google 94.7%, Amazon 98.7%
    📝 Total words: 135,647; 3284 NLCS; 76 conveyed critical data
    🗣️ Described implications on documentation accuracy

    #ASR #ClinicalDocumentation #SpeechRecognition #AI #NLPSolutions #Pub2Post tnyp.me/Npmiz0F4/m

  17. Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

    В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

    habr.com/ru/articles/1026778/

    #Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

  18. LLM как декодер в ASR: опыт адаптации SOTA архитектуры для спонтанной русскоязычной речи

    Привет, Хабр! Меня зовут Коля, я разработчик машинного обучения в команде речевых технологий Контура. Мы разрабатываем собственную систему распознавания речи (ASR), которая ежедневно переваривает миллионы звонков и записей видеоконференций, чтобы потом использовать их для речевой аналитики качества коммуникаций с клиентами и для создания протоколов и резюме встреч в Контур.Толке. Мы постоянно работаем над тем, чтобы дать пользователям лучшее качество и опыт взаимодействия с нашими продуктами: борьба уже давно идет за десятые доли процента WER (Word Error Rate) – особенно сложные и трудные для распознавания случаи. В конце прошлого года Nvidia изрядно встряхнула Open Source комьюнити, выкатив серию новеньких моделей распознавания речи. Одна из них нам особенно приглянулась: Canary-Qwen-2.5B на архитектуре SALM (Speech Augmented Language Model), установившая новый рекорд по качеству в HuggingFace OpenASR, благодаря использованию гибридного подхода, совмещающего речевой энкодер и LLM в своей работе. Мы в Контуре решили не проходить мимо и проверить: а как эта новоиспеченная SOTA покажет себя на наших реалиях — на русском языке, в домене телефонии и видеоконференций, в условиях, когда у нас нет десятков тысяч часов размеченных людьми данных.

    habr.com/ru/companies/skbkontu

    #машинное+обучение #распознавание_речи #asr #llm

  19. Aomer Gaya Ouldali de l'Université de Béjaïa vient de publier son code pour "Mmeslay" (Parle) en kabyle.

    Demo sur HF : huggingface.co/spaces/g1ya/Mme

    Projet initialement amorcé avec @belkacem77

    cc @Taflelli @azwaw

    #Kabyle #ASR

  20. Quanto ha inciso il pareggio di Roma-Juve sugli ultimi risultati della Roma? 🤔

    #Iromanisti1927 #ASR #romajuve #ASRoma #dajeroma

  21. After A LOT of studying BLAS internals, my PR to the gemm crate is finally open: it introduces mixed-precision BF16 matmuls (optimal for use cases like small models doing autoregressive decoding on CPU)

    github.com/sarah-quinones/gemm

  22. - Cohere Transcribe automatic speech recognition model supports 14 languages with impressive benchmarks: cohere.com/blog/transcribe huggingface.co/CohereLabs/cohe MLX port already: github.com/Blaizzy/mlx-audio

    - Distributed ML training across MacBooks via MLX + Airdrop, cool! github.com/swarnim-j/grove

    - Rumours: iOS 27 will open Siri to run any AI service (Bloomberg) + Anthropic acknowledges testing 'step change' level model after 'leak' (fortune.com)

    #AI #AINews #ASR #cohere #mlx #rumours #siri #anthropic

  23. #odido #hack dag zoveel
    Ik probeer mijn bankrekeningnummers om te zetten. Dus oude betaalrekening eruit, nieuwe erin
    - nieuwe rekening is er. Nog geen betaalpassen, dat kan even duren blijkbaar
    - aegon betalingen omzetting lijkt gelukt te zijn. Bijna iedere avond geeft de website fouten. Inlog lukt niet en dan later kom je erin zonder inlog
    - asr website inloggen om gegevens te veranderen

    onderstaand hun fantastische service. Wedden dat ze me opeens wel kunnen vinden als mijn rekening waar ze van afschrijven niet meer bestaat?
    #asr #aegon

  24. #odido #hack dag zoveel
    Ik probeer mijn bankrekeningnummers om te zetten. Dus oude betaalrekening eruit, nieuwe erin
    - nieuwe rekening is er. Nog geen betaalpassen, dat kan even duren blijkbaar
    - aegon betalingen omzetting lijkt gelukt te zijn. Bijna iedere avond geeft de website fouten. Inlog lukt niet en dan later kom je erin zonder inlog
    - asr website inloggen om gegevens te veranderen

    onderstaand hun fantastische service. Wedden dat ze me opeens wel kunnen vinden als mijn rekening waar ze van afschrijven niet meer bestaat?
    #asr #aegon

  25. #odido #hack dag zoveel
    Ik probeer mijn bankrekeningnummers om te zetten. Dus oude betaalrekening eruit, nieuwe erin
    - nieuwe rekening is er. Nog geen betaalpassen, dat kan even duren blijkbaar
    - aegon betalingen omzetting lijkt gelukt te zijn. Bijna iedere avond geeft de website fouten. Inlog lukt niet en dan later kom je erin zonder inlog
    - asr website inloggen om gegevens te veranderen

    onderstaand hun fantastische service. Wedden dat ze me opeens wel kunnen vinden als mijn rekening waar ze van afschrijven niet meer bestaat?
    #asr #aegon

  26. #odido #hack dag zoveel
    Ik probeer mijn bankrekeningnummers om te zetten. Dus oude betaalrekening eruit, nieuwe erin
    - nieuwe rekening is er. Nog geen betaalpassen, dat kan even duren blijkbaar
    - aegon betalingen omzetting lijkt gelukt te zijn. Bijna iedere avond geeft de website fouten. Inlog lukt niet en dan later kom je erin zonder inlog
    - asr website inloggen om gegevens te veranderen

    onderstaand hun fantastische service. Wedden dat ze me opeens wel kunnen vinden als mijn rekening waar ze van afschrijven niet meer bestaat?
    #asr #aegon

  27. #odido #hack dag zoveel
    Ik probeer mijn bankrekeningnummers om te zetten. Dus oude betaalrekening eruit, nieuwe erin
    - nieuwe rekening is er. Nog geen betaalpassen, dat kan even duren blijkbaar
    - aegon betalingen omzetting lijkt gelukt te zijn. Bijna iedere avond geeft de website fouten. Inlog lukt niet en dan later kom je erin zonder inlog
    - asr website inloggen om gegevens te veranderen

    onderstaand hun fantastische service. Wedden dat ze me opeens wel kunnen vinden als mijn rekening waar ze van afschrijven niet meer bestaat?
    #asr #aegon

  28. Швейцарский ножик для распознавания речи

    ASR-системы в проде - это тяжёлые, специализированные решения под конкретные сценарии. Но что делать, если нужен универсальный инструмент, который умеет распознать длинное аудио, диаризовать спикеров, обработать пачку файлов и при этом не требует целого GPU кластера? В этой серии статей я разбираю, как собрать «швейцарский ножик» для распознавания речи на базе Whisper: выбрать модель, победить галлюцинации, стабилизировать обработку длинных аудио и выжать максимум из обычной видеокарты. Первая часть - про выбор ASR, оптимизацию инференса и практические грабли, с которыми сталкиваешься, когда пытаешься превратить open-source модель в рабочий инструмент.

    habr.com/ru/articles/1006060/

    #ASR #распознавание_речи #Whisper #нейросети #машинное_обучение #транскрибация #диаризация #Python #ai

  29. nou mensen #aegon heet nu #asr
    en als je getroffen bent in de #odido hack, en je wilt bij je hypotheekverstrekker je rekening nummer aanpassen dan krijgt je deze #enshittification app op ipad die volledig onbruikbaar is
    er was natuurlijk geen geld meer over voor een werkende app na die overname
    dit schermpje komt naar boven zonder toetsenbord, dus een e-mail adres intypen is best
    lastig.

  30. nou mensen #aegon heet nu #asr
    en als je getroffen bent in de #odido hack, en je wilt bij je hypotheekverstrekker je rekening nummer aanpassen dan krijgt je deze #enshittification app op ipad die volledig onbruikbaar is
    er was natuurlijk geen geld meer over voor een werkende app na die overname
    dit schermpje komt naar boven zonder toetsenbord, dus een e-mail adres intypen is best
    lastig.

  31. nou mensen #aegon heet nu #asr
    en als je getroffen bent in de #odido hack, en je wilt bij je hypotheekverstrekker je rekening nummer aanpassen dan krijgt je deze #enshittification app op ipad die volledig onbruikbaar is
    er was natuurlijk geen geld meer over voor een werkende app na die overname
    dit schermpje komt naar boven zonder toetsenbord, dus een e-mail adres intypen is best
    lastig.

  32. nou mensen #aegon heet nu #asr
    en als je getroffen bent in de #odido hack, en je wilt bij je hypotheekverstrekker je rekening nummer aanpassen dan krijgt je deze #enshittification app op ipad die volledig onbruikbaar is
    er was natuurlijk geen geld meer over voor een werkende app na die overname
    dit schermpje komt naar boven zonder toetsenbord, dus een e-mail adres intypen is best
    lastig.

  33. nou mensen #aegon heet nu #asr
    en als je getroffen bent in de #odido hack, en je wilt bij je hypotheekverstrekker je rekening nummer aanpassen dan krijgt je deze #enshittification app op ipad die volledig onbruikbaar is
    er was natuurlijk geen geld meer over voor een werkende app na die overname
    dit schermpje komt naar boven zonder toetsenbord, dus een e-mail adres intypen is best
    lastig.

  34. Just shipped a Rust CPU inference engine for Qwen3-ASR. Clone it, throw a wav file at it and get a transcription *locally*

    github.com/gicrisf/qwen-asr-rs

  35. Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

    За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.

    habr.com/ru/articles/1002260/

    #speechtotext #gigaam #whisper #vosk #onnx #распознавание_речи #WER #голосовой_ввод #ASR #python

  36. Как мы научились определять продвинутые автоответчики

    Год назад мы начали использовать ASR для обработки записей телефонных звонков. TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper. Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче. На практике всё оказалось сильно сложнее. Мы работаем с телефонными розыгрышами. Записи стерео: слева абонент, справа оператор. Оператор - это заранее подготовленная аудиозапись. Первые версии системы выглядели очевидно: если абонент говорит что-то вроде «абонент сейчас недоступен», «оставьте сообщение», «говорит голосовой помощник» - это автоответчик. Так мы и начали.

    habr.com/ru/articles/996044/

    #детекция_автоответчиков #ASR #распознавание_речи #диалоговые_системы #скоринговая_модель #машинное_обучение #обработка_аудио

  37. Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

    Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

    habr.com/ru/articles/995416/

    #rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

  38. Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

    Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

    habr.com/ru/articles/995416/

    #rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

  39. Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

    Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

    habr.com/ru/articles/995416/

    #rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

  40. Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

    Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

    habr.com/ru/articles/995416/

    #rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

  41. Whisper больше не нужен? Обзор VibeVoice ASR от Microsoft — часовая транскрипция, диаризация, hotwords и портативка

    Всем привет! Команда Microsoft Research выложила в открытый доступ VibeVoice-ASR — нейросетевую модель для распознавания речи с диаризацией (разделением) спикеров. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.

    habr.com/ru/articles/992364/

    #ASR #speechtotext #распознавание_речи #Microsoft #нейросети #машинное_обучение #open_source #транскрипция #диаризация #портативная_версия

  42. Also, diese Online-LLM-Kinderspielzeuge gehen garnicht, klar. Gleichzeitig ist so ein Buddy-Toy ja schon eine coole Sache. Ich bin aber z.B. vom aktuellen Furby total unterwältigt. Kann ein paar Kommandos, ist total unintuitiv, zählt nicht auf, welche Kommandos es gibt und die meiste Zeit ist unklar, ob es gerade in dem Zustand ist, wo es Kommandos verarbeiten kann.

    Warum nicht einfach ein Buddy-Toy, das im Wesentlichen ein Eliza-Chatbot ist, mit lokaler Spracherkennung und -synthese? Das kann doch nicht so schwierig sein?

    #llm #spielzeug #eliza #asr #tts

  43. @darthvader42
    Was mich besonders interessieren würde.
    Ich habe einen relativ kurzen #Diesel mit #Frontantrieb und Antischlupfregelung.
    Das der schwere #Motor direkt über der Antriebsachse liegt und #ASR quasi eine #diffentialsperre für #Arme ist habe ich das beste Winterauto unterhalb des #allrad -antiebs. Und das war gestern #Gold !

    Deswegen will ich wissen wie das beim #Bev ist