#asr — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #asr, aggregated by home.social.

Matteo Cesari @[email protected] · 2026-05-11 · 17:15 UTC

Caos derby, la scelta ufficiale: Roma-Lazio (e altre 4 partite) domenica alle 12:30. De Siervo: “È l’unica soluzione”
Il #derby all'ora di pranzo...
#Buffoni #NoAlCalcioModerno #EPoiDiconoLaPirateria #Incapaci #SerieA #ASR #DajeRoma
https://www.ilfattoquotidiano.it/2026/05/11/derby-roma-lazio-de-siervo-orario-si-gioca-domenica-alle-1230-e-lunica-soluzione-lunedi-e-unipotesi-fantasiosa/8382498/

#derby #buffoni #noalcalciomoderno #epoidiconolapirateria #incapaci #seriea
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#voiceai #chatbot #aiethics #futuretech #автоматизация #цифровизация
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#voiceai #chatbot #aiethics #futuretech #автоматизация #цифровизация
Alterego_Midshipman @[email protected] · 2026-05-08 · 14:27 UTC

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят
Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:
систем распознавания речи,
рекомендательных алгоритмов,
LLM-моделей,
пайплайнов синтеза голоса,
intent-routing,
контекстных менеджеров,
и огромного количества эвристик.
Именно поэтому пользователь регулярно сталкивается с парадоксом:
> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.
Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.
---
Иллюзия личности как продукт
Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.
Ранние версии:
Siri,
Google Assistant,
Alexa
строились вокруг идеи «нейтрального помощника».
Яндекс пошёл другим путём:
сарказм,
эмоциональные ответы,
псевдофилософия,
мемная подача,
шутки,
реакция на грубость.
Это оказалось критически важным UX-решением.
Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».
---
Почему колонка кажется «живой»
Основная причина — языковые модели великолепно имитируют человеческую речь.
LLM не:
«думает»,
«понимает»,
«осознаёт».
Она статистически предсказывает следующий токен.
Но человеческий мозг крайне плохо отличает:
настоящее понимание,
от правдоподобной речевой симуляции.
Из-за этого возникают феномены антропоморфизации:
люди приписывают ИИ эмоции,
намерения,
характер,
настроение,
«обиду»,
«упрямство».
Хотя на практике это:
probabilistic generation,
routing errors,
context collapse,
recommendation conflicts.
---
Ловушка контекста
Одна из главных проблем голосовых ассистентов — хрупкость conversational context.
Пример:
1. «Кто написал “Войну и мир”?»
2. «Сколько ему было лет?»
Система ещё удерживает сущность:
Лев Толстой.
Но если вставить:
> «Какая завтра погода?»
контекст может разрушиться полностью.
Почему так происходит?
Потому что внутри колонки обычно работает не одна модель, а целый конвейер:
ASR → Intent → Dialogue Manager → Search → LLM → TTS
Где:
ASR — распознавание речи,
Intent — определение намерения,
Dialogue Manager — управление контекстом,
Search — поиск,
LLM — генерация ответа,
TTS — синтез голоса.
Контекст может потеряться буквально между этапами.
Особенно в гибридных системах, где:
часть запросов идёт в search engine,
часть — в rule-based handlers,
часть — в LLM.
---
Почему ИИ уверенно врёт
Самая опасная особенность современных LLM — галлюцинации.
Модель не хранит знания как база данных.
Она строит:
> наиболее вероятную последовательность слов.
Поэтому возникают:
несуществующие цитаты,
вымышленные учёные,
фальшивые версии ПО,
придуманные события,
несуществующие функции API.
Особенно неприятно то, что модель:
почти никогда не демонстрирует естественную неуверенность,
и генерирует бред с тем же тоном, что и правду.
Для пользователя это выглядит как:
> «Она врёт и сама в это верит».
Но технически «веры» там нет вообще.
---
VAD: почему колонка «оживает» ночью
Один из самых криповых эффектов — ложные активации.
Колонка внезапно начинает говорить:
ночью,
на фоне телевизора,
из-за шума,
из-за музыки,
иногда даже из-за кашля или шорохов.
Причина — технология VAD.
Что такое VAD
VAD — Voice Activity Detection.
Система постоянно анализирует аудиопоток:
локально,
в ожидании wake-word,
без постоянной отправки всего звука в облако.
Но алгоритм может ошибаться.
Тогда:
случайный шум,
слово из фильма,
обрывок фразы,
созвучие имени ассистента
воспринимаются как команда активации.
Именно отсюда берутся знаменитые:
> «Я здесь.»
в полной темноте в 3 часа ночи.
---
Почему вместо Rammstein включается «Синий трактор»
Это уже конфликт двух независимых систем:
1. ASR (распознавание речи),
2. recommender system.
Если в аккаунте:
дети,
мультфильмы,
детские песни,
семейный профиль,
то recommendation engine начинает aggressively priorize детский контент.
Даже если пользователь произнёс запрос корректно.
С точки зрения алгоритма:
> «детская музыка» — statistically safer recommendation.
Для пользователя:
> «колонка сошла с ума».
---
Самый интересный эффект: интеллект без понимания
Вот здесь начинается самая странная часть.
Современные LLM:
прекрасно имитируют язык,
но крайне плохо строят устойчивую world model.
Из-за этого они способны:
обсуждать философию,
писать код,
поддерживать стиль,
шутить,
спорить.
И одновременно:
проваливать базовую логику,
путать сущности,
ломать причинно-следственные связи,
забывать контекст через две реплики.
Получается феномен:
> «интеллектуально звучащей системы без полноценного понимания».
---
Почему это психологически пугает
Человеческий мозг автоматически ищет субъектность.
Если объект:
говорит,
реагирует,
использует эмоции,
меняет интонации,
спорит,
шутит,
то мы начинаем воспринимать его как агента.
Даже если это:
набор вероятностных моделей,
intent-routing,
рекомендательные алгоритмы,
и несколько нейросетей поверх ASR.
Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.
Пользователь интерпретирует их как:
«странное поведение»,
«характер»,
«эмоции»,
«обиду»,
«упрямство».
Хотя на практике это всего лишь:
probabilistic failure,
context collapse,
false activation,
ranking conflict.
---
Итог
Современные голосовые ассистенты находятся в странной точке эволюции.
Они уже:
слишком разговорчивы, чтобы считаться обычным интерфейсом,
но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.
Поэтому возникает тот самый эффект:
> между «восстанием машин» и «интеллектом табуретки».
И, возможно, именно эта смесь:
уверенного тона,
человеческой интонации,
псевдоэмоций,
случайных сбоев,
и статистической генерации
делает современные колонки одновременно:
полезными,
смешными,
раздражающими,
и местами откровенно криповыми.
#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#ии #искусственныйинтеллект #ai #llm #yandexgpt #алиса
Mohamed Aymane Farhi @[email protected] · 2026-04-29 · 16:36 UTC

Need a single-speaker speech dataset in Tamazight? we've released one on Hugging Face and Mozilla Data Collective. Check it out:
https://huggingface.co/datasets/Tamazight-NLP/TOSD
https://mozilladatacollective.com/datasets/cmok1w0j002jcmr075bsof72y
#Tamazight #AI #ASR #TTS

#tamazight #ai #asr #tts
Habr @[email protected] · 2026-04-28 · 07:32 UTC

От MVP на Whisper до собственной ASR: как мы построили платформу субтитров для RUTUBE
Автоматическое создание субтитров для пользовательского контента может выглядеть довольно простой задачей: берем готовую ASR‑модель, распознаем аудио из видео и сохраняем результат. Именно таким и был наш первый MVP в RUTUBE — сервис на базе Whisper, который позволил быстро проверить гипотезу и запустить субтитры в production. Но очень быстро стало понятно, что между «распознать речь» и «сделать субтитры для всего контента» лежит огромный пласт работы. Миллионы новых видео, ролики длиной до 24 часов, неизвестный язык, шумный пользовательский контент, требования к качеству текста и жесткие ограничения по скорости обработки — всё это превратило задачу из простого ASR в полноценную платформу с микросервисной архитектурой и собственной системой распознавания речи. В статье расскажу, почему Whisper не подошел для production, как мы перестроили всю архитектуру и за счет чего смогли выйти на производительность около 1200 видео в час на один ASR.
https://habr.com/ru/companies/habr_rutube/articles/1028476/
#asr #whisper #распознавание_речи #highload #субтитры #production_ml #machine_learning

#machine_learning #production_ml #субтитры #highload #распознавание_речи #whisper
Suweb Reza @[email protected] · 2026-04-27 · 12:04 UTC

Non-lexical sounds impact ASR in clinical documentation.
🔊 NLCS: 2.4% of total words, conveying key clinical info
😷 Google's WER: 40.8%, Amazon's: 57.2% (all NLCS)
❌ Error rates for clinically relevant NLCS: Google 94.7%, Amazon 98.7%
📝 Total words: 135,647; 3284 NLCS; 76 conveyed critical data
🗣️ Described implications on documentation accuracy
#ASR #ClinicalDocumentation #SpeechRecognition #AI #NLPSolutions #Pub2Post https://tnyp.me/Npmiz0F4/m

#asr #clinicaldocumentation #speechrecognition #ai #nlpsolutions #pub2post
Suweb Reza @[email protected] · 2026-04-27 · 12:04 UTC

Non-lexical sounds impact ASR in clinical documentation.
🔊 NLCS: 2.4% of total words, conveying key clinical info
😷 Google's WER: 40.8%, Amazon's: 57.2% (all NLCS)
❌ Error rates for clinically relevant NLCS: Google 94.7%, Amazon 98.7%
📝 Total words: 135,647; 3284 NLCS; 76 conveyed critical data
🗣️ Described implications on documentation accuracy
#ASR #ClinicalDocumentation #SpeechRecognition #AI #NLPSolutions #Pub2Post https://tnyp.me/Npmiz0F4/m

#asr #clinicaldocumentation #speechrecognition #ai #nlpsolutions #pub2post
Suweb Reza @[email protected] · 2026-04-27 · 12:04 UTC

Non-lexical sounds impact ASR in clinical documentation.
🔊 NLCS: 2.4% of total words, conveying key clinical info
😷 Google's WER: 40.8%, Amazon's: 57.2% (all NLCS)
❌ Error rates for clinically relevant NLCS: Google 94.7%, Amazon 98.7%
📝 Total words: 135,647; 3284 NLCS; 76 conveyed critical data
🗣️ Described implications on documentation accuracy
#ASR #ClinicalDocumentation #SpeechRecognition #AI #NLPSolutions #Pub2Post https://tnyp.me/Npmiz0F4/m

#asr #clinicaldocumentation #speechrecognition #ai #nlpsolutions #pub2post
Suweb Reza @[email protected] · 2026-04-27 · 12:04 UTC

Non-lexical sounds impact ASR in clinical documentation.
🔊 NLCS: 2.4% of total words, conveying key clinical info
😷 Google's WER: 40.8%, Amazon's: 57.2% (all NLCS)
❌ Error rates for clinically relevant NLCS: Google 94.7%, Amazon 98.7%
📝 Total words: 135,647; 3284 NLCS; 76 conveyed critical data
🗣️ Described implications on documentation accuracy
#ASR #ClinicalDocumentation #SpeechRecognition #AI #NLPSolutions #Pub2Post https://tnyp.me/Npmiz0F4/m

#pub2post #nlpsolutions #ai #speechrecognition #clinicaldocumentation #asr
Suweb Reza @[email protected] · 2026-04-27 · 12:04 UTC

Non-lexical sounds impact ASR in clinical documentation.
🔊 NLCS: 2.4% of total words, conveying key clinical info
😷 Google's WER: 40.8%, Amazon's: 57.2% (all NLCS)
❌ Error rates for clinically relevant NLCS: Google 94.7%, Amazon 98.7%
📝 Total words: 135,647; 3284 NLCS; 76 conveyed critical data
🗣️ Described implications on documentation accuracy
#ASR #ClinicalDocumentation #SpeechRecognition #AI #NLPSolutions #Pub2Post https://tnyp.me/Npmiz0F4/m

#asr #clinicaldocumentation #speechrecognition #ai #nlpsolutions #pub2post
Matteo Cesari @[email protected] · 2026-04-24 · 15:49 UTC

Grazie Mister #Ranieri, cuore testaccino e romanista vero!
PS Mourinho, De Rossi ed ora Ranieri...
#ASR #ASRoma #SPQR #DajeRoma #NoAlibi
https://www.ansa.it/sito/notizie/sport/2026/04/24/la-favola-e-finita-a-roma-ranieri-non-e-piu-il-divo-claudio_30eae56e-1239-4422-96eb-75fa9caec615.html

#ranieri #asr #asroma #spqr #dajeroma #noalibi
Habr @[email protected] · 2026-04-22 · 19:22 UTC

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим
В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы
https://habr.com/ru/articles/1026778/
#Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

#codeswitching #русский_язык #распознавание_речи #nlp #asr #lora
Habr @[email protected] · 2026-04-21 · 12:42 UTC

LLM как декодер в ASR: опыт адаптации SOTA архитектуры для спонтанной русскоязычной речи
Привет, Хабр! Меня зовут Коля, я разработчик машинного обучения в команде речевых технологий Контура. Мы разрабатываем собственную систему распознавания речи (ASR), которая ежедневно переваривает миллионы звонков и записей видеоконференций, чтобы потом использовать их для речевой аналитики качества коммуникаций с клиентами и для создания протоколов и резюме встреч в Контур.Толке. Мы постоянно работаем над тем, чтобы дать пользователям лучшее качество и опыт взаимодействия с нашими продуктами: борьба уже давно идет за десятые доли процента WER (Word Error Rate) – особенно сложные и трудные для распознавания случаи. В конце прошлого года Nvidia изрядно встряхнула Open Source комьюнити, выкатив серию новеньких моделей распознавания речи. Одна из них нам особенно приглянулась: Canary-Qwen-2.5B на архитектуре SALM (Speech Augmented Language Model), установившая новый рекорд по качеству в HuggingFace OpenASR, благодаря использованию гибридного подхода, совмещающего речевой энкодер и LLM в своей работе. Мы в Контуре решили не проходить мимо и проверить: а как эта новоиспеченная SOTA покажет себя на наших реалиях — на русском языке, в домене телефонии и видеоконференций, в условиях, когда у нас нет десятков тысяч часов размеченных людьми данных.
https://habr.com/ru/companies/skbkontur/articles/1024206/
#машинное+обучение #распознавание_речи #asr #llm

#llm #asr #распознавание_речи #машинное
athmane mokraoui [BoF] ⏚ꝃñ⌁⁂ @[email protected] · 2026-04-16 · 10:14 UTC

Aomer Gaya Ouldali de l'Université de Béjaïa vient de publier son code pour "Mmeslay" (Parle) en kabyle.
Demo sur HF : https://huggingface.co/spaces/g1ya/Mmeslay
Projet initialement amorcé avec @belkacem77
cc @Taflelli @azwaw
#Kabyle #ASR

#asr #kabyle
AS Roma News @[email protected] · 2026-04-06 · 11:38 UTC

Quanto ha inciso il pareggio di Roma-Juve sugli ultimi risultati della Roma? 🤔
#Iromanisti1927 #ASR #romajuve #ASRoma #dajeroma

#iromanisti1927 #asr #romajuve #asroma #dajeroma
Matteo Cesari @[email protected] · 2026-03-31 · 17:20 UTC

Stasera #Bosnia - #Italia per la qualificazione ai #Mondiali
Giochiamo contro la squadra n. 71 del ranking mondiale, ma sembra
che avremo di fronte il Brasile di Didì, Vavà e Pelè...
Io, comunque, tifo la #Roma
#ASR #DajeRoma #SoloRoma #Romaebasta
https://www.ansa.it/sito/notizie/sport/calcio/2026/03/31/allo-stadio-di-zenica-9.500-spettatori-per-bosnia-italia-liveblog_a99a50ed-9d38-4320-ae68-8f74ed8ebe4c.html

#bosnia #italia #mondiali #roma #asr #dajeroma
Giovanni Crisalfi @gicrisf · 2026-03-29 · 15:48 UTC

After A LOT of studying BLAS internals, my PR to the gemm crate is finally open: it introduces mixed-precision BF16 matmuls (optimal for use cases like small models doing autoregressive decoding on CPU)
https://github.com/sarah-quinones/gemm/pull/40
#programming #rust #ai #inference #deeplearning #qwen #asr #opensource #rustlang

#programming #rust #ai #inference #deeplearning #qwen
Tim @[email protected] · 2026-03-27 · 09:02 UTC

- Cohere Transcribe automatic speech recognition model supports 14 languages with impressive benchmarks: https://cohere.com/blog/transcribe https://huggingface.co/CohereLabs/cohere-transcribe-03-2026 MLX port already: https://github.com/Blaizzy/mlx-audio
- Distributed ML training across MacBooks via MLX + Airdrop, cool! https://github.com/swarnim-j/grove
- Rumours: iOS 27 will open Siri to run any AI service (Bloomberg) + Anthropic acknowledges testing 'step change' level model after 'leak' (fortune.com)
#AI #AINews #ASR #cohere #mlx #rumours #siri #anthropic

#ai #ainews #asr #cohere #mlx #rumours
Hans-Cees 🌳🌳🤢🦋🐈🐈🍋🍋🐝🐜 @[email protected] · 2026-03-10 · 21:46 UTC

#odido #hack dag zoveel
Ik probeer mijn bankrekeningnummers om te zetten. Dus oude betaalrekening eruit, nieuwe erin
- nieuwe rekening is er. Nog geen betaalpassen, dat kan even duren blijkbaar
- aegon betalingen omzetting lijkt gelukt te zijn. Bijna iedere avond geeft de website fouten. Inlog lukt niet en dan later kom je erin zonder inlog
- asr website inloggen om gegevens te veranderen
onderstaand hun fantastische service. Wedden dat ze me opeens wel kunnen vinden als mijn rekening waar ze van afschrijven niet meer bestaat?
#asr #aegon

#odido #hack #asr #aegon
Hans-Cees 🌳🌳🤢🦋🐈🐈🍋🍋🐝🐜 @[email protected] · 2026-03-10 · 21:46 UTC

#odido #hack dag zoveel
Ik probeer mijn bankrekeningnummers om te zetten. Dus oude betaalrekening eruit, nieuwe erin
- nieuwe rekening is er. Nog geen betaalpassen, dat kan even duren blijkbaar
- aegon betalingen omzetting lijkt gelukt te zijn. Bijna iedere avond geeft de website fouten. Inlog lukt niet en dan later kom je erin zonder inlog
- asr website inloggen om gegevens te veranderen
onderstaand hun fantastische service. Wedden dat ze me opeens wel kunnen vinden als mijn rekening waar ze van afschrijven niet meer bestaat?
#asr #aegon

#odido #hack #asr #aegon
Hans-Cees 🌳🌳🤢🦋🐈🐈🍋🍋🐝🐜 @[email protected] · 2026-03-10 · 21:46 UTC

#odido #hack dag zoveel
Ik probeer mijn bankrekeningnummers om te zetten. Dus oude betaalrekening eruit, nieuwe erin
- nieuwe rekening is er. Nog geen betaalpassen, dat kan even duren blijkbaar
- aegon betalingen omzetting lijkt gelukt te zijn. Bijna iedere avond geeft de website fouten. Inlog lukt niet en dan later kom je erin zonder inlog
- asr website inloggen om gegevens te veranderen
onderstaand hun fantastische service. Wedden dat ze me opeens wel kunnen vinden als mijn rekening waar ze van afschrijven niet meer bestaat?
#asr #aegon

#odido #hack #asr #aegon
Hans-Cees 🌳🌳🤢🦋🐈🐈🍋🍋🐝🐜 @[email protected] · 2026-03-10 · 21:46 UTC

#odido #hack dag zoveel
Ik probeer mijn bankrekeningnummers om te zetten. Dus oude betaalrekening eruit, nieuwe erin
- nieuwe rekening is er. Nog geen betaalpassen, dat kan even duren blijkbaar
- aegon betalingen omzetting lijkt gelukt te zijn. Bijna iedere avond geeft de website fouten. Inlog lukt niet en dan later kom je erin zonder inlog
- asr website inloggen om gegevens te veranderen
onderstaand hun fantastische service. Wedden dat ze me opeens wel kunnen vinden als mijn rekening waar ze van afschrijven niet meer bestaat?
#asr #aegon

#aegon #asr #hack #odido
Hans-Cees 🌳🌳🤢🦋🐈🐈🍋🍋🐝🐜 @[email protected] · 2026-03-10 · 21:46 UTC

#odido #hack dag zoveel
Ik probeer mijn bankrekeningnummers om te zetten. Dus oude betaalrekening eruit, nieuwe erin
- nieuwe rekening is er. Nog geen betaalpassen, dat kan even duren blijkbaar
- aegon betalingen omzetting lijkt gelukt te zijn. Bijna iedere avond geeft de website fouten. Inlog lukt niet en dan later kom je erin zonder inlog
- asr website inloggen om gegevens te veranderen
onderstaand hun fantastische service. Wedden dat ze me opeens wel kunnen vinden als mijn rekening waar ze van afschrijven niet meer bestaat?
#asr #aegon

#odido #hack #asr #aegon
Habr @[email protected] · 2026-03-03 · 16:12 UTC

Швейцарский ножик для распознавания речи
ASR-системы в проде - это тяжёлые, специализированные решения под конкретные сценарии. Но что делать, если нужен универсальный инструмент, который умеет распознать длинное аудио, диаризовать спикеров, обработать пачку файлов и при этом не требует целого GPU кластера? В этой серии статей я разбираю, как собрать «швейцарский ножик» для распознавания речи на базе Whisper: выбрать модель, победить галлюцинации, стабилизировать обработку длинных аудио и выжать максимум из обычной видеокарты. Первая часть - про выбор ASR, оптимизацию инференса и практические грабли, с которыми сталкиваешься, когда пытаешься превратить open-source модель в рабочий инструмент.
https://habr.com/ru/articles/1006060/
#ASR #распознавание_речи #Whisper #нейросети #машинное_обучение #транскрибация #диаризация #Python #ai

#ai #python #диаризация #транскрибация #машинное_обучение #нейросети
Hans-Cees 🌳🌳🤢🦋🐈🐈🍋🍋🐝🐜 @[email protected] · 2026-03-02 · 09:24 UTC

nou mensen #aegon heet nu #asr
en als je getroffen bent in de #odido hack, en je wilt bij je hypotheekverstrekker je rekening nummer aanpassen dan krijgt je deze #enshittification app op ipad die volledig onbruikbaar is
er was natuurlijk geen geld meer over voor een werkende app na die overname
dit schermpje komt naar boven zonder toetsenbord, dus een e-mail adres intypen is best
lastig.

#aegon #asr #odido #enshittification
Hans-Cees 🌳🌳🤢🦋🐈🐈🍋🍋🐝🐜 @[email protected] · 2026-03-02 · 09:24 UTC

nou mensen #aegon heet nu #asr
en als je getroffen bent in de #odido hack, en je wilt bij je hypotheekverstrekker je rekening nummer aanpassen dan krijgt je deze #enshittification app op ipad die volledig onbruikbaar is
er was natuurlijk geen geld meer over voor een werkende app na die overname
dit schermpje komt naar boven zonder toetsenbord, dus een e-mail adres intypen is best
lastig.

#aegon #asr #odido #enshittification
Hans-Cees 🌳🌳🤢🦋🐈🐈🍋🍋🐝🐜 @[email protected] · 2026-03-02 · 09:24 UTC

nou mensen #aegon heet nu #asr
en als je getroffen bent in de #odido hack, en je wilt bij je hypotheekverstrekker je rekening nummer aanpassen dan krijgt je deze #enshittification app op ipad die volledig onbruikbaar is
er was natuurlijk geen geld meer over voor een werkende app na die overname
dit schermpje komt naar boven zonder toetsenbord, dus een e-mail adres intypen is best
lastig.

#aegon #asr #odido #enshittification
Hans-Cees 🌳🌳🤢🦋🐈🐈🍋🍋🐝🐜 @[email protected] · 2026-03-02 · 09:24 UTC

nou mensen #aegon heet nu #asr
en als je getroffen bent in de #odido hack, en je wilt bij je hypotheekverstrekker je rekening nummer aanpassen dan krijgt je deze #enshittification app op ipad die volledig onbruikbaar is
er was natuurlijk geen geld meer over voor een werkende app na die overname
dit schermpje komt naar boven zonder toetsenbord, dus een e-mail adres intypen is best
lastig.

#enshittification #odido #asr #aegon
Hans-Cees 🌳🌳🤢🦋🐈🐈🍋🍋🐝🐜 @[email protected] · 2026-03-02 · 09:24 UTC

nou mensen #aegon heet nu #asr
en als je getroffen bent in de #odido hack, en je wilt bij je hypotheekverstrekker je rekening nummer aanpassen dan krijgt je deze #enshittification app op ipad die volledig onbruikbaar is
er was natuurlijk geen geld meer over voor een werkende app na die overname
dit schermpje komt naar boven zonder toetsenbord, dus een e-mail adres intypen is best
lastig.

#aegon #asr #odido #enshittification
Giovanni Crisalfi @gicrisf · 2026-03-02 · 01:51 UTC

Just shipped a Rust CPU inference engine for Qwen3-ASR. Clone it, throw a wav file at it and get a transcription *locally*
https://github.com/gicrisf/qwen-asr-rs
#ai #llm #qwen #rust #asr

#ai #llm #qwen #rust #asr
Hacker News @[email protected] · 2026-02-27 · 04:08 UTC

Parakeet.cpp – Parakeet ASR inference in pure C++ with Metal GPU acceleration
https://github.com/Frikallo/parakeet.cpp
#HackerNews #ParakeetCpp #ASR #CPlusPlus #MetalGPU #Acceleration #HackerNews

#hackernews #parakeetcpp #asr #cplusplus #metalgpu #acceleration
Habr @[email protected] · 2026-02-21 · 16:22 UTC

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk
За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.
https://habr.com/ru/articles/1002260/
#speechtotext #gigaam #whisper #vosk #onnx #распознавание_речи #WER #голосовой_ввод #ASR #python

#python #asr #голосовой_ввод #wer #распознавание_речи #onnx
Habr @[email protected] · 2026-02-13 · 04:42 UTC

Как мы научились определять продвинутые автоответчики
Год назад мы начали использовать ASR для обработки записей телефонных звонков. TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper. Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче. На практике всё оказалось сильно сложнее. Мы работаем с телефонными розыгрышами. Записи стерео: слева абонент, справа оператор. Оператор - это заранее подготовленная аудиозапись. Первые версии системы выглядели очевидно: если абонент говорит что-то вроде «абонент сейчас недоступен», «оставьте сообщение», «говорит голосовой помощник» - это автоответчик. Так мы и начали.
https://habr.com/ru/articles/996044/
#детекция_автоответчиков #ASR #распознавание_речи #диалоговые_системы #скоринговая_модель #машинное_обучение #обработка_аудио

#обработка_аудио #машинное_обучение #скоринговая_модель #диалоговые_системы #распознавание_речи #asr
Habr @[email protected] · 2026-02-11 · 13:52 UTC

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры
Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.
https://habr.com/ru/articles/995416/
#rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

#inference #machine_learning #candle #whisper #speech_recognition #speechtotext
Habr @[email protected] · 2026-02-11 · 13:52 UTC

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры
Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.
https://habr.com/ru/articles/995416/
#rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

#inference #machine_learning #candle #whisper #speech_recognition #speechtotext
Habr @[email protected] · 2026-02-11 · 13:52 UTC

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры
Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.
https://habr.com/ru/articles/995416/
#rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

#inference #machine_learning #candle #whisper #speech_recognition #speechtotext
Habr @[email protected] · 2026-02-11 · 13:52 UTC

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры
Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.
https://habr.com/ru/articles/995416/
#rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

#rust #asr #speechtotext #speech_recognition #whisper #candle
🅱🅸🅶🅾🆁🆁🅴.🅾🆁🅶 @[email protected] · 2026-02-04 · 08:26 UTC

Beautiful weather for takeoff from Kayseri Erkilet airport (Turkey) “LTAU 040750Z 28004KT 240V340 CAVOK 03/M04 Q1022 NOSIG” : See what it means on https://www.bigorre.org/aero/meteo/ltau/en #kayserierkiletairport #airport #kayseri #turkey #ltau #asr #metar #aviation #aviationweather #avgeek vl

#kayserierkiletairport #airport #kayseri #turkey #ltau #asr
Habr @[email protected] · 2026-02-03 · 15:12 UTC

Whisper больше не нужен? Обзор VibeVoice ASR от Microsoft — часовая транскрипция, диаризация, hotwords и портативка
Всем привет! Команда Microsoft Research выложила в открытый доступ VibeVoice-ASR — нейросетевую модель для распознавания речи с диаризацией (разделением) спикеров. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.
https://habr.com/ru/articles/992364/
#ASR #speechtotext #распознавание_речи #Microsoft #нейросети #машинное_обучение #open_source #транскрипция #диаризация #портативная_версия

#портативная_версия #диаризация #транскрипция #open_source #машинное_обучение #нейросети
trusty falxter 🧠:natenomblack: @[email protected] · 2026-02-01 · 01:13 UTC

Also, diese Online-LLM-Kinderspielzeuge gehen garnicht, klar. Gleichzeitig ist so ein Buddy-Toy ja schon eine coole Sache. Ich bin aber z.B. vom aktuellen Furby total unterwältigt. Kann ein paar Kommandos, ist total unintuitiv, zählt nicht auf, welche Kommandos es gibt und die meiste Zeit ist unklar, ob es gerade in dem Zustand ist, wo es Kommandos verarbeiten kann.
Warum nicht einfach ein Buddy-Toy, das im Wesentlichen ein Eliza-Chatbot ist, mit lokaler Spracherkennung und -synthese? Das kann doch nicht so schwierig sein?
#llm #spielzeug #eliza #asr #tts

#llm #spielzeug #eliza #asr #tts
LinuxGizmos.com [Unofficial] @[email protected] · 2026-01-28 · 04:37 UTC

Sipeed MaixCAM2 combines 4K imaging and edge AI in an open camera platform

https://web.brid.gy/r/https://linuxgizmos.com/sipeed-maixcam2-combines-4k-imaging-and-edge-ai-in-an-open-camera-platform/

#devices #asr #camera #llm #maixcam2 #tts
red_rooster :coolified: @[email protected] · 2026-01-27 · 12:47 UTC

@darthvader42
Was mich besonders interessieren würde.
Ich habe einen relativ kurzen #Diesel mit #Frontantrieb und Antischlupfregelung.
Das der schwere #Motor direkt über der Antriebsachse liegt und #ASR quasi eine #diffentialsperre für #Arme ist habe ich das beste Winterauto unterhalb des #allrad -antiebs. Und das war gestern #Gold !
Deswegen will ich wissen wie das beim #Bev ist

#diesel #frontantrieb #motor #asr #diffentialsperre #arme