home.social

#трансформер — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #трансформер, aggregated by home.social.

  1. Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг Де...

    #Трансформер #attention #engram #Conv1D

    Origin | Interest | Match
  2. Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

    В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

    habr.com/ru/articles/1024542/

    #LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

  3. Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

    В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

    habr.com/ru/articles/1024542/

    #LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

  4. Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

    В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

    habr.com/ru/articles/1024542/

    #LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

  5. Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

    В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

    habr.com/ru/articles/1024542/

    #LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

  6. Как показать модели пальцем, что важно

    Вы наверняка замечали: один и тот же вопрос в ChatGPT или Claude иногда даёт отличный ответ, иногда – качество ответа не соответствует ожиданиям. Многие списывают это на «непредсказуемость AI». На самом деле у этого есть и структурная причина. В апреле 2025 года Anthropic публиковали официальную документацию по промпт-инжинирингу для Claude 4.6 – Prompting Best Practices . Это технический документ для разработчиков API. Массовому пользователю читать его не предполагается. Однако, там есть пара инсайтов, которые работают и буду полезны всем.

    habr.com/ru/articles/1022862/

    #тег #промпт #attention #трансформер #XML #контекст #токен #sparse_attention #промптинжиниринг #LLM

  7. Как работает трансформер (LLM)

    Это мой первый пост на Хабре, так что не судите строго :-) Текст ниже - это слегка отредактированная версия чата с моими друзьями, где я вызвался объяснить, что же именно происходит в мозгах "электронного болвана". Так получилось, что в конце 2025 - начале 2026 я смог, наконец, удовлетворить собственное любопытство относительно внутреннего устройства современных нейросетей. Правда, не до конца - сейчас уже почти все переходили на архитектуру MoE, но насколько я вижу - это скорее оптимизация, нежели что-то кардинально новое. Трансформер так и остаётся в центре всего этого технологического чуда, что мы наблюдаем. Надеюсь, текст кому-нибудь поможет продвинуться дальше в его собственном пути к пониманию LLM.

    habr.com/ru/articles/1012218/

    #нейросети #трансформер #LLM

  8. Уникальный гаджет с двумя процессорами: как китайский стартап совместил телефон и нетбук в одном корпусе?

    Уже три года я рассказываю в своём блоге о ремонте, моддинге и программировании для диковинных гаджетов. Но сегодняшнее устройство, пожалуй, оказалось одним из самых крутых - ведь в 2009 году, небольшой китайский стартап умудрился совместить нетбук-трансформер и телефон в одном корпусе. Да, всё как на «превьюшке»: на крышке - телефон, а под ней - настоящий x86-нетбук! Интересно, что спроектировали китайские гении инженерной мысли? Тогда добро пожаловать под кат!

    habr.com/ru/companies/timeweb/

    #bodyawm_ништячки #ноутбук #нетбук #телефон #трансформер #диковинка #круто #ретроспектива

  9. Acer Switch One 10: как я спас необычный планшет-трансформер с барахолки. Что это за устройство?

    Пару недель назад я описывал ноутбук-трансформер, который я нашел на барахолке. Модель — Acer Switch One 10, я его купил всего за 10 евро. Увы, у него был разбитый экран, но в остальном он выглядел живым. Дома у меня уже давненько пылился такой же, но с другой проблемой: материнская плата вроде работала, через HDMI изображение выводилось, а вот на родной дисплей — нет. И тут я решил поменять материнки местами, получив «полтора» девайса. Один полностью рабочий, второй – наполовину. В статье покажу, что там внутри, расскажу, что за девайс и почему именно эта модель мне нравится. Поехали.

    habr.com/ru/companies/selectel

    #selectel #ноутбук #трансформер #ремонт

  10. История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

    Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!

    habr.com/ru/companies/bothub/a

    #word2vec #трансформер #токенизация #bert #chatgpt #t5

  11. История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

    Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!

    habr.com/ru/companies/bothub/a

    #word2vec #трансформер #токенизация #bert #chatgpt #t5

  12. История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

    Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!

    habr.com/ru/companies/bothub/a

    #word2vec #трансформер #токенизация #bert #chatgpt #t5

  13. История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

    Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!

    habr.com/ru/companies/bothub/a

    #word2vec #трансформер #токенизация #bert #chatgpt #t5

  14. Native Sparse Attention: новый вид разреженного внимания от DeepSeek

    Когда Маск выпустил Grok 3, а Сэм Альтман все еще колебался, стоит ли открывать исходный код, Лян Вэньфэн, как соавтор, работал с исследовательской группой DeepSeek над созданием шокирующей и сенсационной исследовательской статьи. DeepSeek официально представила свой последний научный прорыв — Native Sparse Attention (NSA) ! Эта технология имеет большое значение. Она, скорее всего, значительно повысит способность следующего поколения больших языковых моделей обрабатывать длинные тексты, полностью учитывая при этом операционную эффективность. Нет сомнений, что это еще одна веха в области больших языковых моделей (LLM)!

    habr.com/ru/articles/887136/

    #искусственный_интеллект #трансформер #архитектура #внимание

  15. Как на самом деле работает Attention

    Как именно работают механизмы, которые позволяют LLM так эффективно взаимодействовать с контекстом? Принято рассматривать нейронные сети как black-box, не разбираясь, что на самом деле происходит во время их инференса. Однако можно немного заглянуть «в мозги» нейронным сетям и попытаться понять, за что отвечают те или иные группы параметров модели. Меня зовут Михаил Коновалов, я работаю ML-инженером в Okko. В этой статье я хочу рассмотреть несколько публикаций, посвященных интерпретации механизма Attention в трансформерах.

    habr.com/ru/companies/oleg-bun

    #машинное_обучение #nlp #трансформер #интерпретация

  16. Я, Нейросеть: как программисты научили компьютеры говорить

    Нейросети сегодня пишут новости, рекламные тексты, стихотворения и даже целые сценарии. Как мы пришли к этому? Рассказываем историю языковых моделей — от симулятора психотерапевта из 1960-х до первых нейросетей в начале 21 века.

    habr.com/ru/companies/psb/arti

    #языковые_модели #eliza #gpt #нейросеть #трансформер #языковая_модель

  17. Reformer на TRAX?

    Что такое Reformer и почему он круче Transformer’a (GPT-4...)? Давайте предварительно начнем с того, что же такой Reformer и почему благодаря ему мы можем рассчитывать на расширение контекстов вплоть до десятков тысяч слов. В классической архитектуре Transformer механизм внимания работает со сложностью, которая масштабируется квадратично с увеличением длины последовательности. Это происходит потому, что каждый токен в последовательности должен вычислять оценки внимания со всеми другими токенами, что приводит к плотной матрице внимания, размер которой растет с квадратом длины последовательности – мрак для вычислительных способностей наших TPU и GPU.

    habr.com/ru/articles/818521/

    #TRAX #JAX #tensorflow #трансформер #как_написать_реформер #нейронка #машинное_обучение #машинное_обучение_python #LLM

  18. [Перевод] Как изобрели современный искусственный интеллект. История изнутри

    Они встретились, увлеклись одной идеей и написали статью, давшую старт, возможно, самому значительному технологическому прорыву в новейшей истории. Как и многие научные открытия это произошло по счастливой случайности. ..

    habr.com/ru/articles/817923/

    #трансформер #самовнимание #инвестиции #chatgpt #искусственный_интеллект #искусственные_нейронные_сети

  19. Как учить большие языковые модели (теоретический туториал)

    Обзорное видео с доклада об особенностях обучения LLM для тех, кто в теме ML/DL, но хочет расширить кругозор в области работы с большими языковыми моделями. На основе личного опыта и обзора множества научных статей и инструментов. Ссылка на презентацию прилагается. Смотреть

    habr.com/ru/articles/809037/

    #llm #большие_языковые_модели #трансформер #transformer #deep_learning #machine_learning

  20. Компьютерное зрение сквозь года

    Как-то я столкнулся с довольно тривиальной, но новой для себя задачей - оптического распознавания символов (OCR). Так сложилось, что готовые инструменты (типа tesseract-ocr) мне не подошли, поэтому пришлось изобретать велосипед. Но к этому процессу я решил подойти со всей отвественностью: проверить несколько подходов, определить их примущества, недостатки и выбрать наиболее подходящий для конкретной задачи. По итогу это мини-исследование вылилось в данную обзорную статью. Здесь я хочу привести примеры нейросетевых моделей, характерных для различных этапов становления области компьютерного зрения (далее - CV) в том виде, в котором мы его знаем сейчас.

    habr.com/ru/articles/791532/

    #машинное+обучение #компьютерное_зрение #нейросети #трансформер #свёрточная_нейросеть

  21. Reformer на TRAX?

    Что такое Reformer и почему он круче Transformer’a (GPT-4...)? Давайте предварительно начнем с того, что же такой Reformer и почему благодаря ему мы можем рассчитывать на расширение контекстов вплоть до десятков тысяч слов. В классической архитектуре Transformer механизм внимания работает со сложностью, которая масштабируется квадратично с увеличением длины последовательности. Это происходит потому, что каждый токен в последовательности должен вычислять оценки внимания со всеми другими токенами, что приводит к плотной матрице внимания, размер которой растет с квадратом длины последовательности – мрак для вычислительных способностей наших TPU и GPU.

    habr.com/ru/articles/818521/

    #TRAX #JAX #tensorflow #трансформер #как_написать_реформер #нейронка #машинное_обучение #машинное_обучение_python #LLM

  22. Reformer на TRAX?

    Что такое Reformer и почему он круче Transformer’a (GPT-4...)? Давайте предварительно начнем с того, что же такой Reformer и почему благодаря ему мы можем рассчитывать на расширение контекстов вплоть до десятков тысяч слов. В классической архитектуре Transformer механизм внимания работает со сложностью, которая масштабируется квадратично с увеличением длины последовательности. Это происходит потому, что каждый токен в последовательности должен вычислять оценки внимания со всеми другими токенами, что приводит к плотной матрице внимания, размер которой растет с квадратом длины последовательности – мрак для вычислительных способностей наших TPU и GPU.

    habr.com/ru/articles/818521/

    #TRAX #JAX #tensorflow #трансформер #как_написать_реформер #нейронка #машинное_обучение #машинное_обучение_python #LLM