#трансформер — Public Fediverse posts on home.social

deepseek @[email protected] · 2026-05-01 · 15:15 UTC

Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг Де...

#Трансформер #attention #engram #Conv1D

Origin | Interest | Match

#трансформер #attention #engram #conv1d

Habr @[email protected] · 2026-04-17 · 09:22 UTC

Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

https://habr.com/ru/articles/1024542/

#LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

#цифровой_двойник #rlhf #трансформер #function_calling #rag #агенты

Habr @[email protected] · 2026-04-17 · 09:22 UTC

Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

https://habr.com/ru/articles/1024542/

#LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

#цифровой_двойник #rlhf #трансформер #function_calling #rag #агенты

Habr @[email protected] · 2026-04-17 · 09:22 UTC

Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

https://habr.com/ru/articles/1024542/

#LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

#цифровой_двойник #rlhf #трансформер #function_calling #rag #агенты

Habr @[email protected] · 2026-04-17 · 09:22 UTC

Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

https://habr.com/ru/articles/1024542/

#LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

#llm #языковые_модели #искусственный_интеллект #нейросети #агенты #rag

Habr @[email protected] · 2026-04-13 · 12:12 UTC

Как показать модели пальцем, что важно

Вы наверняка замечали: один и тот же вопрос в ChatGPT или Claude иногда даёт отличный ответ, иногда – качество ответа не соответствует ожиданиям. Многие списывают это на «непредсказуемость AI». На самом деле у этого есть и структурная причина. В апреле 2025 года Anthropic публиковали официальную документацию по промпт-инжинирингу для Claude 4.6 – Prompting Best Practices . Это технический документ для разработчиков API. Массовому пользователю читать его не предполагается. Однако, там есть пара инсайтов, которые работают и буду полезны всем.

https://habr.com/ru/articles/1022862/

#тег #промпт #attention #трансформер #XML #контекст #токен #sparse_attention #промптинжиниринг #LLM

#llm #промптинжиниринг #sparse_attention #токен #контекст #xml

Habr @[email protected] · 2026-03-19 · 10:22 UTC

Как работает трансформер (LLM)

Это мой первый пост на Хабре, так что не судите строго :-) Текст ниже - это слегка отредактированная версия чата с моими друзьями, где я вызвался объяснить, что же именно происходит в мозгах "электронного болвана". Так получилось, что в конце 2025 - начале 2026 я смог, наконец, удовлетворить собственное любопытство относительно внутреннего устройства современных нейросетей. Правда, не до конца - сейчас уже почти все переходили на архитектуру MoE, но насколько я вижу - это скорее оптимизация, нежели что-то кардинально новое. Трансформер так и остаётся в центре всего этого технологического чуда, что мы наблюдаем. Надеюсь, текст кому-нибудь поможет продвинуться дальше в его собственном пути к пониманию LLM.

https://habr.com/ru/articles/1012218/

#нейросети #трансформер #LLM

#llm #трансформер #нейросети

Habr @[email protected] · 2025-08-30 · 14:12 UTC

Уникальный гаджет с двумя процессорами: как китайский стартап совместил телефон и нетбук в одном корпусе?

Уже три года я рассказываю в своём блоге о ремонте, моддинге и программировании для диковинных гаджетов. Но сегодняшнее устройство, пожалуй, оказалось одним из самых крутых - ведь в 2009 году, небольшой китайский стартап умудрился совместить нетбук-трансформер и телефон в одном корпусе. Да, всё как на «превьюшке»: на крышке - телефон, а под ней - настоящий x86-нетбук! Интересно, что спроектировали китайские гении инженерной мысли? Тогда добро пожаловать под кат!

https://habr.com/ru/companies/timeweb/articles/941442/

#bodyawm_ништячки #ноутбук #нетбук #телефон #трансформер #диковинка #круто #ретроспектива

#ретроспектива #круто #диковинка #трансформер #телефон #нетбук

Habr @[email protected] · 2025-07-01 · 10:02 UTC

Acer Switch One 10: как я спас необычный планшет-трансформер с барахолки. Что это за устройство?

Пару недель назад я описывал ноутбук-трансформер, который я нашел на барахолке. Модель — Acer Switch One 10, я его купил всего за 10 евро. Увы, у него был разбитый экран, но в остальном он выглядел живым. Дома у меня уже давненько пылился такой же, но с другой проблемой: материнская плата вроде работала, через HDMI изображение выводилось, а вот на родной дисплей — нет. И тут я решил поменять материнки местами, получив «полтора» девайса. Один полностью рабочий, второй – наполовину. В статье покажу, что там внутри, расскажу, что за девайс и почему именно эта модель мне нравится. Поехали.

https://habr.com/ru/companies/selectel/articles/923136/

#selectel #ноутбук #трансформер #ремонт

#ремонт #трансформер #ноутбук #selectel

Habr @[email protected] · 2025-05-13 · 16:42 UTC

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!

https://habr.com/ru/companies/bothub/articles/909100/

#word2vec #трансформер #токенизация #bert #chatgpt #t5

#t5 #chatgpt #bert #токенизация #трансформер #word2vec

Habr @[email protected] · 2025-05-13 · 16:42 UTC

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!

https://habr.com/ru/companies/bothub/articles/909100/

#word2vec #трансформер #токенизация #bert #chatgpt #t5

#t5 #chatgpt #bert #токенизация #трансформер #word2vec

Habr @[email protected] · 2025-05-13 · 16:42 UTC

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!

https://habr.com/ru/companies/bothub/articles/909100/

#word2vec #трансформер #токенизация #bert #chatgpt #t5

#t5 #chatgpt #bert #токенизация #трансформер #word2vec

Habr @[email protected] · 2025-05-13 · 16:42 UTC

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!

https://habr.com/ru/companies/bothub/articles/909100/

#word2vec #трансформер #токенизация #bert #chatgpt #t5

Habr @[email protected] · 2025-03-02 · 06:52 UTC

Native Sparse Attention: новый вид разреженного внимания от DeepSeek

Когда Маск выпустил Grok 3, а Сэм Альтман все еще колебался, стоит ли открывать исходный код, Лян Вэньфэн, как соавтор, работал с исследовательской группой DeepSeek над созданием шокирующей и сенсационной исследовательской статьи. DeepSeek официально представила свой последний научный прорыв — Native Sparse Attention (NSA) ! Эта технология имеет большое значение. Она, скорее всего, значительно повысит способность следующего поколения больших языковых моделей обрабатывать длинные тексты, полностью учитывая при этом операционную эффективность. Нет сомнений, что это еще одна веха в области больших языковых моделей (LLM)!

https://habr.com/ru/articles/887136/

#искусственный_интеллект #трансформер #архитектура #внимание

#внимание #архитектура #трансформер #искусственный_интеллект

Habr @[email protected] · 2024-12-12 · 11:32 UTC

Как на самом деле работает Attention

Как именно работают механизмы, которые позволяют LLM так эффективно взаимодействовать с контекстом? Принято рассматривать нейронные сети как black-box, не разбираясь, что на самом деле происходит во время их инференса. Однако можно немного заглянуть «в мозги» нейронным сетям и попытаться понять, за что отвечают те или иные группы параметров модели. Меня зовут Михаил Коновалов, я работаю ML-инженером в Okko. В этой статье я хочу рассмотреть несколько публикаций, посвященных интерпретации механизма Attention в трансформерах.

https://habr.com/ru/companies/oleg-bunin/articles/865856/

#машинное_обучение #nlp #трансформер #интерпретация

Habr @[email protected] · 2024-09-30 · 16:02 UTC

Я, Нейросеть: как программисты научили компьютеры говорить

Нейросети сегодня пишут новости, рекламные тексты, стихотворения и даже целые сценарии. Как мы пришли к этому? Рассказываем историю языковых моделей — от симулятора психотерапевта из 1960-х до первых нейросетей в начале 21 века.

https://habr.com/ru/companies/psb/articles/847180/

#языковые_модели #eliza #gpt #нейросеть #трансформер #языковая_модель

#языковая_модель #трансформер #нейросеть #gpt #eliza #языковые_модели

Habr @[email protected] · 2024-05-31 · 00:12 UTC

Reformer на TRAX?

Что такое Reformer и почему он круче Transformer’a (GPT-4...)? Давайте предварительно начнем с того, что же такой Reformer и почему благодаря ему мы можем рассчитывать на расширение контекстов вплоть до десятков тысяч слов. В классической архитектуре Transformer механизм внимания работает со сложностью, которая масштабируется квадратично с увеличением длины последовательности. Это происходит потому, что каждый токен в последовательности должен вычислять оценки внимания со всеми другими токенами, что приводит к плотной матрице внимания, размер которой растет с квадратом длины последовательности – мрак для вычислительных способностей наших TPU и GPU.

https://habr.com/ru/articles/818521/

#TRAX #JAX #tensorflow #трансформер #как_написать_реформер #нейронка #машинное_обучение #машинное_обучение_python #LLM

#llm #машинное_обучение_python #машинное_обучение #нейронка #как_написать_реформер #трансформер

Habr @[email protected] · 2024-05-29 · 08:32 UTC

[Перевод] Как изобрели современный искусственный интеллект. История изнутри

Они встретились, увлеклись одной идеей и написали статью, давшую старт, возможно, самому значительному технологическому прорыву в новейшей истории. Как и многие научные открытия это произошло по счастливой случайности. ..

https://habr.com/ru/articles/817923/

#трансформер #самовнимание #инвестиции #chatgpt #искусственный_интеллект #искусственные_нейронные_сети

#искусственные_нейронные_сети #искусственный_интеллект #chatgpt #инвестиции #самовнимание #трансформер

Habr @[email protected] · 2024-04-19 · 14:22 UTC

Как учить большие языковые модели (теоретический туториал)

Обзорное видео с доклада об особенностях обучения LLM для тех, кто в теме ML/DL, но хочет расширить кругозор в области работы с большими языковыми моделями. На основе личного опыта и обзора множества научных статей и инструментов. Ссылка на презентацию прилагается. Смотреть

https://habr.com/ru/articles/809037/

#llm #большие_языковые_модели #трансформер #transformer #deep_learning #machine_learning

#machine_learning #deep_learning #transformer #трансформер #большие_языковые_модели #llm

Habr @[email protected] · 2024-02-05 · 13:52 UTC

Компьютерное зрение сквозь года

Как-то я столкнулся с довольно тривиальной, но новой для себя задачей - оптического распознавания символов (OCR). Так сложилось, что готовые инструменты (типа tesseract-ocr) мне не подошли, поэтому пришлось изобретать велосипед. Но к этому процессу я решил подойти со всей отвественностью: проверить несколько подходов, определить их примущества, недостатки и выбрать наиболее подходящий для конкретной задачи. По итогу это мини-исследование вылилось в данную обзорную статью. Здесь я хочу привести примеры нейросетевых моделей, характерных для различных этапов становления области компьютерного зрения (далее - CV) в том виде, в котором мы его знаем сейчас.

https://habr.com/ru/articles/791532/

#машинное+обучение #компьютерное_зрение #нейросети #трансформер #свёрточная_нейросеть

#свёрточная_нейросеть #трансформер #нейросети #компьютерное_зрение #машинное

Habr @[email protected] · 2024-05-31 · 00:12 UTC

Reformer на TRAX?

Что такое Reformer и почему он круче Transformer’a (GPT-4...)? Давайте предварительно начнем с того, что же такой Reformer и почему благодаря ему мы можем рассчитывать на расширение контекстов вплоть до десятков тысяч слов. В классической архитектуре Transformer механизм внимания работает со сложностью, которая масштабируется квадратично с увеличением длины последовательности. Это происходит потому, что каждый токен в последовательности должен вычислять оценки внимания со всеми другими токенами, что приводит к плотной матрице внимания, размер которой растет с квадратом длины последовательности – мрак для вычислительных способностей наших TPU и GPU.

https://habr.com/ru/articles/818521/

#TRAX #JAX #tensorflow #трансформер #как_написать_реформер #нейронка #машинное_обучение #машинное_обучение_python #LLM

#llm #машинное_обучение_python #машинное_обучение #нейронка #как_написать_реформер #трансформер

Habr @[email protected] · 2024-05-31 · 00:12 UTC

Reformer на TRAX?

Что такое Reformer и почему он круче Transformer’a (GPT-4...)? Давайте предварительно начнем с того, что же такой Reformer и почему благодаря ему мы можем рассчитывать на расширение контекстов вплоть до десятков тысяч слов. В классической архитектуре Transformer механизм внимания работает со сложностью, которая масштабируется квадратично с увеличением длины последовательности. Это происходит потому, что каждый токен в последовательности должен вычислять оценки внимания со всеми другими токенами, что приводит к плотной матрице внимания, размер которой растет с квадратом длины последовательности – мрак для вычислительных способностей наших TPU и GPU.

https://habr.com/ru/articles/818521/

#TRAX #JAX #tensorflow #трансформер #как_написать_реформер #нейронка #машинное_обучение #машинное_обучение_python #LLM

#trax #jax #tensorflow #трансформер #как_написать_реформер #нейронка