#трансформеры — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-17 · 16:42 UTC

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

https://habr.com/ru/articles/1036128/

#внимание #трансформеры #нормализация

#нормализация #трансформеры #внимание

Habr @[email protected] · 2026-05-17 · 16:42 UTC

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

https://habr.com/ru/articles/1036128/

#внимание #трансформеры #нормализация

#нормализация #трансформеры #внимание

Habr @[email protected] · 2026-05-17 · 16:42 UTC

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

https://habr.com/ru/articles/1036128/

#внимание #трансформеры #нормализация

#нормализация #трансформеры #внимание

Habr @[email protected] · 2026-05-17 · 16:42 UTC

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

https://habr.com/ru/articles/1036128/

#внимание #трансформеры #нормализация

Habr @[email protected] · 2026-03-31 · 08:32 UTC

ИИ 2026: Технологии, которые выживут в продакшне

Представьте, что вы — инженер в крупной IT‑компании. Ваша задача — запустить новую языковую модель на длинных документах. Вы арендуете дорогущий кластер с GPU, загружаете данные, запускаете обучение... и через час получаете аварийное оповещение: температура видеокарт достигла 98°C, система отключается… Это не выдуманная история — такие случаи происходят регулярно. Виновник — квадратичная сложность механизма внимания в трансформерах (O(n²)). 2026 год — это момент, когда передовые технологии ИИ сталкиваются с физическими пределами. И пока одни исследователи ищут философский камень в квантовой механике, другие инженеры решают конкретную проблему: как запихнуть гигантскую модель на скромное железо и не сжечь бюджет на электричество. Я, Даниил Селиванов, пресейл инженер в компании BPMSoft (входит в холдинг LANSOFT). Я заинтересовался темой развития искусственного интеллекта еще в период зарождения многих ИИ‑технологий, на практике наблюдал рост технологических гигантов. Сегодня хочу поделиться с вами своими мыслями по этому поводу.

https://habr.com/ru/companies/lansoft_career/articles/1016830/

#трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер #энергоэффективность #mlмодели #gpu #bci

#bci #gpu #mlмодели #энергоэффективность #интерфейсы_мозгкомпьютер #чтение_мыслей

Habr @[email protected] · 2026-03-31 · 08:32 UTC

ИИ 2026: Технологии, которые выживут в продакшне

Представьте, что вы — инженер в крупной IT‑компании. Ваша задача — запустить новую языковую модель на длинных документах. Вы арендуете дорогущий кластер с GPU, загружаете данные, запускаете обучение... и через час получаете аварийное оповещение: температура видеокарт достигла 98°C, система отключается… Это не выдуманная история — такие случаи происходят регулярно. Виновник — квадратичная сложность механизма внимания в трансформерах (O(n²)). 2026 год — это момент, когда передовые технологии ИИ сталкиваются с физическими пределами. И пока одни исследователи ищут философский камень в квантовой механике, другие инженеры решают конкретную проблему: как запихнуть гигантскую модель на скромное железо и не сжечь бюджет на электричество. Я, Даниил Селиванов, пресейл инженер в компании BPMSoft (входит в холдинг LANSOFT). Я заинтересовался темой развития искусственного интеллекта еще в период зарождения многих ИИ‑технологий, на практике наблюдал рост технологических гигантов. Сегодня хочу поделиться с вами своими мыслями по этому поводу.

https://habr.com/ru/companies/lansoft_career/articles/1016830/

#трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер #энергоэффективность #mlмодели #gpu #bci

#bci #gpu #mlмодели #энергоэффективность #интерфейсы_мозгкомпьютер #чтение_мыслей

Habr @[email protected] · 2026-03-31 · 08:32 UTC

ИИ 2026: Технологии, которые выживут в продакшне

Представьте, что вы — инженер в крупной IT‑компании. Ваша задача — запустить новую языковую модель на длинных документах. Вы арендуете дорогущий кластер с GPU, загружаете данные, запускаете обучение... и через час получаете аварийное оповещение: температура видеокарт достигла 98°C, система отключается… Это не выдуманная история — такие случаи происходят регулярно. Виновник — квадратичная сложность механизма внимания в трансформерах (O(n²)). 2026 год — это момент, когда передовые технологии ИИ сталкиваются с физическими пределами. И пока одни исследователи ищут философский камень в квантовой механике, другие инженеры решают конкретную проблему: как запихнуть гигантскую модель на скромное железо и не сжечь бюджет на электричество. Я, Даниил Селиванов, пресейл инженер в компании BPMSoft (входит в холдинг LANSOFT). Я заинтересовался темой развития искусственного интеллекта еще в период зарождения многих ИИ‑технологий, на практике наблюдал рост технологических гигантов. Сегодня хочу поделиться с вами своими мыслями по этому поводу.

https://habr.com/ru/companies/lansoft_career/articles/1016830/

#трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер #энергоэффективность #mlмодели #gpu #bci

#трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер

Habr @[email protected] · 2026-03-31 · 08:32 UTC

ИИ 2026: Технологии, которые выживут в продакшне

Представьте, что вы — инженер в крупной IT‑компании. Ваша задача — запустить новую языковую модель на длинных документах. Вы арендуете дорогущий кластер с GPU, загружаете данные, запускаете обучение... и через час получаете аварийное оповещение: температура видеокарт достигла 98°C, система отключается… Это не выдуманная история — такие случаи происходят регулярно. Виновник — квадратичная сложность механизма внимания в трансформерах (O(n²)). 2026 год — это момент, когда передовые технологии ИИ сталкиваются с физическими пределами. И пока одни исследователи ищут философский камень в квантовой механике, другие инженеры решают конкретную проблему: как запихнуть гигантскую модель на скромное железо и не сжечь бюджет на электричество. Я, Даниил Селиванов, пресейл инженер в компании BPMSoft (входит в холдинг LANSOFT). Я заинтересовался темой развития искусственного интеллекта еще в период зарождения многих ИИ‑технологий, на практике наблюдал рост технологических гигантов. Сегодня хочу поделиться с вами своими мыслями по этому поводу.

https://habr.com/ru/companies/lansoft_career/articles/1016830/

#трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер #энергоэффективность #mlмодели #gpu #bci

#bci #gpu #mlмодели #энергоэффективность #интерфейсы_мозгкомпьютер #чтение_мыслей

Habr @[email protected] · 2026-03-27 · 14:42 UTC

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу

https://habr.com/ru/articles/1016036/

#машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов

#детекция_объектов #сегментация #coco #selfsupervised #эмбеддинги #трансформеры

Habr @[email protected] · 2026-03-27 · 14:42 UTC

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу

https://habr.com/ru/articles/1016036/

#машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов

#детекция_объектов #сегментация #coco #selfsupervised #эмбеддинги #трансформеры

Habr @[email protected] · 2026-03-27 · 14:42 UTC

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу

https://habr.com/ru/articles/1016036/

#машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов

#машинное_обучение #синтетические_данные #tape #attention #трансформеры #эмбеддинги

Habr @[email protected] · 2026-03-27 · 14:42 UTC

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу

https://habr.com/ru/articles/1016036/

#машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов

#детекция_объектов #сегментация #coco #selfsupervised #эмбеддинги #трансформеры

Habr @[email protected] · 2026-03-26 · 15:22 UTC

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры

https://habr.com/ru/articles/1015514/

#машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений #компьютерное_зрение #selfsupervised #attention #tape+ml

#tape #attention #selfsupervised #компьютерное_зрение #классификация_изображений #синтетические_данные

Habr @[email protected] · 2026-03-26 · 15:22 UTC

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры

https://habr.com/ru/articles/1015514/

#машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений #компьютерное_зрение #selfsupervised #attention #tape+ml

#tape #attention #selfsupervised #компьютерное_зрение #классификация_изображений #синтетические_данные

Habr @[email protected] · 2026-03-26 · 15:22 UTC

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры

https://habr.com/ru/articles/1015514/

#машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений #компьютерное_зрение #selfsupervised #attention #tape+ml

#машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений

Habr @[email protected] · 2026-03-26 · 15:22 UTC

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры

https://habr.com/ru/articles/1015514/

#машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений #компьютерное_зрение #selfsupervised #attention #tape+ml

#tape #attention #selfsupervised #компьютерное_зрение #классификация_изображений #синтетические_данные

Habr @[email protected] · 2026-03-02 · 09:02 UTC

От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум

Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет

https://habr.com/ru/companies/bhv_publishing/articles/1005404/

#БХВ #BHV #генеративный_ИИ #трансформеры #искусственный_интеллект #llm #диффузионные_модели #stable_diffusion #машинное_обучение #нейросети

#нейросети #машинное_обучение #stable_diffusion #диффузионные_модели #llm #искусственный_интеллект

Habr @[email protected] · 2026-03-02 · 09:02 UTC

От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум

Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет

https://habr.com/ru/companies/bhv_publishing/articles/1005404/

#БХВ #BHV #генеративный_ИИ #трансформеры #искусственный_интеллект #llm #диффузионные_модели #stable_diffusion #машинное_обучение #нейросети

#нейросети #машинное_обучение #stable_diffusion #диффузионные_модели #llm #искусственный_интеллект

Habr @[email protected] · 2026-03-02 · 09:02 UTC

От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум

Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет

https://habr.com/ru/companies/bhv_publishing/articles/1005404/

#БХВ #BHV #генеративный_ИИ #трансформеры #искусственный_интеллект #llm #диффузионные_модели #stable_diffusion #машинное_обучение #нейросети

#бхв #bhv #генеративный_ии #трансформеры #искусственный_интеллект #llm

Habr @[email protected] · 2026-03-02 · 09:02 UTC

От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум

Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет

https://habr.com/ru/companies/bhv_publishing/articles/1005404/

#БХВ #BHV #генеративный_ИИ #трансформеры #искусственный_интеллект #llm #диффузионные_модели #stable_diffusion #машинное_обучение #нейросети

#нейросети #машинное_обучение #stable_diffusion #диффузионные_модели #llm #искусственный_интеллект

Habr @[email protected] · 2026-02-28 · 05:22 UTC

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

https://habr.com/ru/articles/1004788/

#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

#исследование #искусственный_интеллект #dinov3 #dinov2 #dino #cnn

Habr @[email protected] · 2026-02-28 · 05:22 UTC

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

https://habr.com/ru/articles/1004788/

#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

#исследование #искусственный_интеллект #dinov3 #dinov2 #dino #cnn

Habr @[email protected] · 2026-02-28 · 05:22 UTC

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

https://habr.com/ru/articles/1004788/

#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

#исследование #искусственный_интеллект #dinov3 #dinov2 #dino #cnn

Habr @[email protected] · 2026-02-28 · 05:22 UTC

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

https://habr.com/ru/articles/1004788/

#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino

Habr @[email protected] · 2026-02-24 · 06:42 UTC

Искусственный интеллект: 70 лет провалов, надежд и революций

Статья без лишних эмоций о том, как развивался искусственный интеллект. Это попытка проследить паттерны в развитии ИИ, понять, почему прогнозы лидеров отрасли систематически не сбываются, и оценить, где мы находимся сегодня. В тексте акцент сделан на трёх составляющих - технических решениях, финансовых результатах и исторических взаимосвязях.

https://habr.com/ru/articles/1001536/

#искусственный_интеллект #история_ИИ #ИИзима #LLM #ChatGPT #трансформеры #глубокое_обучение #венчурные_инвестиции #AGI

#agi #венчурные_инвестиции #глубокое_обучение #трансформеры #chatgpt #llm

Habr @[email protected] · 2026-02-24 · 06:42 UTC

Искусственный интеллект: 70 лет провалов, надежд и революций

Статья без лишних эмоций о том, как развивался искусственный интеллект. Это попытка проследить паттерны в развитии ИИ, понять, почему прогнозы лидеров отрасли систематически не сбываются, и оценить, где мы находимся сегодня. В тексте акцент сделан на трёх составляющих - технических решениях, финансовых результатах и исторических взаимосвязях.

https://habr.com/ru/articles/1001536/

#искусственный_интеллект #история_ИИ #ИИзима #LLM #ChatGPT #трансформеры #глубокое_обучение #венчурные_инвестиции #AGI

#agi #венчурные_инвестиции #глубокое_обучение #трансформеры #chatgpt #llm

Habr @[email protected] · 2026-02-24 · 06:42 UTC

Искусственный интеллект: 70 лет провалов, надежд и революций

Статья без лишних эмоций о том, как развивался искусственный интеллект. Это попытка проследить паттерны в развитии ИИ, понять, почему прогнозы лидеров отрасли систематически не сбываются, и оценить, где мы находимся сегодня. В тексте акцент сделан на трёх составляющих - технических решениях, финансовых результатах и исторических взаимосвязях.

https://habr.com/ru/articles/1001536/

#искусственный_интеллект #история_ИИ #ИИзима #LLM #ChatGPT #трансформеры #глубокое_обучение #венчурные_инвестиции #AGI

#искусственный_интеллект #история_ии #иизима #llm #chatgpt #трансформеры

Habr @[email protected] · 2026-02-24 · 06:42 UTC

Искусственный интеллект: 70 лет провалов, надежд и революций

Статья без лишних эмоций о том, как развивался искусственный интеллект. Это попытка проследить паттерны в развитии ИИ, понять, почему прогнозы лидеров отрасли систематически не сбываются, и оценить, где мы находимся сегодня. В тексте акцент сделан на трёх составляющих - технических решениях, финансовых результатах и исторических взаимосвязях.

https://habr.com/ru/articles/1001536/

#искусственный_интеллект #история_ИИ #ИИзима #LLM #ChatGPT #трансформеры #глубокое_обучение #венчурные_инвестиции #AGI

#agi #венчурные_инвестиции #глубокое_обучение #трансформеры #chatgpt #llm

Habr @[email protected] · 2026-02-07 · 23:02 UTC

AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.

https://habr.com/ru/articles/993966/

#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг

#эмбеддинг #поиск_по_тексту #векторный_поиск #трансформеры #эмбеддинги #искусственный_интеллект

Habr @[email protected] · 2026-02-07 · 23:02 UTC

AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.

https://habr.com/ru/articles/993966/

#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг

#эмбеддинг #поиск_по_тексту #векторный_поиск #трансформеры #эмбеддинги #искусственный_интеллект

Habr @[email protected] · 2026-02-07 · 23:02 UTC

AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.

https://habr.com/ru/articles/993966/

#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг

#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги

Habr @[email protected] · 2026-02-07 · 23:02 UTC

AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.

https://habr.com/ru/articles/993966/

#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг

#эмбеддинг #поиск_по_тексту #векторный_поиск #трансформеры #эмбеддинги #искусственный_интеллект

Habr @[email protected] · 2026-02-06 · 18:42 UTC

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

https://habr.com/ru/articles/993768/

#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

#трансформеры #llama #gpt #лингвистика #nlp #языковые_модели

Habr @[email protected] · 2026-02-06 · 18:42 UTC

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

https://habr.com/ru/articles/993768/

#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

#трансформеры #llama #gpt #лингвистика #nlp #языковые_модели

Habr @[email protected] · 2026-02-06 · 18:42 UTC

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

https://habr.com/ru/articles/993768/

#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

#bpe #токенизация #морфемы #языковые_модели #nlp #лингвистика

Habr @[email protected] · 2026-02-06 · 18:42 UTC

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

https://habr.com/ru/articles/993768/

#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

#трансформеры #llama #gpt #лингвистика #nlp #языковые_модели

Habr @[email protected] · 2026-01-23 · 04:52 UTC

Время разобраться, кто мы такие в эпоху ИИ

Что, если в этом году мы не просто вернемся к кодингу и дедлайнам, а задумаемся о чем-то по-настоящему фундаментальном? О сознании — своем и машинном. Ведь в мире, где ИИ уже пишет код лучше джунов-разработчиков, вопрос "Кто я?" становится не философским, а практическим. Сегодня разберем свежую работу Стивена Фитца — это целый инженерный план по созданию субъективного опыта в компьютере.

https://habr.com/ru/articles/988098/

#машинное+обучение #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры #принцип_свободной_энергии #эмерджентность #computational_knowledge

#computational_knowledge #эмерджентность #принцип_свободной_энергии #трансформеры #клеточные_автоматы #коллективный_разум

Habr @[email protected] · 2026-01-23 · 04:52 UTC

Время разобраться, кто мы такие в эпоху ИИ

Что, если в этом году мы не просто вернемся к кодингу и дедлайнам, а задумаемся о чем-то по-настоящему фундаментальном? О сознании — своем и машинном. Ведь в мире, где ИИ уже пишет код лучше джунов-разработчиков, вопрос "Кто я?" становится не философским, а практическим. Сегодня разберем свежую работу Стивена Фитца — это целый инженерный план по созданию субъективного опыта в компьютере.

https://habr.com/ru/articles/988098/

#машинное+обучение #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры #принцип_свободной_энергии #эмерджентность #computational_knowledge

#computational_knowledge #эмерджентность #принцип_свободной_энергии #трансформеры #клеточные_автоматы #коллективный_разум

Habr @[email protected] · 2026-01-23 · 04:52 UTC

Время разобраться, кто мы такие в эпоху ИИ

Что, если в этом году мы не просто вернемся к кодингу и дедлайнам, а задумаемся о чем-то по-настоящему фундаментальном? О сознании — своем и машинном. Ведь в мире, где ИИ уже пишет код лучше джунов-разработчиков, вопрос "Кто я?" становится не философским, а практическим. Сегодня разберем свежую работу Стивена Фитца — это целый инженерный план по созданию субъективного опыта в компьютере.

https://habr.com/ru/articles/988098/

#машинное+обучение #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры #принцип_свободной_энергии #эмерджентность #computational_knowledge

#машинное #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры

Habr @[email protected] · 2026-01-23 · 04:52 UTC

Время разобраться, кто мы такие в эпоху ИИ

Что, если в этом году мы не просто вернемся к кодингу и дедлайнам, а задумаемся о чем-то по-настоящему фундаментальном? О сознании — своем и машинном. Ведь в мире, где ИИ уже пишет код лучше джунов-разработчиков, вопрос "Кто я?" становится не философским, а практическим. Сегодня разберем свежую работу Стивена Фитца — это целый инженерный план по созданию субъективного опыта в компьютере.

https://habr.com/ru/articles/988098/

#машинное+обучение #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры #принцип_свободной_энергии #эмерджентность #computational_knowledge

#computational_knowledge #эмерджентность #принцип_свободной_энергии #трансформеры #клеточные_автоматы #коллективный_разум

Habr @[email protected] · 2026-01-20 · 07:12 UTC

Анатомия трансформеров: почему обычный Self-Attention больше не используют

Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value , но далеко не все понимают их физический смысл. Почему мы вообще умножаем ключи на запросы и причем тут «внимание»? Я предлагаю разобрать работу трансформеров на интуитивно понятном примере «ржавого ключа», чтобы увидеть, как именно слова передают друг другу смысл и формируют контекст.

https://habr.com/ru/articles/986140/

#трансформеры #языковые_модели #искусственный_интеллект #машинное_обучение

#машинное_обучение #искусственный_интеллект #языковые_модели #трансформеры

Habr @[email protected] · 2026-01-20 · 07:12 UTC

Анатомия трансформеров: почему обычный Self-Attention больше не используют

Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value , но далеко не все понимают их физический смысл. Почему мы вообще умножаем ключи на запросы и причем тут «внимание»? Я предлагаю разобрать работу трансформеров на интуитивно понятном примере «ржавого ключа», чтобы увидеть, как именно слова передают друг другу смысл и формируют контекст.

https://habr.com/ru/articles/986140/

#трансформеры #языковые_модели #искусственный_интеллект #машинное_обучение

#машинное_обучение #искусственный_интеллект #языковые_модели #трансформеры

Habr @[email protected] · 2026-01-20 · 07:12 UTC

Анатомия трансформеров: почему обычный Self-Attention больше не используют

Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value , но далеко не все понимают их физический смысл. Почему мы вообще умножаем ключи на запросы и причем тут «внимание»? Я предлагаю разобрать работу трансформеров на интуитивно понятном примере «ржавого ключа», чтобы увидеть, как именно слова передают друг другу смысл и формируют контекст.

https://habr.com/ru/articles/986140/

#трансформеры #языковые_модели #искусственный_интеллект #машинное_обучение

Habr @[email protected] · 2026-01-20 · 07:12 UTC

Анатомия трансформеров: почему обычный Self-Attention больше не используют

Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value , но далеко не все понимают их физический смысл. Почему мы вообще умножаем ключи на запросы и причем тут «внимание»? Я предлагаю разобрать работу трансформеров на интуитивно понятном примере «ржавого ключа», чтобы увидеть, как именно слова передают друг другу смысл и формируют контекст.

https://habr.com/ru/articles/986140/

#трансформеры #языковые_модели #искусственный_интеллект #машинное_обучение

#машинное_обучение #искусственный_интеллект #языковые_модели #трансформеры

Habr @[email protected] · 2026-01-08 · 15:12 UTC

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Эксперимент по хирургическому удалению слоёв из языковой модели Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity. Результаты: • Удаление 1 среднего слоя: +10% скорость, -4% качество • Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество • Удаление первого слоя: модель полностью ломается Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении). Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.

https://habr.com/ru/articles/983636/

#LLM #Large_Language_Models #Layer_Pruning #оптимизация_нейросетей #TinyLlama #PyTorch #inference_optimization #трансформеры #ускорение_моделей #ShortGPT

#shortgpt #ускорение_моделей #трансформеры #inference_optimization #pytorch #tinyllama

Habr @[email protected] · 2026-01-08 · 15:12 UTC

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Эксперимент по хирургическому удалению слоёв из языковой модели Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity. Результаты: • Удаление 1 среднего слоя: +10% скорость, -4% качество • Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество • Удаление первого слоя: модель полностью ломается Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении). Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.

https://habr.com/ru/articles/983636/

#LLM #Large_Language_Models #Layer_Pruning #оптимизация_нейросетей #TinyLlama #PyTorch #inference_optimization #трансформеры #ускорение_моделей #ShortGPT

#shortgpt #ускорение_моделей #трансформеры #inference_optimization #pytorch #tinyllama

Habr @[email protected] · 2026-01-08 · 15:12 UTC

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Эксперимент по хирургическому удалению слоёв из языковой модели Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity. Результаты: • Удаление 1 среднего слоя: +10% скорость, -4% качество • Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество • Удаление первого слоя: модель полностью ломается Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении). Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.

https://habr.com/ru/articles/983636/

#LLM #Large_Language_Models #Layer_Pruning #оптимизация_нейросетей #TinyLlama #PyTorch #inference_optimization #трансформеры #ускорение_моделей #ShortGPT

#llm #large_language_models #layer_pruning #оптимизация_нейросетей #tinyllama #pytorch

Habr @[email protected] · 2026-01-08 · 15:12 UTC

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Эксперимент по хирургическому удалению слоёв из языковой модели Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity. Результаты: • Удаление 1 среднего слоя: +10% скорость, -4% качество • Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество • Удаление первого слоя: модель полностью ломается Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении). Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.

https://habr.com/ru/articles/983636/

#LLM #Large_Language_Models #Layer_Pruning #оптимизация_нейросетей #TinyLlama #PyTorch #inference_optimization #трансформеры #ускорение_моделей #ShortGPT

#shortgpt #ускорение_моделей #трансформеры #inference_optimization #pytorch #tinyllama

Habr @[email protected] · 2026-01-04 · 14:42 UTC

Нейро сети для самых маленьких

Нейро сети для самых маленьких Каждый раз, когда вы говорите нейросети « Спасибо », вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная лампа за несколько секунд. Это первая статья из небольшого цикла, посвящённого сетям для AI/ML-кластеров и HPC. В этой серии мы коснёмся принципов работы и обучения моделей, параллелизации, технологий DMA и RDMA, сетевых топологий, InfiniBand и RoCE, а ещё пофилософствуем на тему общих и специальных решений. Конкретно в этой статье мы разберёмся, что представляет из себя нейросеть, как она работает, как происходит её обучение, а самое главное, почему для неё нужны сотни дорогущих GPU-карточек и какая-то особенная сеть. Рефрен сегодняшней истории: в нейросетях нет никакой магии — это просто множество простых операций над числами, которые выполняются на компьютерах со специальными чипами. Магии нет ни в том, как они работают, ни в той инфраструктуре, на которой они запускаются. Ныряем!

https://habr.com/ru/articles/982820/

#ai #ml #roce #infiniband #трансформеры #нейросети #llm #mlp #backpropagation

#backpropagation #mlp #llm #нейросети #трансформеры #infiniband

Habr @[email protected] · 2026-01-04 · 14:42 UTC

Нейро сети для самых маленьких

Нейро сети для самых маленьких Каждый раз, когда вы говорите нейросети « Спасибо », вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная лампа за несколько секунд. Это первая статья из небольшого цикла, посвящённого сетям для AI/ML-кластеров и HPC. В этой серии мы коснёмся принципов работы и обучения моделей, параллелизации, технологий DMA и RDMA, сетевых топологий, InfiniBand и RoCE, а ещё пофилософствуем на тему общих и специальных решений. Конкретно в этой статье мы разберёмся, что представляет из себя нейросеть, как она работает, как происходит её обучение, а самое главное, почему для неё нужны сотни дорогущих GPU-карточек и какая-то особенная сеть. Рефрен сегодняшней истории: в нейросетях нет никакой магии — это просто множество простых операций над числами, которые выполняются на компьютерах со специальными чипами. Магии нет ни в том, как они работают, ни в той инфраструктуре, на которой они запускаются. Ныряем!

https://habr.com/ru/articles/982820/

#ai #ml #roce #infiniband #трансформеры #нейросети #llm #mlp #backpropagation

#ai #ml #roce #infiniband #трансформеры #нейросети