#трансформеры — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #трансформеры, aggregated by home.social.
-
Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл
Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл
-
Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл
Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл
-
Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл
Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл
-
Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл
Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл
-
ИИ 2026: Технологии, которые выживут в продакшне
Представьте, что вы — инженер в крупной IT‑компании. Ваша задача — запустить новую языковую модель на длинных документах. Вы арендуете дорогущий кластер с GPU, загружаете данные, запускаете обучение... и через час получаете аварийное оповещение: температура видеокарт достигла 98°C, система отключается… Это не выдуманная история — такие случаи происходят регулярно. Виновник — квадратичная сложность механизма внимания в трансформерах (O(n²)). 2026 год — это момент, когда передовые технологии ИИ сталкиваются с физическими пределами. И пока одни исследователи ищут философский камень в квантовой механике, другие инженеры решают конкретную проблему: как запихнуть гигантскую модель на скромное железо и не сжечь бюджет на электричество. Я, Даниил Селиванов, пресейл инженер в компании BPMSoft (входит в холдинг LANSOFT). Я заинтересовался темой развития искусственного интеллекта еще в период зарождения многих ИИ‑технологий, на практике наблюдал рост технологических гигантов. Сегодня хочу поделиться с вами своими мыслями по этому поводу.
https://habr.com/ru/companies/lansoft_career/articles/1016830/
#трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер #энергоэффективность #mlмодели #gpu #bci
-
ИИ 2026: Технологии, которые выживут в продакшне
Представьте, что вы — инженер в крупной IT‑компании. Ваша задача — запустить новую языковую модель на длинных документах. Вы арендуете дорогущий кластер с GPU, загружаете данные, запускаете обучение... и через час получаете аварийное оповещение: температура видеокарт достигла 98°C, система отключается… Это не выдуманная история — такие случаи происходят регулярно. Виновник — квадратичная сложность механизма внимания в трансформерах (O(n²)). 2026 год — это момент, когда передовые технологии ИИ сталкиваются с физическими пределами. И пока одни исследователи ищут философский камень в квантовой механике, другие инженеры решают конкретную проблему: как запихнуть гигантскую модель на скромное железо и не сжечь бюджет на электричество. Я, Даниил Селиванов, пресейл инженер в компании BPMSoft (входит в холдинг LANSOFT). Я заинтересовался темой развития искусственного интеллекта еще в период зарождения многих ИИ‑технологий, на практике наблюдал рост технологических гигантов. Сегодня хочу поделиться с вами своими мыслями по этому поводу.
https://habr.com/ru/companies/lansoft_career/articles/1016830/
#трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер #энергоэффективность #mlмодели #gpu #bci
-
ИИ 2026: Технологии, которые выживут в продакшне
Представьте, что вы — инженер в крупной IT‑компании. Ваша задача — запустить новую языковую модель на длинных документах. Вы арендуете дорогущий кластер с GPU, загружаете данные, запускаете обучение... и через час получаете аварийное оповещение: температура видеокарт достигла 98°C, система отключается… Это не выдуманная история — такие случаи происходят регулярно. Виновник — квадратичная сложность механизма внимания в трансформерах (O(n²)). 2026 год — это момент, когда передовые технологии ИИ сталкиваются с физическими пределами. И пока одни исследователи ищут философский камень в квантовой механике, другие инженеры решают конкретную проблему: как запихнуть гигантскую модель на скромное железо и не сжечь бюджет на электричество. Я, Даниил Селиванов, пресейл инженер в компании BPMSoft (входит в холдинг LANSOFT). Я заинтересовался темой развития искусственного интеллекта еще в период зарождения многих ИИ‑технологий, на практике наблюдал рост технологических гигантов. Сегодня хочу поделиться с вами своими мыслями по этому поводу.
https://habr.com/ru/companies/lansoft_career/articles/1016830/
#трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер #энергоэффективность #mlмодели #gpu #bci
-
ИИ 2026: Технологии, которые выживут в продакшне
Представьте, что вы — инженер в крупной IT‑компании. Ваша задача — запустить новую языковую модель на длинных документах. Вы арендуете дорогущий кластер с GPU, загружаете данные, запускаете обучение... и через час получаете аварийное оповещение: температура видеокарт достигла 98°C, система отключается… Это не выдуманная история — такие случаи происходят регулярно. Виновник — квадратичная сложность механизма внимания в трансформерах (O(n²)). 2026 год — это момент, когда передовые технологии ИИ сталкиваются с физическими пределами. И пока одни исследователи ищут философский камень в квантовой механике, другие инженеры решают конкретную проблему: как запихнуть гигантскую модель на скромное железо и не сжечь бюджет на электричество. Я, Даниил Селиванов, пресейл инженер в компании BPMSoft (входит в холдинг LANSOFT). Я заинтересовался темой развития искусственного интеллекта еще в период зарождения многих ИИ‑технологий, на практике наблюдал рост технологических гигантов. Сегодня хочу поделиться с вами своими мыслями по этому поводу.
https://habr.com/ru/companies/lansoft_career/articles/1016830/
#трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер #энергоэффективность #mlмодели #gpu #bci
-
TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация
В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу
https://habr.com/ru/articles/1016036/
#машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов
-
TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация
В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу
https://habr.com/ru/articles/1016036/
#машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов
-
TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация
В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу
https://habr.com/ru/articles/1016036/
#машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов
-
TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация
В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу
https://habr.com/ru/articles/1016036/
#машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов
-
TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров
В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры
https://habr.com/ru/articles/1015514/
#машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений #компьютерное_зрение #selfsupervised #attention #tape+ml
-
TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров
В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры
https://habr.com/ru/articles/1015514/
#машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений #компьютерное_зрение #selfsupervised #attention #tape+ml
-
TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров
В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры
https://habr.com/ru/articles/1015514/
#машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений #компьютерное_зрение #selfsupervised #attention #tape+ml
-
TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров
В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры
https://habr.com/ru/articles/1015514/
#машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений #компьютерное_зрение #selfsupervised #attention #tape+ml
-
От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум
Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет
https://habr.com/ru/companies/bhv_publishing/articles/1005404/
#БХВ #BHV #генеративный_ИИ #трансформеры #искусственный_интеллект #llm #диффузионные_модели #stable_diffusion #машинное_обучение #нейросети
-
От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум
Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет
https://habr.com/ru/companies/bhv_publishing/articles/1005404/
#БХВ #BHV #генеративный_ИИ #трансформеры #искусственный_интеллект #llm #диффузионные_модели #stable_diffusion #машинное_обучение #нейросети
-
От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум
Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет
https://habr.com/ru/companies/bhv_publishing/articles/1005404/
#БХВ #BHV #генеративный_ИИ #трансформеры #искусственный_интеллект #llm #диффузионные_модели #stable_diffusion #машинное_обучение #нейросети
-
От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум
Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет
https://habr.com/ru/companies/bhv_publishing/articles/1005404/
#БХВ #BHV #генеративный_ИИ #трансформеры #искусственный_интеллект #llm #диффузионные_модели #stable_diffusion #машинное_обучение #нейросети
-
TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей
Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить
https://habr.com/ru/articles/1004788/
#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование
-
TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей
Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить
https://habr.com/ru/articles/1004788/
#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование
-
TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей
Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить
https://habr.com/ru/articles/1004788/
#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование
-
TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей
Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить
https://habr.com/ru/articles/1004788/
#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование
-
Искусственный интеллект: 70 лет провалов, надежд и революций
Статья без лишних эмоций о том, как развивался искусственный интеллект. Это попытка проследить паттерны в развитии ИИ, понять, почему прогнозы лидеров отрасли систематически не сбываются, и оценить, где мы находимся сегодня. В тексте акцент сделан на трёх составляющих - технических решениях, финансовых результатах и исторических взаимосвязях.
https://habr.com/ru/articles/1001536/
#искусственный_интеллект #история_ИИ #ИИзима #LLM #ChatGPT #трансформеры #глубокое_обучение #венчурные_инвестиции #AGI
-
Искусственный интеллект: 70 лет провалов, надежд и революций
Статья без лишних эмоций о том, как развивался искусственный интеллект. Это попытка проследить паттерны в развитии ИИ, понять, почему прогнозы лидеров отрасли систематически не сбываются, и оценить, где мы находимся сегодня. В тексте акцент сделан на трёх составляющих - технических решениях, финансовых результатах и исторических взаимосвязях.
https://habr.com/ru/articles/1001536/
#искусственный_интеллект #история_ИИ #ИИзима #LLM #ChatGPT #трансформеры #глубокое_обучение #венчурные_инвестиции #AGI
-
Искусственный интеллект: 70 лет провалов, надежд и революций
Статья без лишних эмоций о том, как развивался искусственный интеллект. Это попытка проследить паттерны в развитии ИИ, понять, почему прогнозы лидеров отрасли систематически не сбываются, и оценить, где мы находимся сегодня. В тексте акцент сделан на трёх составляющих - технических решениях, финансовых результатах и исторических взаимосвязях.
https://habr.com/ru/articles/1001536/
#искусственный_интеллект #история_ИИ #ИИзима #LLM #ChatGPT #трансформеры #глубокое_обучение #венчурные_инвестиции #AGI
-
Искусственный интеллект: 70 лет провалов, надежд и революций
Статья без лишних эмоций о том, как развивался искусственный интеллект. Это попытка проследить паттерны в развитии ИИ, понять, почему прогнозы лидеров отрасли систематически не сбываются, и оценить, где мы находимся сегодня. В тексте акцент сделан на трёх составляющих - технических решениях, финансовых результатах и исторических взаимосвязях.
https://habr.com/ru/articles/1001536/
#искусственный_интеллект #история_ИИ #ИИзима #LLM #ChatGPT #трансформеры #глубокое_обучение #венчурные_инвестиции #AGI
-
AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP
AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.
https://habr.com/ru/articles/993966/
#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг
-
AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP
AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.
https://habr.com/ru/articles/993966/
#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг
-
AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP
AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.
https://habr.com/ru/articles/993966/
#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг
-
AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP
AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.
https://habr.com/ru/articles/993966/
#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг
-
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.
https://habr.com/ru/articles/993768/
#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры
-
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.
https://habr.com/ru/articles/993768/
#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры
-
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.
https://habr.com/ru/articles/993768/
#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры
-
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.
https://habr.com/ru/articles/993768/
#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры
-
Время разобраться, кто мы такие в эпоху ИИ
Что, если в этом году мы не просто вернемся к кодингу и дедлайнам, а задумаемся о чем-то по-настоящему фундаментальном? О сознании — своем и машинном. Ведь в мире, где ИИ уже пишет код лучше джунов-разработчиков, вопрос "Кто я?" становится не философским, а практическим. Сегодня разберем свежую работу Стивена Фитца — это целый инженерный план по созданию субъективного опыта в компьютере.
https://habr.com/ru/articles/988098/
#машинное+обучение #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры #принцип_свободной_энергии #эмерджентность #computational_knowledge
-
Время разобраться, кто мы такие в эпоху ИИ
Что, если в этом году мы не просто вернемся к кодингу и дедлайнам, а задумаемся о чем-то по-настоящему фундаментальном? О сознании — своем и машинном. Ведь в мире, где ИИ уже пишет код лучше джунов-разработчиков, вопрос "Кто я?" становится не философским, а практическим. Сегодня разберем свежую работу Стивена Фитца — это целый инженерный план по созданию субъективного опыта в компьютере.
https://habr.com/ru/articles/988098/
#машинное+обучение #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры #принцип_свободной_энергии #эмерджентность #computational_knowledge
-
Время разобраться, кто мы такие в эпоху ИИ
Что, если в этом году мы не просто вернемся к кодингу и дедлайнам, а задумаемся о чем-то по-настоящему фундаментальном? О сознании — своем и машинном. Ведь в мире, где ИИ уже пишет код лучше джунов-разработчиков, вопрос "Кто я?" становится не философским, а практическим. Сегодня разберем свежую работу Стивена Фитца — это целый инженерный план по созданию субъективного опыта в компьютере.
https://habr.com/ru/articles/988098/
#машинное+обучение #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры #принцип_свободной_энергии #эмерджентность #computational_knowledge
-
Время разобраться, кто мы такие в эпоху ИИ
Что, если в этом году мы не просто вернемся к кодингу и дедлайнам, а задумаемся о чем-то по-настоящему фундаментальном? О сознании — своем и машинном. Ведь в мире, где ИИ уже пишет код лучше джунов-разработчиков, вопрос "Кто я?" становится не философским, а практическим. Сегодня разберем свежую работу Стивена Фитца — это целый инженерный план по созданию субъективного опыта в компьютере.
https://habr.com/ru/articles/988098/
#машинное+обучение #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры #принцип_свободной_энергии #эмерджентность #computational_knowledge
-
Анатомия трансформеров: почему обычный Self-Attention больше не используют
Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value , но далеко не все понимают их физический смысл. Почему мы вообще умножаем ключи на запросы и причем тут «внимание»? Я предлагаю разобрать работу трансформеров на интуитивно понятном примере «ржавого ключа», чтобы увидеть, как именно слова передают друг другу смысл и формируют контекст.
https://habr.com/ru/articles/986140/
#трансформеры #языковые_модели #искусственный_интеллект #машинное_обучение
-
Анатомия трансформеров: почему обычный Self-Attention больше не используют
Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value , но далеко не все понимают их физический смысл. Почему мы вообще умножаем ключи на запросы и причем тут «внимание»? Я предлагаю разобрать работу трансформеров на интуитивно понятном примере «ржавого ключа», чтобы увидеть, как именно слова передают друг другу смысл и формируют контекст.
https://habr.com/ru/articles/986140/
#трансформеры #языковые_модели #искусственный_интеллект #машинное_обучение
-
Анатомия трансформеров: почему обычный Self-Attention больше не используют
Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value , но далеко не все понимают их физический смысл. Почему мы вообще умножаем ключи на запросы и причем тут «внимание»? Я предлагаю разобрать работу трансформеров на интуитивно понятном примере «ржавого ключа», чтобы увидеть, как именно слова передают друг другу смысл и формируют контекст.
https://habr.com/ru/articles/986140/
#трансформеры #языковые_модели #искусственный_интеллект #машинное_обучение
-
Анатомия трансформеров: почему обычный Self-Attention больше не используют
Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value , но далеко не все понимают их физический смысл. Почему мы вообще умножаем ключи на запросы и причем тут «внимание»? Я предлагаю разобрать работу трансформеров на интуитивно понятном примере «ржавого ключа», чтобы увидеть, как именно слова передают друг другу смысл и формируют контекст.
https://habr.com/ru/articles/986140/
#трансформеры #языковые_модели #искусственный_интеллект #машинное_обучение
-
Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее
Эксперимент по хирургическому удалению слоёв из языковой модели Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity. Результаты: • Удаление 1 среднего слоя: +10% скорость, -4% качество • Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество • Удаление первого слоя: модель полностью ломается Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении). Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.
https://habr.com/ru/articles/983636/
#LLM #Large_Language_Models #Layer_Pruning #оптимизация_нейросетей #TinyLlama #PyTorch #inference_optimization #трансформеры #ускорение_моделей #ShortGPT
-
Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее
Эксперимент по хирургическому удалению слоёв из языковой модели Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity. Результаты: • Удаление 1 среднего слоя: +10% скорость, -4% качество • Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество • Удаление первого слоя: модель полностью ломается Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении). Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.
https://habr.com/ru/articles/983636/
#LLM #Large_Language_Models #Layer_Pruning #оптимизация_нейросетей #TinyLlama #PyTorch #inference_optimization #трансформеры #ускорение_моделей #ShortGPT
-
Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее
Эксперимент по хирургическому удалению слоёв из языковой модели Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity. Результаты: • Удаление 1 среднего слоя: +10% скорость, -4% качество • Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество • Удаление первого слоя: модель полностью ломается Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении). Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.
https://habr.com/ru/articles/983636/
#LLM #Large_Language_Models #Layer_Pruning #оптимизация_нейросетей #TinyLlama #PyTorch #inference_optimization #трансформеры #ускорение_моделей #ShortGPT
-
Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее
Эксперимент по хирургическому удалению слоёв из языковой модели Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity. Результаты: • Удаление 1 среднего слоя: +10% скорость, -4% качество • Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество • Удаление первого слоя: модель полностью ломается Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении). Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.
https://habr.com/ru/articles/983636/
#LLM #Large_Language_Models #Layer_Pruning #оптимизация_нейросетей #TinyLlama #PyTorch #inference_optimization #трансформеры #ускорение_моделей #ShortGPT
-
Нейро сети для самых маленьких
Нейро сети для самых маленьких Каждый раз, когда вы говорите нейросети « Спасибо », вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная лампа за несколько секунд. Это первая статья из небольшого цикла, посвящённого сетям для AI/ML-кластеров и HPC. В этой серии мы коснёмся принципов работы и обучения моделей, параллелизации, технологий DMA и RDMA, сетевых топологий, InfiniBand и RoCE, а ещё пофилософствуем на тему общих и специальных решений. Конкретно в этой статье мы разберёмся, что представляет из себя нейросеть, как она работает, как происходит её обучение, а самое главное, почему для неё нужны сотни дорогущих GPU-карточек и какая-то особенная сеть. Рефрен сегодняшней истории: в нейросетях нет никакой магии — это просто множество простых операций над числами, которые выполняются на компьютерах со специальными чипами. Магии нет ни в том, как они работают, ни в той инфраструктуре, на которой они запускаются. Ныряем!
https://habr.com/ru/articles/982820/
#ai #ml #roce #infiniband #трансформеры #нейросети #llm #mlp #backpropagation
-
Нейро сети для самых маленьких
Нейро сети для самых маленьких Каждый раз, когда вы говорите нейросети « Спасибо », вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная лампа за несколько секунд. Это первая статья из небольшого цикла, посвящённого сетям для AI/ML-кластеров и HPC. В этой серии мы коснёмся принципов работы и обучения моделей, параллелизации, технологий DMA и RDMA, сетевых топологий, InfiniBand и RoCE, а ещё пофилософствуем на тему общих и специальных решений. Конкретно в этой статье мы разберёмся, что представляет из себя нейросеть, как она работает, как происходит её обучение, а самое главное, почему для неё нужны сотни дорогущих GPU-карточек и какая-то особенная сеть. Рефрен сегодняшней истории: в нейросетях нет никакой магии — это просто множество простых операций над числами, которые выполняются на компьютерах со специальными чипами. Магии нет ни в том, как они работают, ни в той инфраструктуре, на которой они запускаются. Ныряем!
https://habr.com/ru/articles/982820/
#ai #ml #roce #infiniband #трансформеры #нейросети #llm #mlp #backpropagation