home.social

#трансформеры — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #трансформеры, aggregated by home.social.

  1. Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

    Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

    habr.com/ru/articles/1036128/

    #внимание #трансформеры #нормализация

  2. Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

    Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

    habr.com/ru/articles/1036128/

    #внимание #трансформеры #нормализация

  3. Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

    Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

    habr.com/ru/articles/1036128/

    #внимание #трансформеры #нормализация

  4. Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

    Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

    habr.com/ru/articles/1036128/

    #внимание #трансформеры #нормализация

  5. ИИ 2026: Технологии, которые выживут в продакшне

    Представьте, что вы — инженер в крупной IT‑компании. Ваша задача — запустить новую языковую модель на длинных документах. Вы арендуете дорогущий кластер с GPU, загружаете данные, запускаете обучение... и через час получаете аварийное оповещение: температура видеокарт достигла 98°C, система отключается… Это не выдуманная история — такие случаи происходят регулярно. Виновник — квадратичная сложность механизма внимания в трансформерах (O(n²)). 2026 год — это момент, когда передовые технологии ИИ сталкиваются с физическими пределами. И пока одни исследователи ищут философский камень в квантовой механике, другие инженеры решают конкретную проблему: как запихнуть гигантскую модель на скромное железо и не сжечь бюджет на электричество. Я, Даниил Селиванов, пресейл инженер в компании BPMSoft (входит в холдинг LANSOFT). Я заинтересовался темой развития искусственного интеллекта еще в период зарождения многих ИИ‑технологий, на практике наблюдал рост технологических гигантов. Сегодня хочу поделиться с вами своими мыслями по этому поводу.

    habr.com/ru/companies/lansoft_

    #трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер #энергоэффективность #mlмодели #gpu #bci

  6. ИИ 2026: Технологии, которые выживут в продакшне

    Представьте, что вы — инженер в крупной IT‑компании. Ваша задача — запустить новую языковую модель на длинных документах. Вы арендуете дорогущий кластер с GPU, загружаете данные, запускаете обучение... и через час получаете аварийное оповещение: температура видеокарт достигла 98°C, система отключается… Это не выдуманная история — такие случаи происходят регулярно. Виновник — квадратичная сложность механизма внимания в трансформерах (O(n²)). 2026 год — это момент, когда передовые технологии ИИ сталкиваются с физическими пределами. И пока одни исследователи ищут философский камень в квантовой механике, другие инженеры решают конкретную проблему: как запихнуть гигантскую модель на скромное железо и не сжечь бюджет на электричество. Я, Даниил Селиванов, пресейл инженер в компании BPMSoft (входит в холдинг LANSOFT). Я заинтересовался темой развития искусственного интеллекта еще в период зарождения многих ИИ‑технологий, на практике наблюдал рост технологических гигантов. Сегодня хочу поделиться с вами своими мыслями по этому поводу.

    habr.com/ru/companies/lansoft_

    #трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер #энергоэффективность #mlмодели #gpu #bci

  7. ИИ 2026: Технологии, которые выживут в продакшне

    Представьте, что вы — инженер в крупной IT‑компании. Ваша задача — запустить новую языковую модель на длинных документах. Вы арендуете дорогущий кластер с GPU, загружаете данные, запускаете обучение... и через час получаете аварийное оповещение: температура видеокарт достигла 98°C, система отключается… Это не выдуманная история — такие случаи происходят регулярно. Виновник — квадратичная сложность механизма внимания в трансформерах (O(n²)). 2026 год — это момент, когда передовые технологии ИИ сталкиваются с физическими пределами. И пока одни исследователи ищут философский камень в квантовой механике, другие инженеры решают конкретную проблему: как запихнуть гигантскую модель на скромное железо и не сжечь бюджет на электричество. Я, Даниил Селиванов, пресейл инженер в компании BPMSoft (входит в холдинг LANSOFT). Я заинтересовался темой развития искусственного интеллекта еще в период зарождения многих ИИ‑технологий, на практике наблюдал рост технологических гигантов. Сегодня хочу поделиться с вами своими мыслями по этому поводу.

    habr.com/ru/companies/lansoft_

    #трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер #энергоэффективность #mlмодели #gpu #bci

  8. ИИ 2026: Технологии, которые выживут в продакшне

    Представьте, что вы — инженер в крупной IT‑компании. Ваша задача — запустить новую языковую модель на длинных документах. Вы арендуете дорогущий кластер с GPU, загружаете данные, запускаете обучение... и через час получаете аварийное оповещение: температура видеокарт достигла 98°C, система отключается… Это не выдуманная история — такие случаи происходят регулярно. Виновник — квадратичная сложность механизма внимания в трансформерах (O(n²)). 2026 год — это момент, когда передовые технологии ИИ сталкиваются с физическими пределами. И пока одни исследователи ищут философский камень в квантовой механике, другие инженеры решают конкретную проблему: как запихнуть гигантскую модель на скромное железо и не сжечь бюджет на электричество. Я, Даниил Селиванов, пресейл инженер в компании BPMSoft (входит в холдинг LANSOFT). Я заинтересовался темой развития искусственного интеллекта еще в период зарождения многих ИИ‑технологий, на практике наблюдал рост технологических гигантов. Сегодня хочу поделиться с вами своими мыслями по этому поводу.

    habr.com/ru/companies/lansoft_

    #трансформеры #искусственный_интеллект #нейроморфный_чип #квантовые_вычисления #чтение_мыслей #интерфейсы_мозгкомпьютер #энергоэффективность #mlмодели #gpu #bci

  9. TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

    В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу

    habr.com/ru/articles/1016036/

    #машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов

  10. TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

    В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу

    habr.com/ru/articles/1016036/

    #машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов

  11. TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

    В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу

    habr.com/ru/articles/1016036/

    #машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов

  12. TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

    В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу

    habr.com/ru/articles/1016036/

    #машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов

  13. TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

    В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры

    habr.com/ru/articles/1015514/

    #машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений #компьютерное_зрение #selfsupervised #attention #tape+ml

  14. TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

    В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры

    habr.com/ru/articles/1015514/

    #машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений #компьютерное_зрение #selfsupervised #attention #tape+ml

  15. TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

    В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры

    habr.com/ru/articles/1015514/

    #машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений #компьютерное_зрение #selfsupervised #attention #tape+ml

  16. TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

    В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры

    habr.com/ru/articles/1015514/

    #машинное_обучение #трансформеры #детекция #эмбеддинги #синтетические_данные #классификация_изображений #компьютерное_зрение #selfsupervised #attention #tape+ml

  17. От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум

    Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет

    habr.com/ru/companies/bhv_publ

    #БХВ #BHV #генеративный_ИИ #трансформеры #искусственный_интеллект #llm #диффузионные_модели #stable_diffusion #машинное_обучение #нейросети

  18. От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум

    Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет

    habr.com/ru/companies/bhv_publ

    #БХВ #BHV #генеративный_ИИ #трансформеры #искусственный_интеллект #llm #диффузионные_модели #stable_diffusion #машинное_обучение #нейросети

  19. От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум

    Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет

    habr.com/ru/companies/bhv_publ

    #БХВ #BHV #генеративный_ИИ #трансформеры #искусственный_интеллект #llm #диффузионные_модели #stable_diffusion #машинное_обучение #нейросети

  20. От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум

    Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет

    habr.com/ru/companies/bhv_publ

    #БХВ #BHV #генеративный_ИИ #трансформеры #искусственный_интеллект #llm #диффузионные_модели #stable_diffusion #машинное_обучение #нейросети

  21. TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

    Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

    habr.com/ru/articles/1004788/

    #ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

  22. TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

    Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

    habr.com/ru/articles/1004788/

    #ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

  23. TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

    Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

    habr.com/ru/articles/1004788/

    #ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

  24. TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

    Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

    habr.com/ru/articles/1004788/

    #ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

  25. Искусственный интеллект: 70 лет провалов, надежд и революций

    Статья без лишних эмоций о том, как развивался искусственный интеллект. Это попытка проследить паттерны в развитии ИИ, понять, почему прогнозы лидеров отрасли систематически не сбываются, и оценить, где мы находимся сегодня. В тексте акцент сделан на трёх составляющих - технических решениях, финансовых результатах и исторических взаимосвязях.

    habr.com/ru/articles/1001536/

    #искусственный_интеллект #история_ИИ #ИИзима #LLM #ChatGPT #трансформеры #глубокое_обучение #венчурные_инвестиции #AGI

  26. Искусственный интеллект: 70 лет провалов, надежд и революций

    Статья без лишних эмоций о том, как развивался искусственный интеллект. Это попытка проследить паттерны в развитии ИИ, понять, почему прогнозы лидеров отрасли систематически не сбываются, и оценить, где мы находимся сегодня. В тексте акцент сделан на трёх составляющих - технических решениях, финансовых результатах и исторических взаимосвязях.

    habr.com/ru/articles/1001536/

    #искусственный_интеллект #история_ИИ #ИИзима #LLM #ChatGPT #трансформеры #глубокое_обучение #венчурные_инвестиции #AGI

  27. Искусственный интеллект: 70 лет провалов, надежд и революций

    Статья без лишних эмоций о том, как развивался искусственный интеллект. Это попытка проследить паттерны в развитии ИИ, понять, почему прогнозы лидеров отрасли систематически не сбываются, и оценить, где мы находимся сегодня. В тексте акцент сделан на трёх составляющих - технических решениях, финансовых результатах и исторических взаимосвязях.

    habr.com/ru/articles/1001536/

    #искусственный_интеллект #история_ИИ #ИИзима #LLM #ChatGPT #трансформеры #глубокое_обучение #венчурные_инвестиции #AGI

  28. Искусственный интеллект: 70 лет провалов, надежд и революций

    Статья без лишних эмоций о том, как развивался искусственный интеллект. Это попытка проследить паттерны в развитии ИИ, понять, почему прогнозы лидеров отрасли систематически не сбываются, и оценить, где мы находимся сегодня. В тексте акцент сделан на трёх составляющих - технических решениях, финансовых результатах и исторических взаимосвязях.

    habr.com/ru/articles/1001536/

    #искусственный_интеллект #история_ИИ #ИИзима #LLM #ChatGPT #трансформеры #глубокое_обучение #венчурные_инвестиции #AGI

  29. AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

    AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.

    habr.com/ru/articles/993966/

    #php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг

  30. AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

    AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.

    habr.com/ru/articles/993966/

    #php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг

  31. AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

    AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.

    habr.com/ru/articles/993966/

    #php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг

  32. AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

    AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.

    habr.com/ru/articles/993966/

    #php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг

  33. Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

    GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

    habr.com/ru/articles/993768/

    #BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

  34. Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

    GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

    habr.com/ru/articles/993768/

    #BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

  35. Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

    GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

    habr.com/ru/articles/993768/

    #BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

  36. Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

    GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

    habr.com/ru/articles/993768/

    #BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

  37. Время разобраться, кто мы такие в эпоху ИИ

    Что, если в этом году мы не просто вернемся к кодингу и дедлайнам, а задумаемся о чем-то по-настоящему фундаментальном? О сознании — своем и машинном. Ведь в мире, где ИИ уже пишет код лучше джунов-разработчиков, вопрос "Кто я?" становится не философским, а практическим. Сегодня разберем свежую работу Стивена Фитца — это целый инженерный план по созданию субъективного опыта в компьютере.

    habr.com/ru/articles/988098/

    #машинное+обучение #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры #принцип_свободной_энергии #эмерджентность #computational_knowledge

  38. Время разобраться, кто мы такие в эпоху ИИ

    Что, если в этом году мы не просто вернемся к кодингу и дедлайнам, а задумаемся о чем-то по-настоящему фундаментальном? О сознании — своем и машинном. Ведь в мире, где ИИ уже пишет код лучше джунов-разработчиков, вопрос "Кто я?" становится не философским, а практическим. Сегодня разберем свежую работу Стивена Фитца — это целый инженерный план по созданию субъективного опыта в компьютере.

    habr.com/ru/articles/988098/

    #машинное+обучение #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры #принцип_свободной_энергии #эмерджентность #computational_knowledge

  39. Время разобраться, кто мы такие в эпоху ИИ

    Что, если в этом году мы не просто вернемся к кодингу и дедлайнам, а задумаемся о чем-то по-настоящему фундаментальном? О сознании — своем и машинном. Ведь в мире, где ИИ уже пишет код лучше джунов-разработчиков, вопрос "Кто я?" становится не философским, а практическим. Сегодня разберем свежую работу Стивена Фитца — это целый инженерный план по созданию субъективного опыта в компьютере.

    habr.com/ru/articles/988098/

    #машинное+обучение #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры #принцип_свободной_энергии #эмерджентность #computational_knowledge

  40. Время разобраться, кто мы такие в эпоху ИИ

    Что, если в этом году мы не просто вернемся к кодингу и дедлайнам, а задумаемся о чем-то по-настоящему фундаментальном? О сознании — своем и машинном. Ведь в мире, где ИИ уже пишет код лучше джунов-разработчиков, вопрос "Кто я?" становится не философским, а практическим. Сегодня разберем свежую работу Стивена Фитца — это целый инженерный план по созданию субъективного опыта в компьютере.

    habr.com/ru/articles/988098/

    #машинное+обучение #гипотеза #сознание #коллективный_разум #клеточные_автоматы #трансформеры #принцип_свободной_энергии #эмерджентность #computational_knowledge

  41. Анатомия трансформеров: почему обычный Self-Attention больше не используют

    Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value , но далеко не все понимают их физический смысл. Почему мы вообще умножаем ключи на запросы и причем тут «внимание»? Я предлагаю разобрать работу трансформеров на интуитивно понятном примере «ржавого ключа», чтобы увидеть, как именно слова передают друг другу смысл и формируют контекст.

    habr.com/ru/articles/986140/

    #трансформеры #языковые_модели #искусственный_интеллект #машинное_обучение

  42. Анатомия трансформеров: почему обычный Self-Attention больше не используют

    Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value , но далеко не все понимают их физический смысл. Почему мы вообще умножаем ключи на запросы и причем тут «внимание»? Я предлагаю разобрать работу трансформеров на интуитивно понятном примере «ржавого ключа», чтобы увидеть, как именно слова передают друг другу смысл и формируют контекст.

    habr.com/ru/articles/986140/

    #трансформеры #языковые_модели #искусственный_интеллект #машинное_обучение

  43. Анатомия трансформеров: почему обычный Self-Attention больше не используют

    Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value , но далеко не все понимают их физический смысл. Почему мы вообще умножаем ключи на запросы и причем тут «внимание»? Я предлагаю разобрать работу трансформеров на интуитивно понятном примере «ржавого ключа», чтобы увидеть, как именно слова передают друг другу смысл и формируют контекст.

    habr.com/ru/articles/986140/

    #трансформеры #языковые_модели #искусственный_интеллект #машинное_обучение

  44. Анатомия трансформеров: почему обычный Self-Attention больше не используют

    Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value , но далеко не все понимают их физический смысл. Почему мы вообще умножаем ключи на запросы и причем тут «внимание»? Я предлагаю разобрать работу трансформеров на интуитивно понятном примере «ржавого ключа», чтобы увидеть, как именно слова передают друг другу смысл и формируют контекст.

    habr.com/ru/articles/986140/

    #трансформеры #языковые_модели #искусственный_интеллект #машинное_обучение

  45. Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

    Эксперимент по хирургическому удалению слоёв из языковой модели Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity. Результаты: • Удаление 1 среднего слоя: +10% скорость, -4% качество • Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество • Удаление первого слоя: модель полностью ломается Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении). Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.

    habr.com/ru/articles/983636/

    #LLM #Large_Language_Models #Layer_Pruning #оптимизация_нейросетей #TinyLlama #PyTorch #inference_optimization #трансформеры #ускорение_моделей #ShortGPT

  46. Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

    Эксперимент по хирургическому удалению слоёв из языковой модели Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity. Результаты: • Удаление 1 среднего слоя: +10% скорость, -4% качество • Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество • Удаление первого слоя: модель полностью ломается Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении). Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.

    habr.com/ru/articles/983636/

    #LLM #Large_Language_Models #Layer_Pruning #оптимизация_нейросетей #TinyLlama #PyTorch #inference_optimization #трансформеры #ускорение_моделей #ShortGPT

  47. Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

    Эксперимент по хирургическому удалению слоёв из языковой модели Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity. Результаты: • Удаление 1 среднего слоя: +10% скорость, -4% качество • Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество • Удаление первого слоя: модель полностью ломается Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении). Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.

    habr.com/ru/articles/983636/

    #LLM #Large_Language_Models #Layer_Pruning #оптимизация_нейросетей #TinyLlama #PyTorch #inference_optimization #трансформеры #ускорение_моделей #ShortGPT

  48. Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

    Эксперимент по хирургическому удалению слоёв из языковой модели Современные LLM переобучены — многие слои делают одно и то же. Я проверил эту гипотезу на практике: взял TinyLlama (1.1B параметров, 22 слоя) и измерил, как удаление каждого слоя влияет на perplexity. Результаты: • Удаление 1 среднего слоя: +10% скорость, -4% качество • Удаление 7 «безопасных» слоёв: +32% скорость, -2.5% качество • Удаление первого слоя: модель полностью ломается Неожиданно: Layer 2 важнее Layer 0 (perplexity +6.67 vs +3.92 при удалении). Статья с кодом на PyTorch, графиками и практическими рекомендациями — какие слои можно удалять для ускорения инференса.

    habr.com/ru/articles/983636/

    #LLM #Large_Language_Models #Layer_Pruning #оптимизация_нейросетей #TinyLlama #PyTorch #inference_optimization #трансформеры #ускорение_моделей #ShortGPT

  49. Нейро сети для самых маленьких

    Нейро сети для самых маленьких Каждый раз, когда вы говорите нейросети « Спасибо », вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная лампа за несколько секунд. Это первая статья из небольшого цикла, посвящённого сетям для AI/ML-кластеров и HPC. В этой серии мы коснёмся принципов работы и обучения моделей, параллелизации, технологий DMA и RDMA, сетевых топологий, InfiniBand и RoCE, а ещё пофилософствуем на тему общих и специальных решений. Конкретно в этой статье мы разберёмся, что представляет из себя нейросеть, как она работает, как происходит её обучение, а самое главное, почему для неё нужны сотни дорогущих GPU-карточек и какая-то особенная сеть. Рефрен сегодняшней истории: в нейросетях нет никакой магии — это просто множество простых операций над числами, которые выполняются на компьютерах со специальными чипами. Магии нет ни в том, как они работают, ни в той инфраструктуре, на которой они запускаются. Ныряем!

    habr.com/ru/articles/982820/

    #ai #ml #roce #infiniband #трансформеры #нейросети #llm #mlp #backpropagation

  50. Нейро сети для самых маленьких

    Нейро сети для самых маленьких Каждый раз, когда вы говорите нейросети « Спасибо », вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная лампа за несколько секунд. Это первая статья из небольшого цикла, посвящённого сетям для AI/ML-кластеров и HPC. В этой серии мы коснёмся принципов работы и обучения моделей, параллелизации, технологий DMA и RDMA, сетевых топологий, InfiniBand и RoCE, а ещё пофилософствуем на тему общих и специальных решений. Конкретно в этой статье мы разберёмся, что представляет из себя нейросеть, как она работает, как происходит её обучение, а самое главное, почему для неё нужны сотни дорогущих GPU-карточек и какая-то особенная сеть. Рефрен сегодняшней истории: в нейросетях нет никакой магии — это просто множество простых операций над числами, которые выполняются на компьютерах со специальными чипами. Магии нет ни в том, как они работают, ни в той инфраструктуре, на которой они запускаются. Ныряем!

    habr.com/ru/articles/982820/

    #ai #ml #roce #infiniband #трансформеры #нейросети #llm #mlp #backpropagation