#разметка — Public Fediverse posts on home.social

Habr @[email protected] · 2025-10-30 · 09:52 UTC

Как собрать датасет фотографий с помощью LLM: опыт вайб-фильтров

Можно ли объяснить модели, что такое «уютно», «романтично» или «пофоткаться»? Мы попробовали — и оказалось, что даже самые субъективные ощущения можно превратить в метрику. В этой статье рассказываем, как с помощью мультимоделей, промптов и немного магии мы собрали датасеты, обучили классификаторы и научились ловить вайбы на фотографиях кафе и ресторанов. Узнать про вайбы

https://habr.com/ru/companies/2gis/articles/960016/

#ai #2гис #разметка #llmмодели #нейросети #обучение_llm

#обучение_llm #нейросети #llmмодели #разметка #2гис #ai

Habr @[email protected] · 2025-10-30 · 09:52 UTC

Как собрать датасет фотографий с помощью LLM: опыт вайб-фильтров

Можно ли объяснить модели, что такое «уютно», «романтично» или «пофоткаться»? Мы попробовали — и оказалось, что даже самые субъективные ощущения можно превратить в метрику. В этой статье рассказываем, как с помощью мультимоделей, промптов и немного магии мы собрали датасеты, обучили классификаторы и научились ловить вайбы на фотографиях кафе и ресторанов. Узнать про вайбы

https://habr.com/ru/companies/2gis/articles/960016/

#ai #2гис #разметка #llmмодели #нейросети #обучение_llm

#обучение_llm #нейросети #llmмодели #разметка #2гис #ai

Habr @[email protected] · 2025-10-30 · 09:52 UTC

Как собрать датасет фотографий с помощью LLM: опыт вайб-фильтров

Можно ли объяснить модели, что такое «уютно», «романтично» или «пофоткаться»? Мы попробовали — и оказалось, что даже самые субъективные ощущения можно превратить в метрику. В этой статье рассказываем, как с помощью мультимоделей, промптов и немного магии мы собрали датасеты, обучили классификаторы и научились ловить вайбы на фотографиях кафе и ресторанов. Узнать про вайбы

https://habr.com/ru/companies/2gis/articles/960016/

#ai #2гис #разметка #llmмодели #нейросети #обучение_llm

#обучение_llm #нейросети #llmмодели #разметка #2гис #ai

Habr @[email protected] · 2025-10-30 · 09:52 UTC

Как собрать датасет фотографий с помощью LLM: опыт вайб-фильтров

Можно ли объяснить модели, что такое «уютно», «романтично» или «пофоткаться»? Мы попробовали — и оказалось, что даже самые субъективные ощущения можно превратить в метрику. В этой статье рассказываем, как с помощью мультимоделей, промптов и немного магии мы собрали датасеты, обучили классификаторы и научились ловить вайбы на фотографиях кафе и ресторанов. Узнать про вайбы

https://habr.com/ru/companies/2gis/articles/960016/

#ai #2гис #разметка #llmмодели #нейросети #обучение_llm

Habr @[email protected] · 2025-10-23 · 11:12 UTC

Как мы размечаем shoppable-контент

Недавно ВКонтакте запустила новый формат контента — шопсы. Это публикации с карточками товаров или ссылками, по которым можно быстро оформить покупку. Формат появился не с нуля: в соцсети уже давно органически росла доля публикаций, где в кадре так или иначе фигурировали какие-то товары. Однако не каждая такая единица контента способна стимулировать к покупке. Как выявить нужный и сделать так, чтобы человек видел не просто красивую картинку с товаром, а интересный, кликабельный и вовлекающий контент, который действительно ведёт к покупке? Ответ — в правильной разметке. В этой статье расскажем, как мы искали оптимальное определение shoppable, как работает наш классификатор, зачем мы подключили генеративные модели и каких результатов уже добились. Материал подготовили Святослав Васильев, менеджер продукта ВКонтакте, и Кирилл Мамонов, руководитель предиктивной аналитики AI VK.

https://habr.com/ru/companies/vk/articles/959076/

#контент #ds #llm #краудсорсинг #разметка #shoppable #шопсы #товар #описание

#описание #товар #шопсы #shoppable #разметка #краудсорсинг

Habr @[email protected] · 2025-10-21 · 19:52 UTC

Эксперимент: генерация веб-форм для 1С по текстовому описанию

Привет, хабр! В прошлой статье мы говорили о применении языков разметки для описания графических артефактов, идее языка разметки для аналитиков и приложении для генерации макетов UI и BPMN схем. В сегодняшней статье хочу рассказать об эволюции экспериментов с разметкой и поделиться опытом разработки генератора веб форм для 1С, который позволяет прототипировать и запускать автоматизацию бизнес процессов, эмулируя работу пользователя с ТСД.

https://habr.com/ru/articles/952114/

#конструктор_приложений #петпроект #формы #дизайн #анализ_и_проектирование_систем #разметка

#разметка #анализ_и_проектирование_систем #дизайн #формы #петпроект #конструктор_приложений

Habr @[email protected] · 2025-10-21 · 19:52 UTC

Эксперимент: генерация веб-форм для 1С по текстовому описанию

Привет, хабр! В прошлой статье мы говорили о применении языков разметки для описания графических артефактов, идее языка разметки для аналитиков и приложении для генерации макетов UI и BPMN схем. В сегодняшней статье хочу рассказать об эволюции экспериментов с разметкой и поделиться опытом разработки генератора веб форм для 1С, который позволяет прототипировать и запускать автоматизацию бизнес процессов, эмулируя работу пользователя с ТСД.

https://habr.com/ru/articles/952114/

#конструктор_приложений #петпроект #формы #дизайн #анализ_и_проектирование_систем #разметка

#разметка #анализ_и_проектирование_систем #дизайн #формы #петпроект #конструктор_приложений

Habr @[email protected] · 2025-10-21 · 19:52 UTC

Эксперимент: генерация веб-форм для 1С по текстовому описанию

Привет, хабр! В прошлой статье мы говорили о применении языков разметки для описания графических артефактов, идее языка разметки для аналитиков и приложении для генерации макетов UI и BPMN схем. В сегодняшней статье хочу рассказать об эволюции экспериментов с разметкой и поделиться опытом разработки генератора веб форм для 1С, который позволяет прототипировать и запускать автоматизацию бизнес процессов, эмулируя работу пользователя с ТСД.

https://habr.com/ru/articles/952114/

#конструктор_приложений #петпроект #формы #дизайн #анализ_и_проектирование_систем #разметка

#разметка #анализ_и_проектирование_систем #дизайн #формы #петпроект #конструктор_приложений

Habr @[email protected] · 2025-10-21 · 19:52 UTC

Эксперимент: генерация веб-форм для 1С по текстовому описанию

Привет, хабр! В прошлой статье мы говорили о применении языков разметки для описания графических артефактов, идее языка разметки для аналитиков и приложении для генерации макетов UI и BPMN схем. В сегодняшней статье хочу рассказать об эволюции экспериментов с разметкой и поделиться опытом разработки генератора веб форм для 1С, который позволяет прототипировать и запускать автоматизацию бизнес процессов, эмулируя работу пользователя с ТСД.

https://habr.com/ru/articles/952114/

#конструктор_приложений #петпроект #формы #дизайн #анализ_и_проектирование_систем #разметка

Habr @[email protected] · 2025-09-26 · 11:12 UTC

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать.

https://habr.com/ru/articles/950874/

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm #ллм #картинки #разметка_данных #разметка

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm

Habr @[email protected] · 2025-09-26 · 11:12 UTC

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать.

https://habr.com/ru/articles/950874/

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm #ллм #картинки #разметка_данных #разметка

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm

Habr @[email protected] · 2025-09-26 · 11:12 UTC

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать.

https://habr.com/ru/articles/950874/

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm #ллм #картинки #разметка_данных #разметка

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm

Habr @[email protected] · 2025-09-26 · 11:12 UTC

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать.

https://habr.com/ru/articles/950874/

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm #ллм #картинки #разметка_данных #разметка

#разметка #разметка_данных #картинки #ллм #llm #мультимодальность

Habr @[email protected] · 2025-09-02 · 08:12 UTC

События, которым можно доверять: выстраивание процесса работы с разметкой приложения с точки зрения аналитика

Привет! Меня зовут Николай Олигеров. Сейчас я работаю аналитиком данных в Яндекс Путешествиях, а до этого я был продуктовым аналитиком в Лавке — мой рассказ будет именно про неё. В какой‑то момент мы поняли, что больше не можем доверять своей событийной аналитике: события дублировались, параметры терялись, триггеры срабатывали не тогда, когда нужно. В статье расскажу, как мы полностью пересобрали систему разметки приложения Лавки: с автотестами, документацией, мониторингами и прозрачным процессом, где аналитики и разработка работают вместе.

https://habr.com/ru/companies/yandex/articles/940728/

#аналитика_мобильных_приложений #разметка #событийная_аналитика #мобильная_разработка #аналитика

#аналитика #мобильная_разработка #событийная_аналитика #разметка #аналитика_мобильных_приложений

Habr @[email protected] · 2024-10-03 · 10:22 UTC

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео. В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно. И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке. Давайте разбираться.

https://habr.com/ru/articles/847780/

#cv #markup #labeling #labeling_tool #разметка #разметка_данных #разметка_датасета #компьютерное_зрение #gigachat #сбор_данных

#сбор_данных #gigachat #компьютерное_зрение #разметка_датасета #разметка_данных #разметка

Habr @[email protected] · 2024-10-03 · 10:22 UTC

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео. В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно. И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке. Давайте разбираться.

https://habr.com/ru/articles/847780/

#cv #markup #labeling #labeling_tool #разметка #разметка_данных #разметка_датасета #компьютерное_зрение #gigachat #сбор_данных

#сбор_данных #gigachat #компьютерное_зрение #разметка_датасета #разметка_данных #разметка

Habr @[email protected] · 2024-10-03 · 10:22 UTC

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео. В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно. И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке. Давайте разбираться.

https://habr.com/ru/articles/847780/

#cv #markup #labeling #labeling_tool #разметка #разметка_данных #разметка_датасета #компьютерное_зрение #gigachat #сбор_данных

#cv #markup #labeling #labeling_tool #разметка #разметка_данных

Habr @[email protected] · 2024-09-30 · 06:02 UTC

Corner-кейсы в разработке и разметке данных: что это такое, как с этим жить и при чем тут Достоевский?

Изначально я писал с прицелом на разметку, но все написанное оказалось легко перекладываемо и на разработу софта, да и вообще на любые сложные процессы. На обложке — главный corner-case всея Руси от Достоевского. Про такое в общем смысле и поговорим.

https://habr.com/ru/articles/846932/

#ai #ии #ии_и_машинное_обучение #машинное+обучение #разметка #разметка_данных #разметка_датасета #cv #labeling_tool

#labeling_tool #cv #разметка_датасета #разметка_данных #разметка #машинное

Habr @[email protected] · 2024-09-30 · 06:02 UTC

Corner-кейсы в разработке и разметке данных: что это такое, как с этим жить и при чем тут Достоевский?

Изначально я писал с прицелом на разметку, но все написанное оказалось легко перекладываемо и на разработу софта, да и вообще на любые сложные процессы. На обложке — главный corner-case всея Руси от Достоевского. Про такое в общем смысле и поговорим.

https://habr.com/ru/articles/846932/

#ai #ии #ии_и_машинное_обучение #машинное+обучение #разметка #разметка_данных #разметка_датасета #cv #labeling_tool

#labeling_tool #cv #разметка_датасета #разметка_данных #разметка #машинное

Habr @[email protected] · 2024-09-30 · 06:02 UTC

Corner-кейсы в разработке и разметке данных: что это такое, как с этим жить и при чем тут Достоевский?

Изначально я писал с прицелом на разметку, но все написанное оказалось легко перекладываемо и на разработу софта, да и вообще на любые сложные процессы. На обложке — главный corner-case всея Руси от Достоевского. Про такое в общем смысле и поговорим.

https://habr.com/ru/articles/846932/

#ai #ии #ии_и_машинное_обучение #машинное+обучение #разметка #разметка_данных #разметка_датасета #cv #labeling_tool

#ai #ии #ии_и_машинное_обучение #машинное #разметка #разметка_данных

Habr @[email protected] · 2024-09-05 · 10:52 UTC

Sapiens: фундаментальная CV-модель для задач с людьми

Почти две недели назад из недр одной из самых прорывных AI лабораторий мира вышла новая классная модель (а точнее — семейство моделей) компьютерного зрения, но данная новость в русскоязычном интернете прошла будто бы без энтузиазма. А зря — штука довольно хороша. Итак, у нас есть семейство моделей, которое из коробки поможет решить «четыре фундаментальные задачи человека в CV» (цитата авторов) и давайте посмотрим, что же там есть есть и как это работает. Скажу сразу, что мне хотелось написать скорее напоминательно-обзорный пост о том, что такая модель вообще вышла и чего ожидать от нее в дальнейшем. В живых проектах мы пока это не использовали (но однозначно будем) и свой большой обзор писать рановато, но я поигрался с демками и да — результаты повторяемы. Технических деталей будет минимум — пейпер хорош и не стоит лишать удовольствия его прочитать самому целиком, особенно, если вы занимаетесь похожими задачами.

https://habr.com/ru/articles/841058/

#cv #computer_vision #компьютерное_зрение #open_source #разметка #разметка_данных #разметка_изображений #ии #ai #data_mining

#data_mining #ai #ии #разметка_изображений #разметка_данных #разметка

Habr @[email protected] · 2024-08-05 · 06:52 UTC

Разбор SAM2 через колено в голову или революция в разметке видео

На днях вышла новая версия модели для сегментации видео - SAM2, которая не только стала быстрее выше сильнее предшественника, но и нацелилась поменять разметку видео также, как с картинками это проделала первая версия модели. Оригинальную SAM мы используем для разметки в достаточно промышленных масштабах (в том числе и для видео), и потому пройти мимо препарирования SAM2 было невозможно, но так как модель уже по верхам разобрали в тг-каналах, пейпер хорош, а то, что модель феноменальна - понятно без слов, то я постараюсь поглубже разобрать подготовку датасета/разметку и саму модель именно на сложных примерах с моими комментариями. Легкое чтиво и много гифок — самое то для бодрого старта понедельничка!

https://habr.com/ru/articles/833692/

#компьютерное_зрение #ии #ai #cv #разметка_данных #разметка #датасет #разметка_изображений #data_mining #computer_vision

#computer_vision #data_mining #разметка_изображений #датасет #разметка #разметка_данных

Habr @[email protected] · 2024-07-30 · 14:22 UTC

Бот в блокноте — как я написал конструктор Телеграм-ботов для гуманитариев

Если вы когда-либо мечтали создать своего Телеграм-бота, но вас пугали технические сложности и необходимость программирования или рисования блок-схем, то у меня для вас отличные новости. Представляю вам Бот в блокноте — конструктор Телеграм-ботов, который я разработал специально для тех, кто далёк от мира IT, но хочет легко и быстро создать своего бота. В отличие от традиционных конструкторов с блок-схемами, я предлагаю более гибкий и удобный способ работы. Блок-схемы могут быть сложными и запутанными, особенно когда проект становится большим.

https://habr.com/ru/articles/832570/

#телеграм #телеграмбот #телеграмботы #конструктор #визуальное_программирование #разметка

#разметка #визуальное_программирование #конструктор #телеграмботы #телеграмбот #телеграм

Habr @[email protected] · 2024-07-24 · 09:02 UTC

[Перевод] Что такое supervised fine-tuning?

Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных. В процессе SFT предварительно обученные LLM подвергаются fine-tuning на основе размеченного датасета при помощи методик обучения с учителем. Веса модели выравниваются на основании градиентов, полученных из функции потерь конкретной задачи, измеряющей разность между прогнозами LLM и эталонной разметкой. Этот процесс позволяет модели обучаться паттернам и нюансам конкретной задачи, адаптируя её параметры в соответствии с распределением конкретных данных и требований задачи. SFT, обычно выполняемый после предварительного обучения модели, применяется для того, чтобы научить модель следовать переданным пользователем инструкциям. Он более вычислительно затратен, чем fine-tuning без учителя, но и имеет больше шансов достичь повышенной точности. Объём необходимого дообучения зависит от сложности задачи и размера датасета. В случае простого переноса стиля с использованием моделей OpenAI наподобие GPT-3.5 или GPT-4 для получения превосходных результатов обычно достаточно 30-50 высококачественных примеров. Чтобы преобразовать базовую Large Language Model (LLM) в выполняющую инструкции LLM (например, превратить Mistral в Mistral Instruct), обычно требуется обучение на десятках тысяч примеров. Дообучение Zephyr 7b выполнялось на 16 GPU Nvidia A100 в течение примерно четырёх часов. Это можно считать примером отправной точки для модели с 7 миллиардами параметров.

https://habr.com/ru/articles/829318/

#Машинное_обучение #LLM #finetuning #Трансферное_обучение #LoRA #QLoRA #SFT #Supervised_finetuning #датасет #размета_данных #dataset #данные #data #разметка

#разметка #data #данные #dataset #размета_данных #датасет

Habr @[email protected] · 2024-07-24 · 09:02 UTC

[Перевод] Что такое supervised fine-tuning?

Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных. В процессе SFT предварительно обученные LLM подвергаются fine-tuning на основе размеченного датасета при помощи методик обучения с учителем. Веса модели выравниваются на основании градиентов, полученных из функции потерь конкретной задачи, измеряющей разность между прогнозами LLM и эталонной разметкой. Этот процесс позволяет модели обучаться паттернам и нюансам конкретной задачи, адаптируя её параметры в соответствии с распределением конкретных данных и требований задачи. SFT, обычно выполняемый после предварительного обучения модели, применяется для того, чтобы научить модель следовать переданным пользователем инструкциям. Он более вычислительно затратен, чем fine-tuning без учителя, но и имеет больше шансов достичь повышенной точности. Объём необходимого дообучения зависит от сложности задачи и размера датасета. В случае простого переноса стиля с использованием моделей OpenAI наподобие GPT-3.5 или GPT-4 для получения превосходных результатов обычно достаточно 30-50 высококачественных примеров. Чтобы преобразовать базовую Large Language Model (LLM) в выполняющую инструкции LLM (например, превратить Mistral в Mistral Instruct), обычно требуется обучение на десятках тысяч примеров. Дообучение Zephyr 7b выполнялось на 16 GPU Nvidia A100 в течение примерно четырёх часов. Это можно считать примером отправной точки для модели с 7 миллиардами параметров.

https://habr.com/ru/articles/829318/

#Машинное_обучение #LLM #finetuning #Трансферное_обучение #LoRA #QLoRA #SFT #Supervised_finetuning #датасет #размета_данных #dataset #данные #data #разметка

#разметка #data #данные #dataset #размета_данных #датасет

Habr @[email protected] · 2024-07-24 · 09:02 UTC

[Перевод] Что такое supervised fine-tuning?

Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных. В процессе SFT предварительно обученные LLM подвергаются fine-tuning на основе размеченного датасета при помощи методик обучения с учителем. Веса модели выравниваются на основании градиентов, полученных из функции потерь конкретной задачи, измеряющей разность между прогнозами LLM и эталонной разметкой. Этот процесс позволяет модели обучаться паттернам и нюансам конкретной задачи, адаптируя её параметры в соответствии с распределением конкретных данных и требований задачи. SFT, обычно выполняемый после предварительного обучения модели, применяется для того, чтобы научить модель следовать переданным пользователем инструкциям. Он более вычислительно затратен, чем fine-tuning без учителя, но и имеет больше шансов достичь повышенной точности. Объём необходимого дообучения зависит от сложности задачи и размера датасета. В случае простого переноса стиля с использованием моделей OpenAI наподобие GPT-3.5 или GPT-4 для получения превосходных результатов обычно достаточно 30-50 высококачественных примеров. Чтобы преобразовать базовую Large Language Model (LLM) в выполняющую инструкции LLM (например, превратить Mistral в Mistral Instruct), обычно требуется обучение на десятках тысяч примеров. Дообучение Zephyr 7b выполнялось на 16 GPU Nvidia A100 в течение примерно четырёх часов. Это можно считать примером отправной точки для модели с 7 миллиардами параметров.

https://habr.com/ru/articles/829318/

#Машинное_обучение #LLM #finetuning #Трансферное_обучение #LoRA #QLoRA #SFT #Supervised_finetuning #датасет #размета_данных #dataset #данные #data #разметка

#машинное_обучение #llm #finetuning #трансферное_обучение #lora #qlora

Habr @[email protected] · 2024-07-23 · 09:02 UTC

[Перевод] Как с помощью supervised fine-tuning кастомизировать LLM

В быстро развивающейся сфере Natural Language Processing (NLP) fine-tuning стал мощным и эффективным инструментом адаптации предварительно обученных больших языковых моделей (Large Language Model, LLM) под конкретные задачи. Предварительно обученные LLM (например, семейство GPT) продемонстрировали существенный прогресс в понимании и генерации языка. Однако эти предварительно обученные модели обычно учатся на огромных объёмах текстовых данных при помощи обучения без учителя и могут быть не оптимизированы под узкую задачу. Fine-tuning позволяет закрыть этот пробел, воспользовавшись преимуществами общего понимания языка, полученными во время предварительного обучения, и адаптировав их к целевой задаче при помощи обучения с учителем. Благодаря fine-tuning предварительно обученной модели на специфичном для задачи датасете разработчики NLP могут достигать впечатляющих результатов с гораздо меньшим объёмом данных обучения и вычислительных ресурсов, чем при обучении модели с нуля. В частности, для LLM fine-tuning крайне важен, так как повторное обучение на всём объёме данных вычислительно слишком затратно. Сравнение предварительного обучения LLM и fine-tuning Успех fine-tuning привёл ко множеству передовых результатов в широком спектре задач NLP и сделал его стандартной практикой в разработке высокоточных языковых моделей. Исследователи и практики продолжают исследовать варианты и оптимизации методик fine-tuning, чтобы ещё больше расширить возможности NLP. В этой статье мы глубже изучим процесс fine-tuning LLM на основе инструкций при помощи библиотеки transformers двумя разными способами: просто с библиотекой transformers и с модулем trl .

https://habr.com/ru/articles/829324/

#Машинное_обучение #LLM #Finetuning #SFT #Supervised_finetuning #NLP #Large_Language_Model #датасет #размета_данных #dataset #данные #data #разметка

#разметка #data #данные #dataset #размета_данных #датасет

Habr @[email protected] · 2024-07-23 · 09:02 UTC

[Перевод] Как с помощью supervised fine-tuning кастомизировать LLM

В быстро развивающейся сфере Natural Language Processing (NLP) fine-tuning стал мощным и эффективным инструментом адаптации предварительно обученных больших языковых моделей (Large Language Model, LLM) под конкретные задачи. Предварительно обученные LLM (например, семейство GPT) продемонстрировали существенный прогресс в понимании и генерации языка. Однако эти предварительно обученные модели обычно учатся на огромных объёмах текстовых данных при помощи обучения без учителя и могут быть не оптимизированы под узкую задачу. Fine-tuning позволяет закрыть этот пробел, воспользовавшись преимуществами общего понимания языка, полученными во время предварительного обучения, и адаптировав их к целевой задаче при помощи обучения с учителем. Благодаря fine-tuning предварительно обученной модели на специфичном для задачи датасете разработчики NLP могут достигать впечатляющих результатов с гораздо меньшим объёмом данных обучения и вычислительных ресурсов, чем при обучении модели с нуля. В частности, для LLM fine-tuning крайне важен, так как повторное обучение на всём объёме данных вычислительно слишком затратно. Сравнение предварительного обучения LLM и fine-tuning Успех fine-tuning привёл ко множеству передовых результатов в широком спектре задач NLP и сделал его стандартной практикой в разработке высокоточных языковых моделей. Исследователи и практики продолжают исследовать варианты и оптимизации методик fine-tuning, чтобы ещё больше расширить возможности NLP. В этой статье мы глубже изучим процесс fine-tuning LLM на основе инструкций при помощи библиотеки transformers двумя разными способами: просто с библиотекой transformers и с модулем trl .

https://habr.com/ru/articles/829324/

#Машинное_обучение #LLM #Finetuning #SFT #Supervised_finetuning #NLP #Large_Language_Model #датасет #размета_данных #dataset #данные #data #разметка

#разметка #data #данные #dataset #размета_данных #датасет

Habr @[email protected] · 2024-07-23 · 09:02 UTC

[Перевод] Как с помощью supervised fine-tuning кастомизировать LLM

В быстро развивающейся сфере Natural Language Processing (NLP) fine-tuning стал мощным и эффективным инструментом адаптации предварительно обученных больших языковых моделей (Large Language Model, LLM) под конкретные задачи. Предварительно обученные LLM (например, семейство GPT) продемонстрировали существенный прогресс в понимании и генерации языка. Однако эти предварительно обученные модели обычно учатся на огромных объёмах текстовых данных при помощи обучения без учителя и могут быть не оптимизированы под узкую задачу. Fine-tuning позволяет закрыть этот пробел, воспользовавшись преимуществами общего понимания языка, полученными во время предварительного обучения, и адаптировав их к целевой задаче при помощи обучения с учителем. Благодаря fine-tuning предварительно обученной модели на специфичном для задачи датасете разработчики NLP могут достигать впечатляющих результатов с гораздо меньшим объёмом данных обучения и вычислительных ресурсов, чем при обучении модели с нуля. В частности, для LLM fine-tuning крайне важен, так как повторное обучение на всём объёме данных вычислительно слишком затратно. Сравнение предварительного обучения LLM и fine-tuning Успех fine-tuning привёл ко множеству передовых результатов в широком спектре задач NLP и сделал его стандартной практикой в разработке высокоточных языковых моделей. Исследователи и практики продолжают исследовать варианты и оптимизации методик fine-tuning, чтобы ещё больше расширить возможности NLP. В этой статье мы глубже изучим процесс fine-tuning LLM на основе инструкций при помощи библиотеки transformers двумя разными способами: просто с библиотекой transformers и с модулем trl .

https://habr.com/ru/articles/829324/

#Машинное_обучение #LLM #Finetuning #SFT #Supervised_finetuning #NLP #Large_Language_Model #датасет #размета_данных #dataset #данные #data #разметка

#машинное_обучение #llm #finetuning #sft #supervised_finetuning #nlp

Habr @[email protected] · 2024-07-22 · 07:52 UTC

[Перевод] Supervised Fine-Tuning: как настроить LLM под конкретную задачу?

Пожалуй, для адаптации больших языковых моделей (large language model, LLM) под чётко очерченные задачи обработки естественного языка (natural language processing, NLP) нет технологии лучше, чем SFT (supervised fine-tuning). Для дообучения модели её необходимо предварительно обучить, а это означает, что она уже многому научилась из широкого спектра текстов. Но можно ли после одного лишь предварительного обучения использовать модель в различных типах задач? Да, но ей всё равно будет не хватать совершенствования при помощи SFT, чтобы она действительно могла выполнять требуемые действия и стала опытной в определённой сфере знаний.

https://habr.com/ru/articles/829936/

#Машинное_обучение #supervised_finetuning #SFT #LLM #NLP #RAG #Instruction_finetuning #датасет #размета_данных #dataset #данные #data #разметка

#разметка #data #данные #dataset #размета_данных #датасет

Habr @[email protected] · 2024-07-22 · 07:52 UTC

[Перевод] Supervised Fine-Tuning: как настроить LLM под конкретную задачу?

Пожалуй, для адаптации больших языковых моделей (large language model, LLM) под чётко очерченные задачи обработки естественного языка (natural language processing, NLP) нет технологии лучше, чем SFT (supervised fine-tuning). Для дообучения модели её необходимо предварительно обучить, а это означает, что она уже многому научилась из широкого спектра текстов. Но можно ли после одного лишь предварительного обучения использовать модель в различных типах задач? Да, но ей всё равно будет не хватать совершенствования при помощи SFT, чтобы она действительно могла выполнять требуемые действия и стала опытной в определённой сфере знаний.

https://habr.com/ru/articles/829936/

#Машинное_обучение #supervised_finetuning #SFT #LLM #NLP #RAG #Instruction_finetuning #датасет #размета_данных #dataset #данные #data #разметка

#разметка #data #данные #dataset #размета_данных #датасет

Habr @[email protected] · 2024-07-22 · 07:52 UTC

[Перевод] Supervised Fine-Tuning: как настроить LLM под конкретную задачу?

Пожалуй, для адаптации больших языковых моделей (large language model, LLM) под чётко очерченные задачи обработки естественного языка (natural language processing, NLP) нет технологии лучше, чем SFT (supervised fine-tuning). Для дообучения модели её необходимо предварительно обучить, а это означает, что она уже многому научилась из широкого спектра текстов. Но можно ли после одного лишь предварительного обучения использовать модель в различных типах задач? Да, но ей всё равно будет не хватать совершенствования при помощи SFT, чтобы она действительно могла выполнять требуемые действия и стала опытной в определённой сфере знаний.

https://habr.com/ru/articles/829936/

#Машинное_обучение #supervised_finetuning #SFT #LLM #NLP #RAG #Instruction_finetuning #датасет #размета_данных #dataset #данные #data #разметка

#машинное_обучение #supervised_finetuning #sft #llm #nlp #rag

Habr @[email protected] · 2024-07-22 · 06:32 UTC

Разметка данных — тренируемся на кошках

Погружаясь все глубже в процессы автоматизации в какой то момент ты сталкиваешься с необходимостью разметки данных, хотя буквально пару недель назад, словосочетания - разметка данных и ты, стояли на вечеренике под названием "Заработок в интернетах" в разных комнатах, вернее ты стоял около бассейна, а разметка данных была на третьем этаже, курила на балконе со специалистами в области машинного обучения. Как мы встретились? Вероятно кто-то столкнул ее с балкона в бассейн, а я помог ей выбраться, попутно замочив и свою одежду. И вот, вы сидите на кухне, курите одну сигарету на двоих и пытаетесь разобраться, чем каждый из вас занимается, и как вы можете быть друг другу полезными? В общем не так важно, для чего мне это понадобилось, но тот факт, что у меня это получилось намного интереснее. И теперь, когда вам уже достаточно душно (или нет), переходим к сути.

https://habr.com/ru/articles/829710/

#разметка #разметка_данных #датасет #разметка_датасета #разметка_изображений #разметка_фотографий

#разметка_фотографий #разметка_изображений #разметка_датасета #датасет #разметка_данных #разметка

Habr @[email protected] · 2024-07-22 · 06:32 UTC

Разметка данных — тренируемся на кошках

Погружаясь все глубже в процессы автоматизации в какой то момент ты сталкиваешься с необходимостью разметки данных, хотя буквально пару недель назад, словосочетания - разметка данных и ты, стояли на вечеренике под названием "Заработок в интернетах" в разных комнатах, вернее ты стоял около бассейна, а разметка данных была на третьем этаже, курила на балконе со специалистами в области машинного обучения. Как мы встретились? Вероятно кто-то столкнул ее с балкона в бассейн, а я помог ей выбраться, попутно замочив и свою одежду. И вот, вы сидите на кухне, курите одну сигарету на двоих и пытаетесь разобраться, чем каждый из вас занимается, и как вы можете быть друг другу полезными? В общем не так важно, для чего мне это понадобилось, но тот факт, что у меня это получилось намного интереснее. И теперь, когда вам уже достаточно душно (или нет), переходим к сути.

https://habr.com/ru/articles/829710/

#разметка #разметка_данных #датасет #разметка_датасета #разметка_изображений #разметка_фотографий

#разметка_фотографий #разметка_изображений #разметка_датасета #датасет #разметка_данных #разметка

Habr @[email protected] · 2024-07-22 · 06:32 UTC

Разметка данных — тренируемся на кошках

Погружаясь все глубже в процессы автоматизации в какой то момент ты сталкиваешься с необходимостью разметки данных, хотя буквально пару недель назад, словосочетания - разметка данных и ты, стояли на вечеренике под названием "Заработок в интернетах" в разных комнатах, вернее ты стоял около бассейна, а разметка данных была на третьем этаже, курила на балконе со специалистами в области машинного обучения. Как мы встретились? Вероятно кто-то столкнул ее с балкона в бассейн, а я помог ей выбраться, попутно замочив и свою одежду. И вот, вы сидите на кухне, курите одну сигарету на двоих и пытаетесь разобраться, чем каждый из вас занимается, и как вы можете быть друг другу полезными? В общем не так важно, для чего мне это понадобилось, но тот факт, что у меня это получилось намного интереснее. И теперь, когда вам уже достаточно душно (или нет), переходим к сути.

https://habr.com/ru/articles/829710/

#разметка #разметка_данных #датасет #разметка_датасета #разметка_изображений #разметка_фотографий

Habr @[email protected] · 2024-07-01 · 07:52 UTC

GigaChat + RAG: как гига нам инструкции для разметки пишет в 3 раза быстрее

Почти за всем хорошим ML стоят хорошие данные. И так получилось, что таких данных часто нет и их приходится добывать, а даже добыв, из них нужно сделать что-то подходящее, и (если сильно огрубить) такой процесс называется разметкой. Разметка — такая штука, когда все в индустрии делают примерно одно и то же, но чуть-чуть или сильно по разному. Разметка — очень нудная штука сама по себе, и потому ее запуском, отладкой и настройкой инженеры заниматься вот совсем не любят. Сам процесс довольно монотонен, но когда у тебя мультимодальный конвейер из поступающих данных, то делать всяческие инструменты для разметки и предлагать инженерам решения без их участия — это весело! Одна из наших важнейших метрик, помимо качества результата, это позаимствованный у бизнеса термин ttm (time to market), что в нашем случае — время от момента прихода клиента с идеей по момент продуманного запуска его задачи в разметку. В этой статье — пошагово о том, как мы не только ускорили написание инструкций, но и даже попутно повысили их качество. Идея — гениально проста, рецепт — повторяем, эффект — огонь. Расчехляйте вашу LLM, закатайте рукава, тут есть много работки!

https://habr.com/ru/articles/825606/

#разметка #разметка_данных #разметка_датасета #большие_данные #llm #обработка_данных #искусственный_интеллект #rag #ai #ии

#ии #ai #rag #искусственный_интеллект #обработка_данных #llm

Habr @[email protected] · 2024-07-01 · 07:52 UTC

GigaChat + RAG: как гига нам инструкции для разметки пишет в 3 раза быстрее

Почти за всем хорошим ML стоят хорошие данные. И так получилось, что таких данных часто нет и их приходится добывать, а даже добыв, из них нужно сделать что-то подходящее, и (если сильно огрубить) такой процесс называется разметкой. Разметка — такая штука, когда все в индустрии делают примерно одно и то же, но чуть-чуть или сильно по разному. Разметка — очень нудная штука сама по себе, и потому ее запуском, отладкой и настройкой инженеры заниматься вот совсем не любят. Сам процесс довольно монотонен, но когда у тебя мультимодальный конвейер из поступающих данных, то делать всяческие инструменты для разметки и предлагать инженерам решения без их участия — это весело! Одна из наших важнейших метрик, помимо качества результата, это позаимствованный у бизнеса термин ttm (time to market), что в нашем случае — время от момента прихода клиента с идеей по момент продуманного запуска его задачи в разметку. В этой статье — пошагово о том, как мы не только ускорили написание инструкций, но и даже попутно повысили их качество. Идея — гениально проста, рецепт — повторяем, эффект — огонь. Расчехляйте вашу LLM, закатайте рукава, тут есть много работки!

https://habr.com/ru/articles/825606/

#разметка #разметка_данных #разметка_датасета #большие_данные #llm #обработка_данных #искусственный_интеллект #rag #ai #ии

#ии #ai #rag #искусственный_интеллект #обработка_данных #llm

Habr @[email protected] · 2024-07-01 · 07:52 UTC

GigaChat + RAG: как гига нам инструкции для разметки пишет в 3 раза быстрее

Почти за всем хорошим ML стоят хорошие данные. И так получилось, что таких данных часто нет и их приходится добывать, а даже добыв, из них нужно сделать что-то подходящее, и (если сильно огрубить) такой процесс называется разметкой. Разметка — такая штука, когда все в индустрии делают примерно одно и то же, но чуть-чуть или сильно по разному. Разметка — очень нудная штука сама по себе, и потому ее запуском, отладкой и настройкой инженеры заниматься вот совсем не любят. Сам процесс довольно монотонен, но когда у тебя мультимодальный конвейер из поступающих данных, то делать всяческие инструменты для разметки и предлагать инженерам решения без их участия — это весело! Одна из наших важнейших метрик, помимо качества результата, это позаимствованный у бизнеса термин ttm (time to market), что в нашем случае — время от момента прихода клиента с идеей по момент продуманного запуска его задачи в разметку. В этой статье — пошагово о том, как мы не только ускорили написание инструкций, но и даже попутно повысили их качество. Идея — гениально проста, рецепт — повторяем, эффект — огонь. Расчехляйте вашу LLM, закатайте рукава, тут есть много работки!

https://habr.com/ru/articles/825606/

#разметка #разметка_данных #разметка_датасета #большие_данные #llm #обработка_данных #искусственный_интеллект #rag #ai #ии

#разметка #разметка_данных #разметка_датасета #большие_данные #llm #обработка_данных

Habr @[email protected] · 2024-04-27 · 13:52 UTC

AI-тренер, нейровоспитатель, ассесор, крауд и разметчик — кто все эти люди и в чем разница?

Многие компании в последнее время ввели должность «ИИ-тренера» (AI-тренера), при этом просто разметчики/ассесоры никуда не делись. Что это — просто красивая обертка нейминга над тем же самыми или что-то концептуально новое? Давайте попробуем в этом разобраться и однозначно ответить на вопрос о различиях.

https://habr.com/ru/articles/811037/

#разметка #разметка_данных #разметка_датасета #большие_данные #ассессмент #обработка_данных #aiтренер #искусственный_интеллект #ai

#ai #искусственный_интеллект #aiтренер #обработка_данных #ассессмент #большие_данные

Habr @[email protected] · 2024-04-12 · 06:22 UTC

Заменят ли LLM людей в разметке данных для AI?

Привет! Использование ИИ в разметке данных для него же — уже скорее необходимая потребность, нежели что-то удивительно новое. Разного рода экспериментами с авторазметкой данных нейронками мы занимаемся последние полгода и результаты — нравятся. В данной статье я детально расскажу о нашем самом первом эксперименте с LLM в разметке данных для ИИ и proof-of-concept их годноты использования в реальных задачах, а в процессе попробую ответить на большой вопрос — так заменят ли LLM людей в разметке данных? Давайте вооружимся GigaChat, chatGPT, Gemini и начнем!

https://habr.com/ru/articles/807137/

#llm #большие_языковые_модели #большие_данные #разметка #разметка_данных #гигачат #ассессмент #обработка_данных #эксперименты #обработка_текста

#обработка_текста #эксперименты #обработка_данных #ассессмент #гигачат #разметка_данных

Habr @[email protected] · 2023-11-20 · 08:47 UTC

Приключение SAM в Японии или как компьютерное зрение видит гейшу

Привет! Мы занимаемся разметкой данных для ИИ: экспертно и с большой любовью. Прочитав статью вы узнаете как алгоритму отличить гейшу от китаянки, кто такая майко, как не перепутать лапшу с автобусом и правильно найти тунца. Практически сразу после выхода zero-shot модели SAM (Segment Anything Model) для компьютерного зрения мы с командой активно ее внедрили в свою платформу Элементари и стали использовали в разных задачах. Хочется поделиться опытом и ответить на самый популярный вопрос - насколько SAM ускоряет разметку данных? В статье будет очень много гифок и интерактива.

https://habr.com/ru/articles/774200/

#компьютерное_зрение #ии #ai #cv #разметка_данных #разметка #разметка_изображений #разметка_фотографий #data_mining #машинное_зрение