home.social

#подготовка_данных — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #подготовка_данных, aggregated by home.social.

  1. Менеджер данных: как новая роль изменила подход к работе с ML

    Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.

    habr.com/ru/companies/2gis/art

    #разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it

  2. Менеджер данных: как новая роль изменила подход к работе с ML

    Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.

    habr.com/ru/companies/2gis/art

    #разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it

  3. Менеджер данных: как новая роль изменила подход к работе с ML

    Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.

    habr.com/ru/companies/2gis/art

    #разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it

  4. Менеджер данных: как новая роль изменила подход к работе с ML

    Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.

    habr.com/ru/companies/2gis/art

    #разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it

  5. Есть ли жизнь до fit/predict?

    Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй план: чем больше данных/параметров, тем лучше. Однако экстенсивный рост рано или поздно упирается в ограничения, когда становится уже слишком дорого/невозможно его продолжать. Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой. Здесь я расскажу о некоторых из таких методов, которые использовались в процессе подготовки данных.

    habr.com/ru/companies/mts_ai/a

    #nlp #dataset_cartography #vinformation #deduplication #d4 #semdedup #sslprototypes #data_quality #dataset_difficulty #подготовка_данных

  6. Как мы собираем данные для обучения Kandinsky

    Всем привет! Наша команда в Sber AI занимается генеративными моделями и сегодня мы расскажем про очень важный этап разработки моделей для генерации фотореалистичных изображений и видео — процесс сбора и фильтрации данных. Про этот этап очень редко подробно рассказывают разработчики и исследователи таких известных генеративных моделей как DALL-E 3, Stable Diffusion, MidJourney или SORA. Генеративные модели уже многих впечатлили своими возможностями создавать максимально реалистичные изображения и видеоролики, а качественные данные — далеко не последняя причина, по которой такого качества генераций удалось достичь.

    habr.com/ru/companies/sberbank

    #подготовка_данных #kandinsky #data_engineering