#подготовка_данных — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #подготовка_данных, aggregated by home.social.
-
Выходные — для развития: Пара открытых книг и ресурсов для (глубокого) погружения в инженерию данных
Недавно мы в
https://habr.com/ru/companies/beeline_cloud/articles/1014908/
#beeline_cloud #инженерия_данных #подготовка_данных #работа_с_данными #учебный_процесс
-
Менеджер данных: как новая роль изменила подход к работе с ML
Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.
https://habr.com/ru/companies/2gis/articles/877868/
#разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it
-
Менеджер данных: как новая роль изменила подход к работе с ML
Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.
https://habr.com/ru/companies/2gis/articles/877868/
#разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it
-
Менеджер данных: как новая роль изменила подход к работе с ML
Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.
https://habr.com/ru/companies/2gis/articles/877868/
#разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it
-
Менеджер данных: как новая роль изменила подход к работе с ML
Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.
https://habr.com/ru/companies/2gis/articles/877868/
#разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it
-
Есть ли жизнь до fit/predict?
Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй план: чем больше данных/параметров, тем лучше. Однако экстенсивный рост рано или поздно упирается в ограничения, когда становится уже слишком дорого/невозможно его продолжать. Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой. Здесь я расскажу о некоторых из таких методов, которые использовались в процессе подготовки данных.
https://habr.com/ru/companies/mts_ai/articles/825090/
#nlp #dataset_cartography #vinformation #deduplication #d4 #semdedup #sslprototypes #data_quality #dataset_difficulty #подготовка_данных
-
Миф о чистых данных: почему ваш аналитик похож на сапёра
Миф о чистых данных: почему ваш аналитик похож на сапёра. Как бороться с самым частым убеждением при работе с данными.
https://habr.com/ru/articles/862772/
#данные #очистка_данных #витрина_данных #визуализация_данных #ошибки_в_бизнесе #подготовка_данных #бизнесаналитика #целостность_данных #обработка_данных #data_quality
-
Как мы собираем данные для обучения Kandinsky
Всем привет! Наша команда в Sber AI занимается генеративными моделями и сегодня мы расскажем про очень важный этап разработки моделей для генерации фотореалистичных изображений и видео — процесс сбора и фильтрации данных. Про этот этап очень редко подробно рассказывают разработчики и исследователи таких известных генеративных моделей как DALL-E 3, Stable Diffusion, MidJourney или SORA. Генеративные модели уже многих впечатлили своими возможностями создавать максимально реалистичные изображения и видеоролики, а качественные данные — далеко не последняя причина, по которой такого качества генераций удалось достичь.
-
Миф о чистых данных: почему ваш аналитик похож на сапёра
Миф о чистых данных: почему ваш аналитик похож на сапёра. Как бороться с самым частым убеждением при работе с данными.
https://habr.com/ru/articles/862772/
#данные #очистка_данных #витрина_данных #визуализация_данных #ошибки_в_бизнесе #подготовка_данных #бизнесаналитика #целостность_данных #обработка_данных #data_quality
-
Миф о чистых данных: почему ваш аналитик похож на сапёра
Миф о чистых данных: почему ваш аналитик похож на сапёра. Как бороться с самым частым убеждением при работе с данными.
https://habr.com/ru/articles/862772/
#данные #очистка_данных #витрина_данных #визуализация_данных #ошибки_в_бизнесе #подготовка_данных #бизнесаналитика #целостность_данных #обработка_данных #data_quality
-
Миф о чистых данных: почему ваш аналитик похож на сапёра
Миф о чистых данных: почему ваш аналитик похож на сапёра. Как бороться с самым частым убеждением при работе с данными.
https://habr.com/ru/articles/862772/
#данные #очистка_данных #витрина_данных #визуализация_данных #ошибки_в_бизнесе #подготовка_данных #бизнесаналитика #целостность_данных #обработка_данных #data_quality