#vinformation — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #vinformation, aggregated by home.social.
-
Есть ли жизнь до fit/predict?
Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй план: чем больше данных/параметров, тем лучше. Однако экстенсивный рост рано или поздно упирается в ограничения, когда становится уже слишком дорого/невозможно его продолжать. Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой. Здесь я расскажу о некоторых из таких методов, которые использовались в процессе подготовки данных.
https://habr.com/ru/companies/mts_ai/articles/825090/
#nlp #dataset_cartography #vinformation #deduplication #d4 #semdedup #sslprototypes #data_quality #dataset_difficulty #подготовка_данных