#скоринг — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #скоринг, aggregated by home.social.
-
Почему проверять гипотезы страшно, а не проверять — ещё страшнее
«А что если … ?» — пожалуй, самый частый вопрос на уме у риск-аналитика. Его хлеб — строить и проверять гипотезы, например, « А что если мы добавим в модель частоту смены адреса? Станет ли точнее наш прогноз по риску дефолта у стартапов?», « А что если учитывать текучку кадров у клиента? Сможем ли мы точнее предсказывать кассовые разрывы?», « А что если мы поднимем лимит по овердрафту у клиентов с идеальной платежной дисциплиной? Как это скажется на их лояльности вдолгую?» В этой статье я рассказываю, как аналитики одной автолизинговой компании наладили конвейер проверки гипотез и перестали дергать своих разработчиков на мелкие изменения логики и правил.
https://habr.com/ru/articles/1031820/
#проверка_гипотез #рискориентированное_мышление #lowcode #бизнеслогика #сппр #гипотезы #скоринг #чемпион #челленджер #модульность
-
Почему проверять гипотезы страшно, а не проверять — ещё страшнее
«А что если … ?» — пожалуй, самый частый вопрос на уме у риск-аналитика. Его хлеб — строить и проверять гипотезы, например, « А что если мы добавим в модель частоту смены адреса? Станет ли точнее наш прогноз по риску дефолта у стартапов?», « А что если учитывать текучку кадров у клиента? Сможем ли мы точнее предсказывать кассовые разрывы?», « А что если мы поднимем лимит по овердрафту у клиентов с идеальной платежной дисциплиной? Как это скажется на их лояльности вдолгую?» В этой статье я рассказываю, как аналитики одной автолизинговой компании наладили конвейер проверки гипотез и перестали дергать своих разработчиков на мелкие изменения логики и правил.
https://habr.com/ru/articles/1031820/
#проверка_гипотез #рискориентированное_мышление #lowcode #бизнеслогика #сппр #гипотезы #скоринг #чемпион #челленджер #модульность
-
Почему проверять гипотезы страшно, а не проверять — ещё страшнее
«А что если … ?» — пожалуй, самый частый вопрос на уме у риск-аналитика. Его хлеб — строить и проверять гипотезы, например, « А что если мы добавим в модель частоту смены адреса? Станет ли точнее наш прогноз по риску дефолта у стартапов?», « А что если учитывать текучку кадров у клиента? Сможем ли мы точнее предсказывать кассовые разрывы?», « А что если мы поднимем лимит по овердрафту у клиентов с идеальной платежной дисциплиной? Как это скажется на их лояльности вдолгую?» В этой статье я рассказываю, как аналитики одной автолизинговой компании наладили конвейер проверки гипотез и перестали дергать своих разработчиков на мелкие изменения логики и правил.
https://habr.com/ru/articles/1031820/
#проверка_гипотез #рискориентированное_мышление #lowcode #бизнеслогика #сппр #гипотезы #скоринг #чемпион #челленджер #модульность
-
Почему проверять гипотезы страшно, а не проверять — ещё страшнее
«А что если … ?» — пожалуй, самый частый вопрос на уме у риск-аналитика. Его хлеб — строить и проверять гипотезы, например, « А что если мы добавим в модель частоту смены адреса? Станет ли точнее наш прогноз по риску дефолта у стартапов?», « А что если учитывать текучку кадров у клиента? Сможем ли мы точнее предсказывать кассовые разрывы?», « А что если мы поднимем лимит по овердрафту у клиентов с идеальной платежной дисциплиной? Как это скажется на их лояльности вдолгую?» В этой статье я рассказываю, как аналитики одной автолизинговой компании наладили конвейер проверки гипотез и перестали дергать своих разработчиков на мелкие изменения логики и правил.
https://habr.com/ru/articles/1031820/
#проверка_гипотез #рискориентированное_мышление #lowcode #бизнеслогика #сппр #гипотезы #скоринг #чемпион #челленджер #модульность
-
Как мы отсеиваем 95% мусора из Telegram-чатов до того, как сообщение попадёт в LLM
Привет, Хабр! Меня зовут Артём, я фаундер Leadl.ai . Мы строим AI-агента для поиска b2b-клиентов, и одна из его ключевых задач это мониторинг чатов и различных источников. Звучит просто, пока не сталкиваешься с масштабом. У нас в пуле 20000+ чатов в 15 источниках. Суммарно около 1000 000 000 сообщений в сутки. Из них реально полезных (запросы на услуги, поиск подрядчиков, вакансии) от силы 3-5%. Остальное: флуд, криптоспам, «доброе утро», мемы и бесконечные стикеры. Задача: вытащить эти 3-5% качественных сообщений. Первой мыслью было отдать всё на откуп большой LLM типа GPT-4o. Посчитали. Среднее сообщение 50 токенов. 100 000 сообщений 50 токенов/сообщение ($10 / 1M токенов) = $50 в день только на input. Добавьте сюда output и prompt — и счёт легко перевалит за $100-150/день или $3000-4500/месяц. Для стартапа это путь в никуда. Нам нужен был pipeline, который бы отсеивал мусор на ранних этапах, чтобы до дорогого LLM-скоринга доходило не более 5-10% от всего потока. Вот как мы его построили, через какие грабли прошли и что из этого вышло.
-
Как меня опрокинул автоматический скоринг Сбера
Эта статья - не попытка критиковать конкретный банк и не утверждение, что алгоритм ошибся. Я не знаю внутренних правил скоринга, не видел модели и не утверждаю, что решение было неверным. Это разбор частного случая глазами человека, который внезапно оказался в очень неприятной жизненной ситуации в связи с тем, что в ответственный момент классификатор «принял решение» об отказе в ипотеке. В данный момент ситуация продолжает оставаться неясной и я нахожусь в стрессе. В какой-то степени, попытка хоть как-то разобраться в том, какие факторы повлияли на отказ в выдаче ипотеки, хоть как-то снижает уровень стресса. <cut text="Читать далее"> Описание проблемы Моя ситуация - абсолютно понятная: в связи с рождением ребёнка мы решили улучшить жилищные условия: продать квартиру и взять вторичку в ипотеку в лучшем районе. Учитывая известные события на вторичном рынке, сам по себе процесс покупки квартиры является довольно стрессовым: нужно проверить надёжность продавцов, составить договор, и т.д. То, что сделка у нас проходит по альтернативной схеме с образованием длинной цепочки, добавляет волнений. Тем не менее, в декабре подаю заявку на ипотеку в Сбер. Мне одобряют заявку аж на 12 000 000 ₽. После этого процесс продажи-поиска жилья был запущен. В феврале нашёлся покупатель, с которым заключили договор, покупатель внёс задаток. Нашли квартиру- и с продавцами тоже заключили договор и внесли задаток. В общем, образовалась та самая альтернативная цепочка. Соответственно, начал собирать документы и выписываться из квартиры. Оформили временную регистрацию: я, жена и ребёнок (9 месяцев) — в её квартире.
https://habr.com/ru/articles/1005464/
#сбер #сбербанк #алгоритмы #скоринг #кредитный_скоринг #машинное_обучение #gradient_boosting #data_science
-
[Перевод] Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели
Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения. Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете. Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы. Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта. Недавно я наткнулся на интересный инструмент — Upgini . Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных. Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала. 👉 GitHub - upgini/upgini: Data search library for Machine Learning
https://habr.com/ru/articles/956310/
#python #gpt #openai #скоринг #auc #машинное_обучение #нейронные_сети #data_mining #data_science #machine_learning
-
Данные WhatsApp и Telegram для ML-моделей: тренд или серый рынок?
В этой статье я расскажу про новый тип данных для российского рынка - данные Whatsapp и Telegram: насколько они ценны и насколько легальны.
-
Данные WhatsApp и Telegram для ML-моделей: тренд или серый рынок?
В этой статье я расскажу про новый тип данных для российского рынка - данные Whatsapp и Telegram: насколько они ценны и насколько легальны.
-
Свайп, дофамин, иллюзия выбора: как сервисы превратили любовь в цифровую рулетку
Современные сервисы знакомств оптимизированы не для создания пар, а для монетизации одиночества через манипуляцию дофаминовыми циклами. Конфликт интересов между пользователями и платформами усугубляется архаичными социальными стереотипами и отсутствием платформ использующих современных технологии для поиска (хотя вроде и есть ML,скоринг, кластеризация..) И в таргетинге работают уже в весь рост. Там это выгодно. А выгодно ли сервисам?
https://habr.com/ru/articles/902498/
#bigdata #технологии #психология #знакомства #tinder #социум #ml #скоринг #кластеризация_данных
-
Как мы обучили модель прогноза ранней просрочки: логистическая регрессия vs градиентный бустинг
Всем привет! На связи дата-сайентисты стрима разработки моделей для корпоративного сегмента ВТБ — Андрей Бояренков, Иван Кондраков и Денис Дурасов. Как уже писали ранее в другой статье , внедрение процесса AutoML позволило нам во многом автоматизировать рутину и разработки, и применения моделей. Соответственно, у нас появилось больше времени для RnD-задач, которые могли бы быть полезны нашим заказчикам, чтобы охватить моделями новые процессы, а также провести исследования новых алгоритмов. Поэтому мы составили мэппинг возможных моделей на элементы работы Банка с клиентами малого и среднего бизнеса в части предотвращения просрочек по кредитной задолженности, а также по взысканию задолженности. Из данной схемы стало понятно, что есть необходимость разработать модели для процессов по мониторингу заёмщиков Банка — Precollection-модели. Под катом расскажем, как мы их разрабатывали и каких результатов удалось с ними добиться.
https://habr.com/ru/companies/vtb/articles/892056/
#data_science #ds #ml #machine_learning #скоринг #логистическая_регрессия #градиентный_бустинг #алгоритмы #shap #анализ_данных
-
Системы оценки критичности уязвимостей в AI Security
Уязвимости в GenAI-системах - таинственное и неприступное понятие. Что это? Они вообще существуют? Существуют, конечно. Приглашаю к прочтению, если эта тема вас интересует. Расскажу, какие есть примеры уязвимостей (прям с CVE), и какие есть подходы к оценке их критичности.
https://habr.com/ru/articles/888048/
#уязвимости #cvss #llm #скоринг #оценка_критичности #ai_security #ai_safety
-
Мошенничество на основе доверенных данных
Профессия мошенника весьма конкурентна: чтобы оставаться на плаву и быть экономически эффективными бедняги должны следить за трендами и быстро реагировать на изменения. Начнут завтра выдавать кредиты на развитие сельского хозяйства – быстро собирай крупный рогатый скот по соседям и получай кредит под внезапно выросшее поголовье. Послезавтра мошенники срочно побегут изучать иностранные языки и брать кредиты у доверчивых банков под это дело. А как известно, кредиты возвращают только трусы. Бороться с кредитными мошенниками можно при помощи тщательного анализа и перепроверки пользовательской информации. Но иногда с помощью специально сгенерированных «валидных данных» как раз и осуществляется мошенничество. Сегодня расскажу интересные кейсы, которые мы отловили в Узбекистане.
-
Мошенничество на основе доверенных данных
Профессия мошенника весьма конкурентна: чтобы оставаться на плаву и быть экономически эффективными бедняги должны следить за трендами и быстро реагировать на изменения. Начнут завтра выдавать кредиты на развитие сельского хозяйства – быстро собирай крупный рогатый скот по соседям и получай кредит под внезапно выросшее поголовье. Послезавтра мошенники срочно побегут изучать иностранные языки и брать кредиты у доверчивых банков под это дело. А как известно, кредиты возвращают только трусы. Бороться с кредитными мошенниками можно при помощи тщательного анализа и перепроверки пользовательской информации. Но иногда с помощью специально сгенерированных «валидных данных» как раз и осуществляется мошенничество. Сегодня расскажу интересные кейсы, которые мы отловили в Узбекистане.
-
Мошенничество на основе доверенных данных
Профессия мошенника весьма конкурентна: чтобы оставаться на плаву и быть экономически эффективными бедняги должны следить за трендами и быстро реагировать на изменения. Начнут завтра выдавать кредиты на развитие сельского хозяйства – быстро собирай крупный рогатый скот по соседям и получай кредит под внезапно выросшее поголовье. Послезавтра мошенники срочно побегут изучать иностранные языки и брать кредиты у доверчивых банков под это дело. А как известно, кредиты возвращают только трусы. Бороться с кредитными мошенниками можно при помощи тщательного анализа и перепроверки пользовательской информации. Но иногда с помощью специально сгенерированных «валидных данных» как раз и осуществляется мошенничество. Сегодня расскажу интересные кейсы, которые мы отловили в Узбекистане.
-
Мошенничество на основе доверенных данных
Профессия мошенника весьма конкурентна: чтобы оставаться на плаву и быть экономически эффективными бедняги должны следить за трендами и быстро реагировать на изменения. Начнут завтра выдавать кредиты на развитие сельского хозяйства – быстро собирай крупный рогатый скот по соседям и получай кредит под внезапно выросшее поголовье. Послезавтра мошенники срочно побегут изучать иностранные языки и брать кредиты у доверчивых банков под это дело. А как известно, кредиты возвращают только трусы. Бороться с кредитными мошенниками можно при помощи тщательного анализа и перепроверки пользовательской информации. Но иногда с помощью специально сгенерированных «валидных данных» как раз и осуществляется мошенничество. Сегодня расскажу интересные кейсы, которые мы отловили в Узбекистане.
-
Как нейросети выдают кредиты?
Ни для кого не секрет, что кредитный скоринг — это вполне распространенная практика оценки заемщика. Чтобы условный чернорабочий с зарплатой 40 тысяч не взял 5 ипотек, а страна не превратилась в одну большую "Игру на понижение"... И, в том числе ни для кого не секрет, что в современном мире лимит кредитной карты начисляет не банковский сотрудник, но нейросеть или попросту алгоритм машинного обучения. В этой статье рассказываем, как работали алгоритмы машинного обучения раньше и как
https://habr.com/ru/articles/836402/
#Скоринг #Кредиты #Банки #финансы #Машинное_обучение #нейросети_и_кредиты #как_банки_выдают_кредиты #Python #tensorflow
-
Практический кейс реализации AutoML в банке
Всем читателям Хабра привет! На связи дата сайентисты стрима разработки моделей для корпоративного сегмента банка ВТБ — Андрей Бояренков, Иван Кондраков, Станислав Арешин и Андрей Трушин. В этой статье мы хотим поговорить про конкретный кейс разработки процесса AutoML для моделей оценки вероятности дефолта клиентов (PD) в рамках экспресс-продуктов малого бизнеса. Расскажем, как выстроен наш процесс, как мы к этому пришли, с какими проблемами столкнулись, как их решили и как в дальнейшем планируем тиражировать на другие продукты банка. Читать
https://habr.com/ru/companies/vtb/articles/833402/
#ml #automl #data_science #ds #machine_learning #mlops #автоматизация_рутины #скоринг #логистическая_регрессия