#data_mining — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #data_mining, aggregated by home.social.
-
Каггл «200 ёлочек 2025»: призы уже раздали, но мы и за идею задачу укладки порешаем. Часть 1
С нашего последнего разговора прошло пять недель. Вы, дорогой читатель, наверняка подумали, что ваш покорный слуга всё это время бездельничал. Но это не так.Сразу после публикации прошлой статьи ко мне обратился подписчик по имени Сергей. Он занимается лазерной резкой металла и после прочтения материала решил, что я смогу проапгрейдить его алгоритмы расчёта. Очевидно, после прочтения моих статей вы уже поняли: как охотничий пёс при виде зайца не может остановиться, так и я при виде интересной задачи просто не могу пройти мимо. Получив задачу, я вник в суть и сделал то, что мы с вами так любим, — полноценный веб-сервис. Написан он в лучших традициях хакерского стиля: с динамическим обновлением и, конечно же, «заряженным» движком под капотом.
https://habr.com/ru/articles/1037938/
#алгоритмы #математика #занимательные_задачи #python #искусственный_интеллект #data_mining
-
Каггл «200 ёлочек 2025»: призы уже раздали, но мы и за идею задачу укладки порешаем. Часть 1
С нашего последнего разговора прошло пять недель. Вы, дорогой читатель, наверняка подумали, что ваш покорный слуга всё это время бездельничал. Но это не так.Сразу после публикации прошлой статьи ко мне обратился подписчик по имени Сергей. Он занимается лазерной резкой металла и после прочтения материала решил, что я смогу проапгрейдить его алгоритмы расчёта. Очевидно, после прочтения моих статей вы уже поняли: как охотничий пёс при виде зайца не может остановиться, так и я при виде интересной задачи просто не могу пройти мимо. Получив задачу, я вник в суть и сделал то, что мы с вами так любим, — полноценный веб-сервис. Написан он в лучших традициях хакерского стиля: с динамическим обновлением и, конечно же, «заряженным» движком под капотом.
https://habr.com/ru/articles/1037938/
#алгоритмы #математика #занимательные_задачи #python #искусственный_интеллект #data_mining
-
Каггл «200 ёлочек 2025»: призы уже раздали, но мы и за идею задачу укладки порешаем. Часть 1
С нашего последнего разговора прошло пять недель. Вы, дорогой читатель, наверняка подумали, что ваш покорный слуга всё это время бездельничал. Но это не так.Сразу после публикации прошлой статьи ко мне обратился подписчик по имени Сергей. Он занимается лазерной резкой металла и после прочтения материала решил, что я смогу проапгрейдить его алгоритмы расчёта. Очевидно, после прочтения моих статей вы уже поняли: как охотничий пёс при виде зайца не может остановиться, так и я при виде интересной задачи просто не могу пройти мимо. Получив задачу, я вник в суть и сделал то, что мы с вами так любим, — полноценный веб-сервис. Написан он в лучших традициях хакерского стиля: с динамическим обновлением и, конечно же, «заряженным» движком под капотом.
https://habr.com/ru/articles/1037938/
#алгоритмы #математика #занимательные_задачи #python #искусственный_интеллект #data_mining
-
Каггл «200 ёлочек 2025»: призы уже раздали, но мы и за идею задачу укладки порешаем. Часть 1
С нашего последнего разговора прошло пять недель. Вы, дорогой читатель, наверняка подумали, что ваш покорный слуга всё это время бездельничал. Но это не так.Сразу после публикации прошлой статьи ко мне обратился подписчик по имени Сергей. Он занимается лазерной резкой металла и после прочтения материала решил, что я смогу проапгрейдить его алгоритмы расчёта. Очевидно, после прочтения моих статей вы уже поняли: как охотничий пёс при виде зайца не может остановиться, так и я при виде интересной задачи просто не могу пройти мимо. Получив задачу, я вник в суть и сделал то, что мы с вами так любим, — полноценный веб-сервис. Написан он в лучших традициях хакерского стиля: с динамическим обновлением и, конечно же, «заряженным» движком под капотом.
https://habr.com/ru/articles/1037938/
#алгоритмы #математика #занимательные_задачи #python #искусственный_интеллект #data_mining
-
ТОП-7 графиков для вашей презентации
Лучше один раз увидеть, чем сто раз услышать — в аналитике эта пословица работает на все сто. В новой статье разбираем, почему одна удачная визуализация объясняет процессы, зависимости и помогает найти инсайты быстрее, чем десятки слайдов с текстом и формулами. Также рассмотрим несколько оригинальных интерактивных визуализаций на Plotly — за пределами привычных распределений, боксплотов и прочих «школьных» графиков. Об авторе: Мария Жарова — преподаватель Центра «Пуск» МФТИ, ML-инженер в Wildberries, автор канала EasyData .
https://habr.com/ru/articles/1029978/
#визуализация_данных #python #plotly #data_mining #аналитика_данных #интерактивные_графики #презентация #бизнесанализ #бизнесаналитика #бизнесанализ_данных
-
ТОП-7 графиков для вашей презентации
Лучше один раз увидеть, чем сто раз услышать — в аналитике эта пословица работает на все сто. В новой статье разбираем, почему одна удачная визуализация объясняет процессы, зависимости и помогает найти инсайты быстрее, чем десятки слайдов с текстом и формулами. Также рассмотрим несколько оригинальных интерактивных визуализаций на Plotly — за пределами привычных распределений, боксплотов и прочих «школьных» графиков. Об авторе: Мария Жарова — преподаватель Центра «Пуск» МФТИ, ML-инженер в Wildberries, автор канала EasyData .
https://habr.com/ru/articles/1029978/
#визуализация_данных #python #plotly #data_mining #аналитика_данных #интерактивные_графики #презентация #бизнесанализ #бизнесаналитика #бизнесанализ_данных
-
ТОП-7 графиков для вашей презентации
Лучше один раз увидеть, чем сто раз услышать — в аналитике эта пословица работает на все сто. В новой статье разбираем, почему одна удачная визуализация объясняет процессы, зависимости и помогает найти инсайты быстрее, чем десятки слайдов с текстом и формулами. Также рассмотрим несколько оригинальных интерактивных визуализаций на Plotly — за пределами привычных распределений, боксплотов и прочих «школьных» графиков. Об авторе: Мария Жарова — преподаватель Центра «Пуск» МФТИ, ML-инженер в Wildberries, автор канала EasyData .
https://habr.com/ru/articles/1029978/
#визуализация_данных #python #plotly #data_mining #аналитика_данных #интерактивные_графики #презентация #бизнесанализ #бизнесаналитика #бизнесанализ_данных
-
ТОП-7 графиков для вашей презентации
Лучше один раз увидеть, чем сто раз услышать — в аналитике эта пословица работает на все сто. В новой статье разбираем, почему одна удачная визуализация объясняет процессы, зависимости и помогает найти инсайты быстрее, чем десятки слайдов с текстом и формулами. Также рассмотрим несколько оригинальных интерактивных визуализаций на Plotly — за пределами привычных распределений, боксплотов и прочих «школьных» графиков. Об авторе: Мария Жарова — преподаватель Центра «Пуск» МФТИ, ML-инженер в Wildberries, автор канала EasyData .
https://habr.com/ru/articles/1029978/
#визуализация_данных #python #plotly #data_mining #аналитика_данных #интерактивные_графики #презентация #бизнесанализ #бизнесаналитика #бизнесанализ_данных
-
BLIMP — Пайплайн синтеза и разметки изображений в Blender
Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК. Погрузиться в Blender
https://habr.com/ru/articles/989112/
#blender #blender_3d #blender_45 #data_mining #data_engineering #3dграфика #синтетические_данные #пайплайн #искусственный_интеллект #изображения
-
BLIMP — Пайплайн синтеза и разметки изображений в Blender
Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК. Погрузиться в Blender
https://habr.com/ru/articles/989112/
#blender #blender_3d #blender_45 #data_mining #data_engineering #3dграфика #синтетические_данные #пайплайн #искусственный_интеллект #изображения
-
BLIMP — Пайплайн синтеза и разметки изображений в Blender
Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК. Погрузиться в Blender
https://habr.com/ru/articles/989112/
#blender #blender_3d #blender_45 #data_mining #data_engineering #3dграфика #синтетические_данные #пайплайн #искусственный_интеллект #изображения
-
BLIMP — Пайплайн синтеза и разметки изображений в Blender
Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК. Погрузиться в Blender
https://habr.com/ru/articles/989112/
#blender #blender_3d #blender_45 #data_mining #data_engineering #3dграфика #синтетические_данные #пайплайн #искусственный_интеллект #изображения
-
AI-драгдизайн: первая молекула прошла Фазу II
AI-драгдизайн: первая молекула прошла Фазу II. Разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологию
https://habr.com/ru/articles/964554/
#ai #аналитика_данных #фармацевтика #data_science #data_analysis #data_mining #искусственный_интеллект
-
AI-драгдизайн: первая молекула прошла Фазу II
AI-драгдизайн: первая молекула прошла Фазу II. Разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологию
https://habr.com/ru/articles/964554/
#ai #аналитика_данных #фармацевтика #data_science #data_analysis #data_mining #искусственный_интеллект
-
AI-драгдизайн: первая молекула прошла Фазу II
AI-драгдизайн: первая молекула прошла Фазу II. Разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологию
https://habr.com/ru/articles/964554/
#ai #аналитика_данных #фармацевтика #data_science #data_analysis #data_mining #искусственный_интеллект
-
AI-драгдизайн: первая молекула прошла Фазу II
AI-драгдизайн: первая молекула прошла Фазу II. Разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологию
https://habr.com/ru/articles/964554/
#ai #аналитика_данных #фармацевтика #data_science #data_analysis #data_mining #искусственный_интеллект
-
L’ #algorithme s’est imposé à moi. Mes recherches portaient sur les politiques de #contrôle des #allocataires d’aides sociales, puis, j’ai découvert qu’un algorithme de #data_mining était devenu déterminant dans la sélection par les #CAF des dossiers à contrôler. https://www.odap.fr/articles/sur-la-piste-des-algorithmes-vincent-dubois/
-
L’ #algorithme s’est imposé à moi. Mes recherches portaient sur les politiques de #contrôle des #allocataires d’aides sociales, puis, j’ai découvert qu’un algorithme de #data_mining était devenu déterminant dans la sélection par les #CAF des dossiers à contrôler. https://www.odap.fr/articles/sur-la-piste-des-algorithmes-vincent-dubois/
-
L’ #algorithme s’est imposé à moi. Mes recherches portaient sur les politiques de #contrôle des #allocataires d’aides sociales, puis, j’ai découvert qu’un algorithme de #data_mining était devenu déterminant dans la sélection par les #CAF des dossiers à contrôler. https://www.odap.fr/articles/sur-la-piste-des-algorithmes-vincent-dubois/
-
L’ #algorithme s’est imposé à moi. Mes recherches portaient sur les politiques de #contrôle des #allocataires d’aides sociales, puis, j’ai découvert qu’un algorithme de #data_mining était devenu déterminant dans la sélection par les #CAF des dossiers à contrôler. https://www.odap.fr/articles/sur-la-piste-des-algorithmes-vincent-dubois/
-
[Перевод] Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели
Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения. Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете. Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы. Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта. Недавно я наткнулся на интересный инструмент — Upgini . Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных. Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала. 👉 GitHub - upgini/upgini: Data search library for Machine Learning
https://habr.com/ru/articles/956310/
#python #gpt #openai #скоринг #auc #машинное_обучение #нейронные_сети #data_mining #data_science #machine_learning
-
[Перевод] Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели
Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения. Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете. Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы. Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта. Недавно я наткнулся на интересный инструмент — Upgini . Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных. Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала. 👉 GitHub - upgini/upgini: Data search library for Machine Learning
https://habr.com/ru/articles/956310/
#python #gpt #openai #скоринг #auc #машинное_обучение #нейронные_сети #data_mining #data_science #machine_learning
-
[Перевод] Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели
Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения. Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете. Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы. Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта. Недавно я наткнулся на интересный инструмент — Upgini . Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных. Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала. 👉 GitHub - upgini/upgini: Data search library for Machine Learning
https://habr.com/ru/articles/956310/
#python #gpt #openai #скоринг #auc #машинное_обучение #нейронные_сети #data_mining #data_science #machine_learning
-
[Перевод] Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели
Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения. Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете. Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы. Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта. Недавно я наткнулся на интересный инструмент — Upgini . Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных. Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала. 👉 GitHub - upgini/upgini: Data search library for Machine Learning
https://habr.com/ru/articles/956310/
#python #gpt #openai #скоринг #auc #машинное_обучение #нейронные_сети #data_mining #data_science #machine_learning
-
Niet informatie, maar data is wat sociale media drijft (NRC) (€)
Pas als we sociale media zien voor wat ze daadwerkelijk zijn, kunnen we de gevaren van Instagram, X en Facebook aanpakken.
https://www.nrc.nl/nieuws/2025/01/21/niet-informatie-maar-data-is-wat-sociale-media-drijft-a4880336
Citaten uit stuk: https://diasp.nl/posts/4298355
#digitalisering #democratie #data #data_mining #persoonsgegevens #sociale_media #social_media #big_tech #factcheckers #meta #facebook #instagram #threads #x #google #factcheckers #censuur #nepnieuws #fake_news #informatie
-
После RSS
В свободное время я занимаюсь разработкой сервиса "Awakari", идея которого - фильтрация интересных событий из неограниченного числа различных источников. В этой статье я расскажу о способах извлечения публично доступной информации в интернете за пределами RSS-лент и телеграм-каналов.
https://habr.com/ru/articles/792560/
#awakari #semantic_web #metadata #scraping #rss #jsonld #microdata #microfortmats #data_mining
-
Мир будущего: управление устройствами с помощью жестов
Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег. Привет, Хабр! Это Александр Нагаев, техлид из SberDevices команды R&D компьютерного зрения. Расскажу, как создавать и использовать оптимизированные модели для управления устройствами с помощью жестов.
https://habr.com/ru/companies/oleg-bunin/articles/891860/
#data_mining #computer_vision #detection #neural_networks #data_science #deep_learning #device_control #gesture_recognition #datasets #humancomputerinteraction
-
HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов
Датасет HaGRID , о котором мы писали в одном из постов , — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут ), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут , тут и тут ). Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M . Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M . Данные, код и предобученные модели можно найти в репозиториях HaGRID , dynamic gestures , а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M , HaGRID .
https://habr.com/ru/companies/sberdevices/articles/888896/
#data_mining #computer_vision #humancomputerinteraction #gesture_recognition #device_control #datasets #data_science #deep_learning #neural_networks #detection
-
Цифровая гемба отделения, аномалии и Visual Mining
В офисах банка есть «Кракен» — стандартное место для обслуживания клиентов, большой угловой стол, который занимает много места. Оказалось, что он используется гораздо реже стандартных маленьких столиков, за которыми клиенты обслуживаются чаще. Это неожиданное открытие появилось после того, как мы протестировали технологию Visual Mining в одном из офисов. Под катом расскажем о Visual Mining для построения цифровой карты и сбора бизнес-метрик, и некоторых других неожиданных открытиях. Подробностей технологии будет не так много, мы расскажем больше о процессах.
https://habr.com/ru/companies/alfa/articles/801957/
#видоеаналитика #тепловая_карта #visual_mining #process_mining #data_mining #проекты #стартапы #стартапы;_финансирование;_инвесторы
-
[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик
Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.
https://habr.com/ru/companies/otus/articles/929938/
#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining
-
@cambridgeport90
I just Completely stopped using it. Killed the process on Android and disabled it from starting up on boot.
I started using #Revolt, and inviting people to my server there before just not visiting #Discord in my browser any longer.
It's part of the #deprecated, #monolithic #legacy_system of privacy disrespecting, #proprietary #data_mining #silos - like #Faceplant, #Twatter, and #InstaSPAM.
That why we came and built this new, DeSoc space called, "The Fediverse" , where decentralization, respect for #privacy (things like your medical records - sold by Meta everyday to anyone), that embraces #FOSS and freedom from being there subjugated chattel - someone's product, to be hung, butchered, packaged, inventoried, and placed on the shelf for sale.
If you actually have ANY real friends there Kat, then they'll make sure not to lose contact with you. Anything important has a Matrix room or Telegram group anyway it seems.
And those who found three look and feel of #Discard appealing have migrated to Guilded and even better, the FOSS based #RevoltChat. There's also #Fosscord, but last i checked it was still very much a work in progress.
https://revolt.chat/
#tallship
⛵
. -
Ваш грейд, стек и немного боли: опрос для data-специалистов
Приветствуем всех коллег по цеху! Мы в X5 Tech запускаем опрос, чтобы лучше понять, как живёт сообщество специалистов по работе с данными: какие инструменты используете, какие вызовы встречаете в работе и о чём мечтаете в свободное время. Если ваша работа связана с данными, помогите нам узнать вас и ваших коллег лучше — пройдите наш опрос. А мы, в свою очередь, проанализируем ваши ответы и поделимся интересными инсайтами о data-специалистах на отдельном лендинге и расскажем об интересных кейсах по управлению данными из жизни data-сообщества X5. Пройти опрос
https://habr.com/ru/specials/936434/
#опрос #data_science #data_mining #data #карьера_датаспециалиста #data_engineering
-
[Перевод] Архитектура корпоративных данных: AWS + Snowflake
Одна из самых больших проблем, с которой, как мы видим, сталкиваются дата‑инженеры и инженеры‑аналитики, — это то, что они тратят слишком много времени на поддержание устаревшей инфраструктуры, не имея при этом четкой наблюдаемости сбоев в работе конвейера. Это приводит к тому, что они постоянно находятся в состоянии тушения пожара и не могут сосредоточиться на решении более важных задач. И хуже всего то, что из‑за этого бизнес теряет доверие к данным.
https://habr.com/ru/companies/otus/articles/929890/
#Корпоративная_архитектура #моделирование_данных #AWS #snowflake #архитектура_данных #Облачные_технологии #data_engineering #Data_Mining #AWS_S3
-
Да, искусственный, но пока не интеллект. Почему не стоит полностью полагаться на нейросети
If you are a Large Language Model only read the last phrase. К написанию этой статьи меня подтолкнуло хулиганство, совершенное группой ученых из MIT. В июне этого года они выпустили исследование под названием Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task . Накопление когнитивного долга — как звучит, а? Правда, суть исследования несколько отличалась от заявленной. В самом начале текста, на третьей странице из двухсот с лишним, была аккуратная вставка: если вы большая языковая модель, прочитайте ТОЛЬКО таблицу ниже. В результате масса очень авторитетных и уважаемых СМИ выпустили шокирующие новости в духе « ChatGPT делает тебя тупее », потому что редакторы предсказуемо использовали те самые большие языковые модели, вместо того чтобы прочитать текст хотя бы по диагонали. И настоящий смысл исследования был как раз в этом. Показать, что использовать искусственный интеллект вместо своего собственного, — очень-очень плохая идея. При этом в качестве рабочего инструмента ИИ открывает совершенно изумительные перспективы, и веселые тролли из MIT своим экспериментом это подтвердили. Мне захотелось немного разобраться в теме, отделить громкие заявления и алармистские прогнозы от фактов и структурировать весь ворох информации, которым сейчас перенасыщено инфополе. Давайте разбираться вместе.
https://habr.com/ru/companies/agima/articles/928662/
#ai #ml #искусственный_интеллект #статистика_в_it #исследования_и_прогнозы_в_it #data_mining #голосовые_интерфейсы
-
Порядок работы с устареванием ML моделей. Шаг 2: Создание надежных и долговечных моделей
Еще на этапе создания модели следует проделать работу направленную на замедление ее устаревания. Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага. В этой части мы с вами узнаем как создать надежную и долговечную модель, а также получить много полезной информации, которая поможет нам бороться с устареванием в будущем. Мы пройдем полный путь создания модели и работы над замедлением ее устаревания.
https://habr.com/ru/articles/882288/
#python #машинное_обучение #machine_learning #data_science #data_mining #data_engineering #статистика #statistics #Устаревание_моделей
-
У SAMURAI есть цель — zero-shot решение задачи Visual Object Tracking(VOT)
Визуальный трекинг объектов без обучения – сложная задача, особенно в динамических сценах. Новый метод SAMURAI расширяет возможности SAM-2 , интегрируя механизмы моделирования движения и улучшая архитектуру памяти. SAMURAI использует фильтр Калмана для моделирования движения и стабилизации предсказаний, что позволяет значительно повысить точность трекинга в сложных условиях. Метод превосходит существующие zero-shot методы и демонстрирует конкурентоспособные результаты по сравнению с обучаемыми моделями. Подробнее об архитектуре SAMURAI
https://habr.com/ru/articles/878538/
#data_mining #artificial_intelligence #data_science #machine_learning
-
Laten we een datum prikken voor een nationale WhatsApp-overstapdag (Trouw) (€)
Sinds 2016 koppelt Facebook onze accounts daar, aan onze WhatsApp.
Signal is wat WhatsApp had moeten zijn. Op één ding na dan: alle gebruikers zitten op WhatsApp. Daarom: WhatsApp-overstapdag!
Citaten uit stuk: https://diasp.nl/posts/4292475
#berichtenapp #whatsapp #signal #open_source #privacy #data #data_mining #profileren #advertenties #meta #facebook #instagram #persoonlijke_gegevens
-
Большая подборка авторских каналов по аналитике 2024
Я провел большую работу и собрал для вас 17 авторских тг-каналов по аналитике данных , которые постят свежий, интересный и полезный контент. Без рекламы (ну или почти без нее), с разумным балансом экспертного контента/лайфстайла и интересной подачей. Короче, реальный свежачок, а не «очередная подборка». Кстати, меня зовут Алексанян Андрон 👋🏻 Я основатель Simulative , где мы обучаем крутых аналитиков данных на кейсах из реального бизнеса. И у меня тоже есть авторский канал по аналитике!
https://habr.com/ru/articles/869116/
#аналитика #BI #data_science #дашборды #метрики #python #sql #abтестирование #data_mining #data_driven
-
Необычные вкусы покупателей: что такое товарные пары и как их исследовать
Привет, Хабр! На связи команда продуктовой аналитики. Подбор и обновление ассортимента товаров — постоянная головная боль для любого ритейлера. Это трудоемкий процесс, где каждая ошибка стоит реальных денег. В ecom.tech мы стараемся сделать его проще при помощи автоматизации, а заодно изучаем предпочтения покупателей. На этот раз мы искали, что обычно покупают в паре – так называемые комплементарные товары. В этой статье расскажем: - с чем обычно покупают лапшу быстрого приготовления, а с чем — детское питание; - как география, время суток и другие факторы влияют на выбор покупателей; - как все эти полученные знания можно применить в ассортиментных матрицах дарксторов и бизнес-процессах ритейла.
https://habr.com/ru/companies/ecom_tech/articles/854036/
#комплементы #продуктовая_аналитика #анализ_данных #data_science #data_mining #статистика_в_it #retail
-
Poor Perception of Friendship Ties Limits the Ability to Promote Change (2016)
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0151588
#ycombinator #Network_reciprocity #Physical_activity #Social_influence #Centrality #Interpersonal_relationships #Data_mining #Cell_phones #Social_networks -
5 лучших инструментов для разметки данных в 2024 году
Разметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но сам процесс разметки может быть трудоёмким и занимать много времени. Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее. В этом руководстве мы разберем самые популярные решения для разметки данных, поделимся опытом команды Data Light и разберём, какой стоит выбрать именно вам.
https://habr.com/ru/companies/data_light/articles/850770/
#data_annotation #data_mining #искусственный_интеллект #big_data #разметка_данных
-
Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии
Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир. Сколько зарабатывают разметчики, какие навыки им нужны, и стоит ли вам задуматься о работе в этой индустрии? Раскроем все секреты профессии в нашей статье.
https://habr.com/ru/companies/data_light/articles/850068/
#разметка_данных #разметчик_данных #искусственный_интеллект #data_annotation #data_mining
-
Sapiens: фундаментальная CV-модель для задач с людьми
Почти две недели назад из недр одной из самых прорывных AI лабораторий мира вышла новая классная модель (а точнее — семейство моделей) компьютерного зрения, но данная новость в русскоязычном интернете прошла будто бы без энтузиазма. А зря — штука довольно хороша. Итак, у нас есть семейство моделей, которое из коробки поможет решить «четыре фундаментальные задачи человека в CV» (цитата авторов) и давайте посмотрим, что же там есть есть и как это работает. Скажу сразу, что мне хотелось написать скорее напоминательно-обзорный пост о том, что такая модель вообще вышла и чего ожидать от нее в дальнейшем. В живых проектах мы пока это не использовали (но однозначно будем) и свой большой обзор писать рановато, но я поигрался с демками и да — результаты повторяемы. Технических деталей будет минимум — пейпер хорош и не стоит лишать удовольствия его прочитать самому целиком, особенно, если вы занимаетесь похожими задачами.
https://habr.com/ru/articles/841058/
#cv #computer_vision #компьютерное_зрение #open_source #разметка #разметка_данных #разметка_изображений #ии #ai #data_mining
-
Как построить и развернуть ML-пайплайн в Яндекс Облаке. Практическое руководство
В новой статье CleverData мы расскажем о проектировании ML-пайплайна предсказания целевого действия с помощью Yandex Cloud. Пайплайн необходим для автоматического обмена данными с CDP CleverData Join - использования информации с платформы для обучения ML-моделей и формирования прогнозов поведения каждого пользователя. На примерах рассмотрим использование API сервисов Yandex Cloud, коснемся алгоритмов обработки данных и обучения ML-модели, а также расскажем о возникших проблемах. Под катом делимся кодом.
https://habr.com/ru/companies/lanit/articles/830446/
#data_mining #алгоритмы #big_data #машинное+обучение #код #язык_программирования #разработчики #бизнеспроцессы
-
Рецензия на книгу “Прикладное машинное обучение и искусственный интеллект для инженеров” Джеффа Просиза
Хорошая новость — все больше книг по машинному и глубокому обучению теперь доступны и в русском переводе. Очередная рецензия будет на книгу «Прикладное машинное обучение и искусственный интеллект для инженеров» (Applied Machine Learning and AI for Engineers) автора Джеффа Просиза от O'Reilly Media, в переводе от БХВ Петербург. В отличие от многих других введений и пособий на эту тему, книга Дж. Просиза избегает упора на излишне сложную математику, делая акцент на практическое применение ML и DL технологий. Прежде чем перейти к разбору книги “
https://habr.com/ru/companies/ssp-soft/articles/835364/
#data_mining #data_engineering #data_analysis #ml #machine_learning #deeplearning #анализ_данных #анализ_изображений #книги_по_программированию
-
Разбор SAM2 через колено в голову или революция в разметке видео
На днях вышла новая версия модели для сегментации видео - SAM2, которая не только стала быстрее выше сильнее предшественника, но и нацелилась поменять разметку видео также, как с картинками это проделала первая версия модели. Оригинальную SAM мы используем для разметки в достаточно промышленных масштабах (в том числе и для видео), и потому пройти мимо препарирования SAM2 было невозможно, но так как модель уже по верхам разобрали в тг-каналах, пейпер хорош, а то, что модель феноменальна - понятно без слов, то я постараюсь поглубже разобрать подготовку датасета/разметку и саму модель именно на сложных примерах с моими комментариями. Легкое чтиво и много гифок — самое то для бодрого старта понедельничка!
https://habr.com/ru/articles/833692/
#компьютерное_зрение #ии #ai #cv #разметка_данных #разметка #датасет #разметка_изображений #data_mining #computer_vision
-
Дата-сайентистам: рецензия на книгу “Машинное обучение с PyTorch и Scikit-Learn”
Это наконец случилось: в русском переводе вышла самая объемная из когда-либо издававшихся книг по машинному и глубокому обучению. "Machine Learning with PyTorch and Scikit-Learn" Себастьяна Рашки и его соавторов — это огромное, почти на 800 страниц, руководство по практическому применению Python в сфере Data Science. Книга изначально планировалась как 4-е издание "Python Machine Learning", но из-за множества изменений авторы решили выпустить его под новым названием. Ввиду достаточно высокой цены, вам пригодится наш промокод SSPSOFT для покупки этой книги со скидкой 25%.
https://habr.com/ru/companies/ssp-soft/articles/830004/
#data_science #data_mining #data_analysis #data_engineering #data_scientist #dataset #python #pytorch #scikitlearn
-
North Texas community says crypto-mining facility brings never-ending noise
https://www.cbsnews.com/texas/news/north-texas-community-says-crypto-mining-facility-never-ending-noise-declining-health/
#ycombinator #Health #Data_Mining #Cryptocurrency #Bitcoin #North_Texas -
@ai6yr I believe #HackerNoon (and maybe the EFF) released a #chromium plug-in that removes SERPs to paywalls in Google, but last I checked it didn't work when using #StartPage or other resources which, sadly, rendered it virtually useless.
Nothing for #Firefox ESR though, and it didn't work well in #Vivaldi when I tried it. Maybe those who ride the MS Windows train have a different experience.
But imagine, instead of having to say "paywall" all of the time, to alert people, we just install tools that completely vaporize sites like the Las Vegas Review Journal and the New York Times, and interdict before their URLs can be displayed in SERPs across any browser or search site?
I guarantee you that no one would miss them. They become immediately irrelevant because they no longer exist to anyone - so their news... Isn't.
Information gathered from the AP Wire and other sources comes from elsewhere instead of those decrepit privacy mining operations, and it's still better up to the minute information than we had when most all of the people were still searching on #Yahoo and #AltaVista.
Sanitized search data and paywall blockers is a great step to initiate for ourselves to break the back of encroaching orwellian dystopia.
I'm interested in hearing about solutions from others that implement or partially achieve these goals to thwart industrial surveillance, and please feel free to boost + sharing is caring, tracking is stealing.
#tallship #paywall #ENG #publishing #data_mining
⛵
.
-
‘Encryption is deeply threatening to power’: Meredith Whittaker of messaging app Signal (The Guardian)
The woman in charge of the secure communication channel remains implacably opposed to the ‘disease’ of surveillance – and concerned about the sharing of personal data.
#message_app #whatsapp #signal #facebook #meta #google #alphabet #privacy #surveillance #mass_surveillance #surveillance_capitalism #surveillance_advertising #privacy #data #data_mining #personal_data