#наука_о_данных — Public Fediverse posts on home.social

Habr @[email protected] · 2025-11-28 · 12:12 UTC

Как прошла международная конференция ISKE 2025 в области AI и ML

Всем привет! С вами снова на связи Кирилл, и я только вернулся из своей недельной поездки в Китай на конференцию International Conference on Intelligent Systems and Knowledge Engineering ( ISKE 2025 ). Я бы хотел поделиться новыми открытиями, достижениями в области ML и ИИ. Немного раскрыть представление об AI и его применении в Китае, да и по миру в целом. Так что усаживайтесь по удобнее, заварите чаек, кофеек – и вперед читать новые инсайты!

https://habr.com/ru/articles/971280/

#машинное_обучение #искусственный_интеллект #нейронные_сети #open_source #карьера_итспециалиста #наука_о_данных #конференция #международный_рынок #международный_бизнес #китай

#машинное_обучение #искусственный_интеллект #нейронные_сети #open_source #карьера_итспециалиста #наука_о_данных

Habr @[email protected] · 2025-07-22 · 23:02 UTC

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности

Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические данные перестали быть лабораторным трюком — к 2030-му они превращаются в топливо, на котором летят банки, медицина и индустриальный IoT. GAN-ы научились соблюдать дифференциальную приватность, диффузионные модели вытягивают сигнал из шума лучше, чем биржевые трейдеры, а причинные графы заставляют базы данных «думать» о бизнес-логике. Мы собрали всё — от свежих метрик PrivEval до реляционной магии SCM и агентных симуляций, — чтобы показать: синтетика уже не копия реальности, а песочница для инноваций. Если вы ищете способ ускорить ML-проекты, избавиться от юридических цепей и заглянуть в будущее генеративного ИИ, эта статья станет вашим порталом.

https://habr.com/ru/articles/930132/

#синтетические_данные #генеративные_модели #диффузионные_модели #конфиденциальность #генерация_данных #нейронные_сети #наука_о_данных

#наука_о_данных #нейронные_сети #генерация_данных #конфиденциальность #диффузионные_модели #генеративные_модели

Habr @[email protected] · 2025-03-31 · 10:02 UTC

Более быстрые хеш-таблицы: претенденты на место SwissTable

24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» ( Tiny Pointers ) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к фрагменту хранимых данных и занимают меньше памяти, чем традиционные указатели. Осенью 2021 года эту статью заметил Андрей Крапивин (Andrew Krapivin), студент Ратгерского университета в Нью-Джерси, и не придал ей особого значения, пишет Quanta Magazine, журнал о последних достижениях в математике ( перевод статьи на Хабре). Только через два года он нашёл время, чтобы внимательно ознакомиться с материалом. И понял, насколько это прорывное изобретение, если применить его для оптимизации хеш-таблиц. Данная тема уже упоминалась на Хабре , но заслуживает более подробного обсуждения.

https://habr.com/ru/companies/ruvds/articles/887726/

#ruvds_статьи #хештаблицы #наука_о_данных #крошечные_указатели #ассоциативный_массив #структура_данных #поиск #вставка #предельная_скорость #равномерное_зондирование #uniform_probing #линейное_зондирование #дерево_с_поворотом #расширяющееся_дерево #красночёрное_дерево #Koloboke #SmoothieMap #ChronicleMap #SwissTable #F14 #SIMD

#ruvds_статьи #хештаблицы #наука_о_данных #крошечные_указатели #ассоциативный_массив #структура_данных

Habr @[email protected] · 2025-03-31 · 10:02 UTC

Более быстрые хеш-таблицы: претенденты на место SwissTable

24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» ( Tiny Pointers ) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к фрагменту хранимых данных и занимают меньше памяти, чем традиционные указатели. Осенью 2021 года эту статью заметил Андрей Крапивин (Andrew Krapivin), студент Ратгерского университета в Нью-Джерси, и не придал ей особого значения, пишет Quanta Magazine, журнал о последних достижениях в математике ( перевод статьи на Хабре). Только через два года он нашёл время, чтобы внимательно ознакомиться с материалом. И понял, насколько это прорывное изобретение, если применить его для оптимизации хеш-таблиц. Данная тема уже упоминалась на Хабре , но заслуживает более подробного обсуждения.

https://habr.com/ru/companies/ruvds/articles/887726/

#ruvds_статьи #хештаблицы #наука_о_данных #крошечные_указатели #ассоциативный_массив #структура_данных #поиск #вставка #предельная_скорость #равномерное_зондирование #uniform_probing #линейное_зондирование #дерево_с_поворотом #расширяющееся_дерево #красночёрное_дерево #Koloboke #SmoothieMap #ChronicleMap #SwissTable #F14 #SIMD

#ruvds_статьи #хештаблицы #наука_о_данных #крошечные_указатели #ассоциативный_массив #структура_данных

Habr @[email protected] · 2025-03-31 · 10:02 UTC

Более быстрые хеш-таблицы: претенденты на место SwissTable

24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» ( Tiny Pointers ) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к фрагменту хранимых данных и занимают меньше памяти, чем традиционные указатели. Осенью 2021 года эту статью заметил Андрей Крапивин (Andrew Krapivin), студент Ратгерского университета в Нью-Джерси, и не придал ей особого значения, пишет Quanta Magazine, журнал о последних достижениях в математике ( перевод статьи на Хабре). Только через два года он нашёл время, чтобы внимательно ознакомиться с материалом. И понял, насколько это прорывное изобретение, если применить его для оптимизации хеш-таблиц. Данная тема уже упоминалась на Хабре , но заслуживает более подробного обсуждения.

https://habr.com/ru/companies/ruvds/articles/887726/

#ruvds_статьи #хештаблицы #наука_о_данных #крошечные_указатели #ассоциативный_массив #структура_данных #поиск #вставка #предельная_скорость #равномерное_зондирование #uniform_probing #линейное_зондирование #дерево_с_поворотом #расширяющееся_дерево #красночёрное_дерево #Koloboke #SmoothieMap #ChronicleMap #SwissTable #F14 #SIMD

#ruvds_статьи #хештаблицы #наука_о_данных #крошечные_указатели #ассоциативный_массив #структура_данных

Habr @[email protected] · 2025-03-31 · 10:02 UTC

Более быстрые хеш-таблицы: претенденты на место SwissTable

24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» ( Tiny Pointers ) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к фрагменту хранимых данных и занимают меньше памяти, чем традиционные указатели. Осенью 2021 года эту статью заметил Андрей Крапивин (Andrew Krapivin), студент Ратгерского университета в Нью-Джерси, и не придал ей особого значения, пишет Quanta Magazine, журнал о последних достижениях в математике ( перевод статьи на Хабре). Только через два года он нашёл время, чтобы внимательно ознакомиться с материалом. И понял, насколько это прорывное изобретение, если применить его для оптимизации хеш-таблиц. Данная тема уже упоминалась на Хабре , но заслуживает более подробного обсуждения.

https://habr.com/ru/companies/ruvds/articles/887726/

#ruvds_статьи #хештаблицы #наука_о_данных #крошечные_указатели #ассоциативный_массив #структура_данных #поиск #вставка #предельная_скорость #равномерное_зондирование #uniform_probing #линейное_зондирование #дерево_с_поворотом #расширяющееся_дерево #красночёрное_дерево #Koloboke #SmoothieMap #ChronicleMap #SwissTable #F14 #SIMD

#simd #f14 #swisstable #chroniclemap #smoothiemap #koloboke

Habr @[email protected] · 2025-03-18 · 16:52 UTC

Игра в имитацию: используем Python для генерации синтетических данных для ML и не только

Ручной сбор данных — это всегда боль. Он съедает время, деньги и нервы, особенно в таких областях, как медицина или финансы, где затраты могут быть космическими, а юридические барьеры — непреодолимыми. По прогнозу Gartner, к 2030 году синтетические данные полностью затмят реальные данные в моделях ИИ.Почему? Потому что это работает. Что такое синтетические данные? Это искусственно созданные наборы данных, которые имитируют реальные данные, но не основаны на реальных событиях или людях. Они генерируются с помощью алгоритмов и математических моделей, которые воспроизводят статистические свойства, паттерны и взаимосвязи, присущие реальным данным. По сути, это цифровые двойники реальности, где мы можем контролировать каждый параметр: от распределений до корреляций и аномалий.

https://habr.com/ru/articles/888830/

#python #машинное_обучение #machine_learning #данные #генерация_данных #синтетические_данные #data_science #наука_о_данных #программирование #нейронные_сети

#нейронные_сети #программирование #наука_о_данных #data_science #синтетические_данные #генерация_данных

Habr @[email protected] · 2024-10-08 · 10:42 UTC

Оголяем «данные» и что из этого вышло

Однажды я задался целью создать устройство, которое измеряло бы качество воздуха — не просто как-то, а с высокой точностью. Проект по разработке устройства привел к созданию NeboAir — недорогого датчика, который претендует на высокую точность. В этом материале я расскажу об испытаниях в реальных условиях и о том, что получилось в итоге.

https://habr.com/ru/articles/848320/

#открытые_данные #стартап #экология #визуализация_данных #графики #графики_и_диаграммы #исследование #наука #наука_о_данных #наука_и_технологии

#наука_и_технологии #наука_о_данных #наука #исследование #графики_и_диаграммы #графики

Habr @[email protected] · 2024-06-08 · 12:32 UTC

Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников , и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами. Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса. Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи: 1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка. К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.

https://habr.com/ru/articles/820411/

#Классификация #Confusion_matrix #Accuracy #Precision #Recall #Fscore #ROCAUC #метрики #искусственный_интеллект #наука_о_данных

#наука_о_данных #искусственный_интеллект #метрики #rocauc #fscore #recall

Habr @[email protected] · 2024-06-08 · 12:32 UTC

Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников , и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами. Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса. Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи: 1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка. К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.

https://habr.com/ru/articles/820411/

#Классификация #Confusion_matrix #Accuracy #Precision #Recall #Fscore #ROCAUC #метрики #искусственный_интеллект #наука_о_данных

#наука_о_данных #искусственный_интеллект #метрики #rocauc #fscore #recall

Habr @[email protected] · 2024-06-08 · 12:32 UTC

Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников , и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами. Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса. Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи: 1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка. К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.

https://habr.com/ru/articles/820411/

#Классификация #Confusion_matrix #Accuracy #Precision #Recall #Fscore #ROCAUC #метрики #искусственный_интеллект #наука_о_данных

#классификация #confusion_matrix #accuracy #precision #recall #fscore

Habr @[email protected] · 2024-01-03 · 13:12 UTC

Мой краш-тест чемпионата: Победа в Data Science треке

Привет! В статье я расскажу о моем опыте победы в чемпионате "CUP IT 2023" от Changellenge в области Data Science. Соревнование построено на кейс-подходе, где участники решают реальные бизнес-вызовы, с которыми сталкиваются сотрудники компаний VK и Альфа-Банка. Я успешно справилась с задачами обеих компаний. В статье вы найдете подробности об особенностях соревнования, ключевых инсайтах, решениях, а также о том, как этот опыт изменил мою карьеру и подарил новые возможности.

https://habr.com/ru/articles/784522/

#хакатоны #карьера_в_itиндустрии #менеджмент_проектов #машинное_обучение #мышление #наука_о_данных #data_analysis

#data_analysis #наука_о_данных #мышление #машинное_обучение #менеджмент_проектов #карьера_в_itиндустрии