#reinforcement_learning — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #reinforcement_learning, aggregated by home.social.
-
От «Долгого Джонта» Кинга до pip install: пишем HAL для атомного манипулятора
Начал с фантазий про телепортацию из рассказа Кинга, закончил Python-пакетом для управления атомным микроскопом. Симулятор вместо оборудования за $500K, замена LabVIEW на asyncio, drop-in для RL-агента.
https://habr.com/ru/articles/1014592/
#STM #машинное_обучение #reinforcement_learning #python #open_source #нанотехнологии
-
От «Долгого Джонта» Кинга до pip install: пишем HAL для атомного манипулятора
Начал с фантазий про телепортацию из рассказа Кинга, закончил Python-пакетом для управления атомным микроскопом. Симулятор вместо оборудования за $500K, замена LabVIEW на asyncio, drop-in для RL-агента.
https://habr.com/ru/articles/1014592/
#STM #машинное_обучение #reinforcement_learning #python #open_source #нанотехнологии
-
От «Долгого Джонта» Кинга до pip install: пишем HAL для атомного манипулятора
Начал с фантазий про телепортацию из рассказа Кинга, закончил Python-пакетом для управления атомным микроскопом. Симулятор вместо оборудования за $500K, замена LabVIEW на asyncio, drop-in для RL-агента.
https://habr.com/ru/articles/1014592/
#STM #машинное_обучение #reinforcement_learning #python #open_source #нанотехнологии
-
Лимит доверия: как ИИ решает, сколько денег вам можно дать (и почему это часто несправедливо)
Что влияет на размер вашего кредитного лимита? И почему банк может вдруг его уменьшить, даже если вы всегда вовремя вносите платежи? В предыдущей статье мы выяснили, как банки применяют модели машинного обучения для определения вашей кредитоспособности; в этой статье мы рассмотрим примеры Synchrony Bank и Apple Card, объясним тактику “low-and-grow” и продемонстрируем, как банки задействуют поведенческую экономику и обучение с подкреплением для контроля над вашими задолженностями. Очень интересно, хочу прочитать!
https://habr.com/ru/articles/1001676/
#кредитный_лимит #Apple_Card #Reinforcement_Learning #поведенческая_экономика
-
Лимит доверия: как ИИ решает, сколько денег вам можно дать (и почему это часто несправедливо)
Что влияет на размер вашего кредитного лимита? И почему банк может вдруг его уменьшить, даже если вы всегда вовремя вносите платежи? В предыдущей статье мы выяснили, как банки применяют модели машинного обучения для определения вашей кредитоспособности; в этой статье мы рассмотрим примеры Synchrony Bank и Apple Card, объясним тактику “low-and-grow” и продемонстрируем, как банки задействуют поведенческую экономику и обучение с подкреплением для контроля над вашими задолженностями. Очень интересно, хочу прочитать!
https://habr.com/ru/articles/1001676/
#кредитный_лимит #Apple_Card #Reinforcement_Learning #поведенческая_экономика
-
Лимит доверия: как ИИ решает, сколько денег вам можно дать (и почему это часто несправедливо)
Что влияет на размер вашего кредитного лимита? И почему банк может вдруг его уменьшить, даже если вы всегда вовремя вносите платежи? В предыдущей статье мы выяснили, как банки применяют модели машинного обучения для определения вашей кредитоспособности; в этой статье мы рассмотрим примеры Synchrony Bank и Apple Card, объясним тактику “low-and-grow” и продемонстрируем, как банки задействуют поведенческую экономику и обучение с подкреплением для контроля над вашими задолженностями. Очень интересно, хочу прочитать!
https://habr.com/ru/articles/1001676/
#кредитный_лимит #Apple_Card #Reinforcement_Learning #поведенческая_экономика
-
Лимит доверия: как ИИ решает, сколько денег вам можно дать (и почему это часто несправедливо)
Что влияет на размер вашего кредитного лимита? И почему банк может вдруг его уменьшить, даже если вы всегда вовремя вносите платежи? В предыдущей статье мы выяснили, как банки применяют модели машинного обучения для определения вашей кредитоспособности; в этой статье мы рассмотрим примеры Synchrony Bank и Apple Card, объясним тактику “low-and-grow” и продемонстрируем, как банки задействуют поведенческую экономику и обучение с подкреплением для контроля над вашими задолженностями. Очень интересно, хочу прочитать!
https://habr.com/ru/articles/1001676/
#кредитный_лимит #Apple_Card #Reinforcement_Learning #поведенческая_экономика
-
Kimi K2.5: Как научить нейросеть не бояться параллельности
Moonshot AI выкатили K2.5. Пресс-релиз трубит про «самую мощную open-source модель», но я бы хотел поговорить о другом — о том, что они сделали с агентами. Начну с конца. Там есть график, который стоит тысячи слов. Ось X — сложность задачи. Ось Y — время выполнения. Две линии: одиночный агент и рой агентов. Одиночный агент карабкается вверх линейно. Рой держится почти горизонтально. На сложных задачах разрыв — в четыре с половиной раза. Параллельные агенты обсуждают давно, но тут впервые показали, как этому научить модель, а не прописывать логику декомпозиции вручную. Также, выдали доступ к этим агентам по ценам, похожим на ChatGPT — настоящий рой агентов, выданный в одни руки, за сравнимую стоимость — фантастика. Интересно. Читать далее
https://habr.com/ru/companies/bar/articles/989426/
#машинное_обучение #reinforcement_learning #LLM #мультиагентные_системы #нейросети #искусственный_интеллект #deep_learning #open_source #параллельные_вычисления #Moonshot_AI
-
Открытый репозиторий для изучения онлайн-рекламы: датасет, подборка материалов, симулятор и примеры RL-агентов
Привет, Хабр! Меня зовут Дмитрий Фролов, я ведущий разработчик в Центре компетенций Data Science МТС Web Services. За каждым показом онлайн-рекламы стоит очень сложный механизм. Одно из его ключевых понятий — Real-Time Bidding (RTB). Это аукцион онлайн-рекламы, где решается, какое объявление будет показано пользователю на определенном веб-сайте или в приложении. Особенность RTB — необходимость максимально быстро принять решение, для чего системы обучаются с помощью технологии reinforcement learning (RL). Это достаточно сложная задача — доступных материалов по ней не так много и непонятно, с какой стороны подступиться. Вместе с коллегами мы собрали репозиторий , который может помочь разработчикам погрузиться в специфику онлайн-аукционов. Он содержит датасет с данными RTB, подборку теоретических материалов, симулятор аукционов и примеры работающих RL-алгоритомов. Все подробности и ссылки — под катом.
https://habr.com/ru/companies/ru_mts/articles/984826/
#онлайнреклама #realtime_bidding #reinforcement_learning #оптимизация_ставок
-
Reproducing DeepSeek's MHC: When Residual Connections Explode
https://taylorkolasinski.com/notes/mhc-reproduction/
#ycombinator #Taylor_Kolasinski #ML_systems #machine_learning #reinforcement_learning #robotics #Brooklyn #software_engineer -
Reproducing DeepSeek's MHC: When Residual Connections Explode
https://taylorkolasinski.com/notes/mhc-reproduction/
#ycombinator #Taylor_Kolasinski #ML_systems #machine_learning #reinforcement_learning #robotics #Brooklyn #software_engineer -
Reproducing DeepSeek's MHC: When Residual Connections Explode
https://taylorkolasinski.com/notes/mhc-reproduction/
#ycombinator #Taylor_Kolasinski #ML_systems #machine_learning #reinforcement_learning #robotics #Brooklyn #software_engineer -
Reproducing DeepSeek's MHC: When Residual Connections Explode
https://taylorkolasinski.com/notes/mhc-reproduction/
#ycombinator #Taylor_Kolasinski #ML_systems #machine_learning #reinforcement_learning #robotics #Brooklyn #software_engineer -
Reinforcement Learning: Policy gradient methods
В предыдущих статьях Intro Reinforcement Learning и Reinforcement Learning: Model-free & Deep RL были рассмотрены подходы, в которых оптимальные действия находились косвенно через оценку полезности состояний или пар «состояние–действие». Такие методы принято называть value-based. Однако возникает вопрос: зачем строить сложные цепочки через value-функции, если можно напрямую обучать агента выбирать правильные действия? Такой policy-based подход интуитивно кажется проще и естественнее. Здесь о том, как это делается (ノ◕ヮ◕)ノ
https://habr.com/ru/articles/979394/
#Policy_gradient_methods #ActorCritic #Reinforcement_Learning #rl #Advantage
-
В России разработали метод ускорения настройки базовых станций 5G с помощью ИИ
Российская компания «Криптонит» (входит в «ИКС Холдинг») разработала метод автоматизации настройки ключевых СВЧ-компонентов базовых станций и ретрансляторов сетей 5G с помощью технологий искусственного интеллекта. Разработка поможет ускорить и упростить процесс производства оборудования для сетей пятого поколения, что особенно важно для крупных городов, где требуется быстрая и точная настройка тысяч базовых станций. Работа выполнена по предложению входящей в «ИКС Холдинг» компании YADRO, одно из направлений деятельности которой — разработка и производство телекоммуникационного оборудования операторского класса. Базовая станция должна одновременно принимать и передавать сигнал через общую антенну. Для этого применяется частотное разделение каналов, за которое отвечает дуплексер. Точность подбора его параметров напрямую влияет на качество связи. При этом настройка дуплексера — трудоёмкий процесс, требующий несколько часов работы опытного специалиста. Одна базовая станция может содержать более десяти радиомодулей и используемых в них дуплексеров. При масштабных установках — в объёме нескольких тысяч станций — потенциальный эффект от автоматизации настройки оценивается в десятки и сотни тысяч часов автоматизированной ручной работы. Для автоматизации настройки разные исследователи пытались применять методы обучения с подкреплением (reinforcement learning, RL), но такой подход давал результат только на упрощённых моделях. В «Криптоните» переформулировали задачу так, что её теперь можно решить традиционным и более надёжным методом — обучением с учителем (supervised learning, SL). Разработанная нейросеть анализирует частотные кривые дуплексера и предсказывает корректировки регулировочных винтов. Дополнительный алгоритм пошагово применяет предсказания нейросети, что снижает риск ошибочной настройки.
https://habr.com/ru/companies/kryptonite/articles/978120/
#reinforcement_learning #supervised_learning #finetuning #5G #автоматизация #дуплексер #диплексер #настройка #базовые_станции
-
В России разработали метод ускорения настройки базовых станций 5G с помощью ИИ
Российская компания «Криптонит» (входит в «ИКС Холдинг») разработала метод автоматизации настройки ключевых СВЧ-компонентов базовых станций и ретрансляторов сетей 5G с помощью технологий искусственного интеллекта. Разработка поможет ускорить и упростить процесс производства оборудования для сетей пятого поколения, что особенно важно для крупных городов, где требуется быстрая и точная настройка тысяч базовых станций. Работа выполнена по предложению входящей в «ИКС Холдинг» компании YADRO, одно из направлений деятельности которой — разработка и производство телекоммуникационного оборудования операторского класса. Базовая станция должна одновременно принимать и передавать сигнал через общую антенну. Для этого применяется частотное разделение каналов, за которое отвечает дуплексер. Точность подбора его параметров напрямую влияет на качество связи. При этом настройка дуплексера — трудоёмкий процесс, требующий несколько часов работы опытного специалиста. Одна базовая станция может содержать более десяти радиомодулей и используемых в них дуплексеров. При масштабных установках — в объёме нескольких тысяч станций — потенциальный эффект от автоматизации настройки оценивается в десятки и сотни тысяч часов автоматизированной ручной работы. Для автоматизации настройки разные исследователи пытались применять методы обучения с подкреплением (reinforcement learning, RL), но такой подход давал результат только на упрощённых моделях. В «Криптоните» переформулировали задачу так, что её теперь можно решить традиционным и более надёжным методом — обучением с учителем (supervised learning, SL). Разработанная нейросеть анализирует частотные кривые дуплексера и предсказывает корректировки регулировочных винтов. Дополнительный алгоритм пошагово применяет предсказания нейросети, что снижает риск ошибочной настройки.
https://habr.com/ru/companies/kryptonite/articles/978120/
#reinforcement_learning #supervised_learning #finetuning #5G #автоматизация #дуплексер #диплексер #настройка #базовые_станции
-
В России разработали метод ускорения настройки базовых станций 5G с помощью ИИ
Российская компания «Криптонит» (входит в «ИКС Холдинг») разработала метод автоматизации настройки ключевых СВЧ-компонентов базовых станций и ретрансляторов сетей 5G с помощью технологий искусственного интеллекта. Разработка поможет ускорить и упростить процесс производства оборудования для сетей пятого поколения, что особенно важно для крупных городов, где требуется быстрая и точная настройка тысяч базовых станций. Работа выполнена по предложению входящей в «ИКС Холдинг» компании YADRO, одно из направлений деятельности которой — разработка и производство телекоммуникационного оборудования операторского класса. Базовая станция должна одновременно принимать и передавать сигнал через общую антенну. Для этого применяется частотное разделение каналов, за которое отвечает дуплексер. Точность подбора его параметров напрямую влияет на качество связи. При этом настройка дуплексера — трудоёмкий процесс, требующий несколько часов работы опытного специалиста. Одна базовая станция может содержать более десяти радиомодулей и используемых в них дуплексеров. При масштабных установках — в объёме нескольких тысяч станций — потенциальный эффект от автоматизации настройки оценивается в десятки и сотни тысяч часов автоматизированной ручной работы. Для автоматизации настройки разные исследователи пытались применять методы обучения с подкреплением (reinforcement learning, RL), но такой подход давал результат только на упрощённых моделях. В «Криптоните» переформулировали задачу так, что её теперь можно решить традиционным и более надёжным методом — обучением с учителем (supervised learning, SL). Разработанная нейросеть анализирует частотные кривые дуплексера и предсказывает корректировки регулировочных винтов. Дополнительный алгоритм пошагово применяет предсказания нейросети, что снижает риск ошибочной настройки.
https://habr.com/ru/companies/kryptonite/articles/978120/
#reinforcement_learning #supervised_learning #finetuning #5G #автоматизация #дуплексер #диплексер #настройка #базовые_станции
-
В России разработали метод ускорения настройки базовых станций 5G с помощью ИИ
Российская компания «Криптонит» (входит в «ИКС Холдинг») разработала метод автоматизации настройки ключевых СВЧ-компонентов базовых станций и ретрансляторов сетей 5G с помощью технологий искусственного интеллекта. Разработка поможет ускорить и упростить процесс производства оборудования для сетей пятого поколения, что особенно важно для крупных городов, где требуется быстрая и точная настройка тысяч базовых станций. Работа выполнена по предложению входящей в «ИКС Холдинг» компании YADRO, одно из направлений деятельности которой — разработка и производство телекоммуникационного оборудования операторского класса. Базовая станция должна одновременно принимать и передавать сигнал через общую антенну. Для этого применяется частотное разделение каналов, за которое отвечает дуплексер. Точность подбора его параметров напрямую влияет на качество связи. При этом настройка дуплексера — трудоёмкий процесс, требующий несколько часов работы опытного специалиста. Одна базовая станция может содержать более десяти радиомодулей и используемых в них дуплексеров. При масштабных установках — в объёме нескольких тысяч станций — потенциальный эффект от автоматизации настройки оценивается в десятки и сотни тысяч часов автоматизированной ручной работы. Для автоматизации настройки разные исследователи пытались применять методы обучения с подкреплением (reinforcement learning, RL), но такой подход давал результат только на упрощённых моделях. В «Криптоните» переформулировали задачу так, что её теперь можно решить традиционным и более надёжным методом — обучением с учителем (supervised learning, SL). Разработанная нейросеть анализирует частотные кривые дуплексера и предсказывает корректировки регулировочных винтов. Дополнительный алгоритм пошагово применяет предсказания нейросети, что снижает риск ошибочной настройки.
https://habr.com/ru/companies/kryptonite/articles/978120/
#reinforcement_learning #supervised_learning #finetuning #5G #автоматизация #дуплексер #диплексер #настройка #базовые_станции
-
RL (RLM): Разбираемся вместе
Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).
https://habr.com/ru/articles/958062/
#Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi
-
RL (RLM): Разбираемся вместе
Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).
https://habr.com/ru/articles/958062/
#Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi
-
RL (RLM): Разбираемся вместе
Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).
https://habr.com/ru/articles/958062/
#Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi
-
RL (RLM): Разбираемся вместе
Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).
https://habr.com/ru/articles/958062/
#Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi
-
Intro RL
Для меня разобраться в базовых концепциях Reinforcement Learning оказалось не так просто, особенно сложными оказались функции Беллмана. Эта статья — моя попытка систематизировать материал и объяснить себе (и, возможно, другим), что, откуда и почему берется. Будет здорово, если она поможет кому-то разложить все по полочкам.
-
Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT
IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым. Меня зовут Максим Князев, старший системный инженер К2 Кибербезопасность , и я натренировал пять ИИ-агентов для управления этим хаосом. Один прогнозирует пики нагрузки, другой распределяет временные слоты, третий управляет мощностью передачи, четвертый распределяет устройства по типам и пятый оптимизирует расход батарей. В итоге количество коллизий упало с 26% до 7%, энергопотребление на 35%, а успешность подключений выросла до 96% по сравнению с использованием статического метода без агентов. Под катом рассказываю, как это работает.
https://habr.com/ru/companies/k2tech/articles/950230/
#iot_security #ииагент #iotустройства #nbiot #reinforcement_learning #машинное_обучение #беспроводные_сети #беспроводные_технологии #интернет_вещей #обучение_с_подкреплением
-
Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT
IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым. Меня зовут Максим Князев, старший системный инженер К2 Кибербезопасность , и я натренировал пять ИИ-агентов для управления этим хаосом. Один прогнозирует пики нагрузки, другой распределяет временные слоты, третий управляет мощностью передачи, четвертый распределяет устройства по типам и пятый оптимизирует расход батарей. В итоге количество коллизий упало с 26% до 7%, энергопотребление на 35%, а успешность подключений выросла до 96% по сравнению с использованием статического метода без агентов. Под катом рассказываю, как это работает.
https://habr.com/ru/companies/k2tech/articles/950230/
#iot_security #ииагент #iotустройства #nbiot #reinforcement_learning #машинное_обучение #беспроводные_сети #беспроводные_технологии #интернет_вещей #обучение_с_подкреплением
-
Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT
IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым. Меня зовут Максим Князев, старший системный инженер К2 Кибербезопасность , и я натренировал пять ИИ-агентов для управления этим хаосом. Один прогнозирует пики нагрузки, другой распределяет временные слоты, третий управляет мощностью передачи, четвертый распределяет устройства по типам и пятый оптимизирует расход батарей. В итоге количество коллизий упало с 26% до 7%, энергопотребление на 35%, а успешность подключений выросла до 96% по сравнению с использованием статического метода без агентов. Под катом рассказываю, как это работает.
https://habr.com/ru/companies/k2tech/articles/950230/
#iot_security #ииагент #iotустройства #nbiot #reinforcement_learning #машинное_обучение #беспроводные_сети #беспроводные_технологии #интернет_вещей #обучение_с_подкреплением
-
Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT
IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым. Меня зовут Максим Князев, старший системный инженер К2 Кибербезопасность , и я натренировал пять ИИ-агентов для управления этим хаосом. Один прогнозирует пики нагрузки, другой распределяет временные слоты, третий управляет мощностью передачи, четвертый распределяет устройства по типам и пятый оптимизирует расход батарей. В итоге количество коллизий упало с 26% до 7%, энергопотребление на 35%, а успешность подключений выросла до 96% по сравнению с использованием статического метода без агентов. Под катом рассказываю, как это работает.
https://habr.com/ru/companies/k2tech/articles/950230/
#iot_security #ииагент #iotустройства #nbiot #reinforcement_learning #машинное_обучение #беспроводные_сети #беспроводные_технологии #интернет_вещей #обучение_с_подкреплением
-
Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше
Привет, Хабр! Меня зовут Роман, я NLP-инженер в Сбере. Занимаюсь мультиагентными системами и работаю с LLM в проде. Сегодня расскажу про одну из самых интересных статей июня по версии Huggingface Daily Papers — Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning .
https://habr.com/ru/articles/935368/
#llm #rl #nlp #машинное_обучение #ml #reinforcement_learning
-
Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум
Аналитический центр red_mad_robot продолжает разбирать исследования японской лаборатории Sakana AI — в прошлый раз это была архитектура CTM, вдохновлённая внутренней динамикой человеческого мышления. Теперь — метод, который помогает языковым моделям мыслить точнее уже на этапе выполнения запроса. В работе представлены два подхода: AB‑MCTS и его расширение Multi‑LLM AB‑MCTS. Первый объединяет два принципа — уточнение уже готовых ответов и генерацию альтернативных, второй добавляет работу нескольких языковых моделей. Всё это чтобы научить модели «думать» одновременно глубже и шире.
https://habr.com/ru/companies/redmadrobot/articles/933222/
#ai #llm #monte_carlo_tree_search #abmcts #inference #reasoning #thompson_sampling #reinforcement_learning
-
От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения
Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей AI из передовых международных университетов и технологических компаний. Работа предлагает новый взгляд на текущее состояние и развитие «интеллектуальных агентов», которые могут адаптироваться к множеству задач и контекстов. Рассказываем, какие идеи лежат в основе Foundation Agents, с какими проблемами предстоит столкнуться, и что ждёт нас в будущем.
https://habr.com/ru/companies/redmadrobot/articles/930916/
#ai #machine_learning #deep_learning #large_language_models #multiagent_systems #reinforcement_learning #prompt_engineering #rag #alignment #jailbreak
-
LiberalMind 1.5- LLM на уровне Gemini 2.5, созданная в России
Сама идея возникла еще год назад.Хотелось создать LLM, которая будет больше всего приближена к AGI.В октябре 2024 было разработано и продумано несколько систем претрейна моделей,а также их дообучение и reinforcement learning системы.Также была разработана новая система декодера на основе декодировщика ROPE.Но к сожалению ресурсов на внедрение таких технологий хватало лишь на модели до 20M параметров,что означало и маленький набор данных для обучения,поэтому смысла в этом ине было. В апреле был разработан опенсорс агент на основе гемини,который с помощью технологии нескольких вариантов ответа и их анализа был по качеству намного лучше grmini 2.5 pro, хотя агент был разработан на основе gemini 2.0.Агент был назван LiberalMind 1.0
https://habr.com/ru/articles/930352/
#ai #ml #llmмодели #llm #машинное_обучение #искусственный_интеллект #loraадаптеры #finetuning #reinforcement_learning #языковые_модели
-
Human Brain Cells on Chip for Sale – First biocomputing platform hits the market
https://spectrum.ieee.org/biological-computer-for-sale
#ycombinator #biological_circuit #drug_discovery #neuromorphic_computing #reinforcement_learning -
Human Brain Cells on Chip for Sale – First biocomputing platform hits the market
https://spectrum.ieee.org/biological-computer-for-sale
#ycombinator #biological_circuit #drug_discovery #neuromorphic_computing #reinforcement_learning -
Human Brain Cells on Chip for Sale – First biocomputing platform hits the market
https://spectrum.ieee.org/biological-computer-for-sale
#ycombinator #biological_circuit #drug_discovery #neuromorphic_computing #reinforcement_learning -
Human Brain Cells on Chip for Sale – First biocomputing platform hits the market
https://spectrum.ieee.org/biological-computer-for-sale
#ycombinator #biological_circuit #drug_discovery #neuromorphic_computing #reinforcement_learning -
ИИ простыми словами, часть 2. Reinforcement Learning (RL)
Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их. Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы когда я пишу статьи, я сразу мог бы дать ссылку на понятное и простое объяснение сложных терминов. А ещё в этом проекте, мне захотелось сопровождать мои материалы симпатичными и понятными иллюстрациями на русском языке, поэтому я рисую их самостоятельно. Так я начал свой хобби‑проект « AI человеческим языком ». Каждую новую статью про популярный термин я хочу адаптировать под Хабр, и выкладывать сюда. В последнее время мы видим огромный прогресс в обучении ИИ без участия человека. Это важно, потому что люди - бутылочное горлышко, подготовка и разметка данных вручную человеком - крайне дорогостоящий и длительный процесс. Революция, которую произвел DeepSeek R1 - это как раз следствие найденного способа обучать ИИ без ручного труда. Вчера я рассказывал о том, как китайские ученые автоматизировали процесс обучения ИИ программированию при помощи другого ИИ, который пишет тесты . А сегодня я хочу подробнее описать, в чем суть Reinforcement learning - термина, который используется почти во всех статьях про обучение ИИ.
https://habr.com/ru/articles/880180/
#искусственный_интеллект #reinforcement_learning #ии #deepseek
-
ИИ на путях: как решить задачу перепланирования расписания движения поездов
Привет, Хабр. Я Артур Саакян, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. Мы разрабатываем уникальные цифровые продукты для железнодорожных перевозок, такие как оптимизация ЖД перевозок, навигатор, ЖД карты, цифровой вагон и так далее. В этой статье опишу подход к оптимизации расписания поездов в реальном времени при помощи обучения с подкреплением (RL), который применим и к российским грузовым ж/д перевозкам, но пока не используется. Тезисы статьи: 1. Перепланирование расписания движения поездов (Train Timetable Rescheduling) 2. Коротко об RL и Q-learning 3. Моделирование железнодорожной среды 4. Заключение
https://habr.com/ru/companies/pgk/articles/875386/
#жд #artificial_intelligence #machine_learning #reinforcement_learning #искусственный_интеллект #машинное_обучение #обучение_с_подкреплением #ии
-
Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене
Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении! Готовы? Тогда - вперед! На арену!
https://habr.com/ru/articles/872514/
#The_MuJoCo_Men #reinforcement_learning #machine_learning #машинное_обучение #JAX #MuJoCo #SAC #обучение_с_подкреплением
-
Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене
Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении! Готовы? Тогда - вперед! На арену!
https://habr.com/ru/articles/872514/
#The_MuJoCo_Men #reinforcement_learning #machine_learning #машинное_обучение #JAX #MuJoCo #SAC #обучение_с_подкреплением
-
Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене
Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении! Готовы? Тогда - вперед! На арену!
https://habr.com/ru/articles/872514/
#The_MuJoCo_Men #reinforcement_learning #machine_learning #машинное_обучение #JAX #MuJoCo #SAC #обучение_с_подкреплением
-
Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене
Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении! Готовы? Тогда - вперед! На арену!
https://habr.com/ru/articles/872514/
#The_MuJoCo_Men #reinforcement_learning #machine_learning #машинное_обучение #JAX #MuJoCo #SAC #обучение_с_подкреплением
-
ChatGPT Learned to Reason [video]
https://www.youtube.com/watch?v=PvDaPeQjxOE
#ycombinator #AI_reasoning #ChatGPT_explained #artificial_intelligence #neural_networks #Monte_Carlo_Tree_Search #DeepMind #AlphaGo #chess_AI #language_models #machine_learning #reinforcement_learning #deep_learning #AI_history #GPT_training #chain_of_thought #AI_breakthrough #game_AI #TD_Gammon #MuZero #Claude_AI #O1_AI #AI_algorithms #AI_development #computer_reasoning #AI_evolution #future_AI -
ChatGPT Learned to Reason [video]
https://www.youtube.com/watch?v=PvDaPeQjxOE
#ycombinator #AI_reasoning #ChatGPT_explained #artificial_intelligence #neural_networks #Monte_Carlo_Tree_Search #DeepMind #AlphaGo #chess_AI #language_models #machine_learning #reinforcement_learning #deep_learning #AI_history #GPT_training #chain_of_thought #AI_breakthrough #game_AI #TD_Gammon #MuZero #Claude_AI #O1_AI #AI_algorithms #AI_development #computer_reasoning #AI_evolution #future_AI -
ChatGPT Learned to Reason [video]
https://www.youtube.com/watch?v=PvDaPeQjxOE
#ycombinator #AI_reasoning #ChatGPT_explained #artificial_intelligence #neural_networks #Monte_Carlo_Tree_Search #DeepMind #AlphaGo #chess_AI #language_models #machine_learning #reinforcement_learning #deep_learning #AI_history #GPT_training #chain_of_thought #AI_breakthrough #game_AI #TD_Gammon #MuZero #Claude_AI #O1_AI #AI_algorithms #AI_development #computer_reasoning #AI_evolution #future_AI -
ChatGPT Learned to Reason [video]
https://www.youtube.com/watch?v=PvDaPeQjxOE
#ycombinator #AI_reasoning #ChatGPT_explained #artificial_intelligence #neural_networks #Monte_Carlo_Tree_Search #DeepMind #AlphaGo #chess_AI #language_models #machine_learning #reinforcement_learning #deep_learning #AI_history #GPT_training #chain_of_thought #AI_breakthrough #game_AI #TD_Gammon #MuZero #Claude_AI #O1_AI #AI_algorithms #AI_development #computer_reasoning #AI_evolution #future_AI -
ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя
Главная задача рекомендательной системы — предоставить пользователю контент, фильм, трек, книгу, товар или информацию, которые могут заинтересовать его в данный момент. Сложность в том, что у нас нет явного запроса пользователя, как в поиске, есть только история его взаимодействий с объектами и наша надежда на то, что мы верно распознали его скрытые желания. Раньше для такой задачи нужно было строить сложные алгоритмы со множеством написанных вручную эвристик. Теперь с этим помогают ML‑технологии. Меня зовут Кирилл Хрыльченко, я руковожу командой R&D рекомендательных технологий в Яндексе. Наша команда исследует и разрабатывает новые технологии, а также активно следит за тем, что появляется нового в индустрии. Сегодня я поделюсь трендами развития рекомендательных систем и расскажу, как нейросети продолжают улучшать качество рекомендаций: какие есть нюансы в работе с LLM, чем полезно обучение с подкреплением, что изменилось в плане анализа истории пользователя, а также на что обратить внимание при масштабировании.
https://habr.com/ru/companies/yandex/articles/857068/
#recsys #машинное_обучение #нейросети #рекомендательные_системы #llm #ранжирование #графы #reinforcement_learning
-
OpenAI o1 — LLM, обученная выполнять сложные логические рассуждения
OpenAI изменили направление развития своих языковых моделей, от просто генерации текста их последняя модель перешла к решению задач с использованием логики и пошагового анализа проблемы. До сих пор LLM генерировали текст на основе данных, использованных в процессе обучения. Веса модели хранят представление о зависимостях между текстовыми токенами, полученное из исходного корпуса данных. Соответственно, модель просто генерирует наиболее вероятные токены "по памяти", но не выполняет с их помощью никакой по-настоящему интеллектуальной работы.
https://habr.com/ru/articles/847354/
#MLOps #машинное_обучение #нейронные_сети #reinforcement_learning #NLP #большие_языковые_модели #квантизация #data_engineering #llama #llm
-
OpenAI o1 — LLM, обученная выполнять сложные логические рассуждения
OpenAI изменили направление развития своих языковых моделей, от просто генерации текста их последняя модель перешла к решению задач с использованием логики и пошагового анализа проблемы. До сих пор LLM генерировали текст на основе данных, использованных в процессе обучения. Веса модели хранят представление о зависимостях между текстовыми токенами, полученное из исходного корпуса данных. Соответственно, модель просто генерирует наиболее вероятные токены "по памяти", но не выполняет с их помощью никакой по-настоящему интеллектуальной работы.
https://habr.com/ru/articles/847354/
#MLOps #машинное_обучение #нейронные_сети #reinforcement_learning #NLP #большие_языковые_модели #квантизация #data_engineering #llama #llm
-
OpenAI o1 — LLM, обученная выполнять сложные логические рассуждения
OpenAI изменили направление развития своих языковых моделей, от просто генерации текста их последняя модель перешла к решению задач с использованием логики и пошагового анализа проблемы. До сих пор LLM генерировали текст на основе данных, использованных в процессе обучения. Веса модели хранят представление о зависимостях между текстовыми токенами, полученное из исходного корпуса данных. Соответственно, модель просто генерирует наиболее вероятные токены "по памяти", но не выполняет с их помощью никакой по-настоящему интеллектуальной работы.
https://habr.com/ru/articles/847354/
#MLOps #машинное_обучение #нейронные_сети #reinforcement_learning #NLP #большие_языковые_модели #квантизация #data_engineering #llama #llm
-
Reinforcement Learning в задаче групповой оптимизации цен
Привет, Хабр! Ранее мы рассмотрели вопрос применения подходов Reinforcement Learning в ценообразовании в разрезе одного товара. В этой статье покажем, как можно применить RL при наличии ограничений на группу товаров при помощи оптимизации с ограничениями.
https://habr.com/ru/companies/X5Tech/articles/826400/
#математика #машинное_обучение #reinforcement_learning #pyomo #многорукий_бандит