#qlearning — Public Fediverse posts on home.social

Habr @[email protected] · 2025-12-31 · 10:32 UTC

[AI ⊂ TM] Машина Тьюринга и искусственный интеллект

Почему машина Тьюринга ( TM ) сегодня в теме про искусственный интеллект ( AI ) ? Ведь AI сегодня это все больше про машинное обучение ( ML ), искусственные нейронные сети ( ANN ), LLM, вычисления на CUDA и т. п. Причина в том, что никакой AI, с точки зрения математики, не превосходит по возможностям TM.

https://habr.com/ru/articles/982124/

#Turing_machine #машина_тьюринга #генетическое_программирование #генетические_алгоритмы #qlearning #reinforcementlearning #reinforecement_learning #нейронная_сеть #neural_network

#neural_network #нейронная_сеть #reinforecement_learning #reinforcementlearning #qlearning #генетические_алгоритмы

Habr @[email protected] · 2025-12-31 · 10:32 UTC

[AI ⊂ TM] Машина Тьюринга и искусственный интеллект

Почему машина Тьюринга ( TM ) сегодня в теме про искусственный интеллект ( AI ) ? Ведь AI сегодня это все больше про машинное обучение ( ML ), искусственные нейронные сети ( ANN ), LLM, вычисления на CUDA и т. п. Причина в том, что никакой AI, с точки зрения математики, не превосходит по возможностям TM.

https://habr.com/ru/articles/982124/

#Turing_machine #машина_тьюринга #генетическое_программирование #генетические_алгоритмы #qlearning #reinforcementlearning #reinforecement_learning #нейронная_сеть #neural_network

#neural_network #нейронная_сеть #reinforecement_learning #reinforcementlearning #qlearning #генетические_алгоритмы

Habr @[email protected] · 2025-12-31 · 10:32 UTC

[AI ⊂ TM] Машина Тьюринга и искусственный интеллект

Почему машина Тьюринга ( TM ) сегодня в теме про искусственный интеллект ( AI ) ? Ведь AI сегодня это все больше про машинное обучение ( ML ), искусственные нейронные сети ( ANN ), LLM, вычисления на CUDA и т. п. Причина в том, что никакой AI, с точки зрения математики, не превосходит по возможностям TM.

https://habr.com/ru/articles/982124/

#Turing_machine #машина_тьюринга #генетическое_программирование #генетические_алгоритмы #qlearning #reinforcementlearning #reinforecement_learning #нейронная_сеть #neural_network

#neural_network #нейронная_сеть #reinforecement_learning #reinforcementlearning #qlearning #генетические_алгоритмы

Habr @[email protected] · 2025-12-31 · 10:32 UTC

[AI ⊂ TM] Машина Тьюринга и искусственный интеллект

Почему машина Тьюринга ( TM ) сегодня в теме про искусственный интеллект ( AI ) ? Ведь AI сегодня это все больше про машинное обучение ( ML ), искусственные нейронные сети ( ANN ), LLM, вычисления на CUDA и т. п. Причина в том, что никакой AI, с точки зрения математики, не превосходит по возможностям TM.

https://habr.com/ru/articles/982124/

#Turing_machine #машина_тьюринга #генетическое_программирование #генетические_алгоритмы #qlearning #reinforcementlearning #reinforecement_learning #нейронная_сеть #neural_network

#turing_machine #машина_тьюринга #генетическое_программирование #генетические_алгоритмы #qlearning #reinforcementlearning

Habr @[email protected] · 2025-11-19 · 23:02 UTC

Reinforcement Learning: Model-free & Deep RL

Продолжаю погружаться в Reinforcement Learning. Здесь продолжение статьи Intro Reinforcement Learning . Если предыдущая часть помогла вам понять, что такое среда, агент, награды и функции ценности, то здесь мы сделаем шаг дальше: мы переходим к model-free алгоритмам и Deep Reinforcement Learning , где агент учится оптимальной стратегии, не имея прямого доступа к модели среды.

https://habr.com/ru/articles/956890/

#Modelfree_RL #dql #sarsa #qlearning #rl #reinforcementlearning #reinforecement_learning #bellman_equation

#modelfree_rl #dql #sarsa #qlearning #rl #reinforcementlearning

N-gated Hacker News @[email protected] · 2025-06-15 · 01:29 UTC

🚀🎮 "Revolutionary" newsflash: Q-learning is still gasping for air while the rest of AI freely dances around with scalable glory. Apparently, the memo didn't reach Park at UC Berkeley, who is still lost in some time-travel paradox from 2025. 🤖📉
https://seohong.me/blog/q-learning-is-not-yet-scalable/ #Qlearning #AIresearch #UCberkeley #TechNews #TimeTravel #HackerNews #ngated

#qlearning #airesearch #ucberkeley #technews #timetravel #hackernews

Hacker News @[email protected] · 2025-06-15 · 01:29 UTC

Q-learning is not yet scalable

https://seohong.me/blog/q-learning-is-not-yet-scalable/

#HackerNews #Qlearning #Scalability #AI #Research #MachineLearning #TechNews

#hackernews #qlearning #scalability #ai #research #machinelearning

Habr @[email protected] · 2025-06-12 · 14:52 UTC

Обыгрываем казино, с блэкджеком и стратегиями

В данной статье рассмотрим работу с библиотекой gymnasium для изучения машинного обучения с подкреплением. Реализуем агента, который использует метод машинного обучения q-learning для максимизации выигрыша в карточной игре blackjack. Сравним средний выигрыш за 100000 игр при различных реализациях игры blackjack.

https://habr.com/ru/articles/917924/

#rl #blackjack #ml #python #qlearning

#qlearning #python #ml #blackjack #rl

Habr @[email protected] · 2025-05-26 · 15:22 UTC

Как я открыл WebSocket для Сомников из Чёрного Зеркала, а они начали водить хороводы

С приходом популярности генеративных нейросетей, другие виды искусственного интеллекта тоже получили своё место под солнцем. Однако, ещё до этого уже существовали проекты, где искусственный интеллект играет в различные игры, получает очки за достижение целей и обучается на основе своих результатов. При этом, у каждого игрового ИИ есть свой массив доступных ему действий, который может быть постоянным или изменяемым согласно правилам. Я решил собрать небольшой проект, описать механизм взаимодействия ИИ с игровым пространством, а уже потом наполнить игру правилами и смыслом.

https://habr.com/ru/articles/912934/

#искусственный_интеллект #java #html #javascript #webflux #spring #qlearning #gamedev #черное_зеркало

#черное_зеркало #gamedev #qlearning #spring #webflux #javascript

Habr @[email protected] · 2024-09-09 · 11:42 UTC

Нейронные оптимизаторы запросов в реляционных БД (Часть 1)

В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое количество различных коммерческих и open-source реляционных систем управления базами данных (РСУБД). Скоро стало понятно, что эффективное получение данных из базы — задача далеко не тривиальная. Если говорить прямо, она нелинейная и в общем случае NP-сложная. Когда SQL-запрос становится немного сложнее: SELECT * FROM table , у нас появляется огромная вариативность его исполнения внутри системы — и не всегда понятно, какой из возможных вариантов эффективнее как по памяти, так и по скорости. Чтобы сократить огромное количество вариантов до приемлемого, обычно используются так называемые эвристики — эмпирические правила, которые придуманы человеком для сокращения пространства поиска на несколько порядков. Понятное дело, эти правила могут отсечь и сам оптимальный план выполнения запроса, но позволяют получить хоть что-то приемлемое за адекватное время. В последние годы в связи с активным развитием ML начали развиваться и нейронные оптимизаторы запросов —особенность которых в том, что они самостоятельно, без участия человека, находят необходимые закономерности в выполнении сложных планов исходя из обучения на огромном количестве данных. Тенденция началась приблизительно в 2017 году и продолжается до сих пор. Давайте посмотрим, что уже появилось в этой области в хронологическом порядке и какие перспективы нас ждут.

https://habr.com/ru/companies/postgrespro/articles/841918/

#postgresql #Оптимизация #оптимизация_запросов #reinforcementlearning #машинное_обучение #нейросети #qlearning #deep_qlearning #оптимизация_плана #субд

#субд #оптимизация_плана #deep_qlearning #qlearning #нейросети #машинное_обучение

Habr @[email protected] · 2024-09-09 · 11:42 UTC

Нейронные оптимизаторы запросов в реляционных БД (Часть 1)

В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое количество различных коммерческих и open-source реляционных систем управления базами данных (РСУБД). Скоро стало понятно, что эффективное получение данных из базы — задача далеко не тривиальная. Если говорить прямо, она нелинейная и в общем случае NP-сложная. Когда SQL-запрос становится немного сложнее: SELECT * FROM table , у нас появляется огромная вариативность его исполнения внутри системы — и не всегда понятно, какой из возможных вариантов эффективнее как по памяти, так и по скорости. Чтобы сократить огромное количество вариантов до приемлемого, обычно используются так называемые эвристики — эмпирические правила, которые придуманы человеком для сокращения пространства поиска на несколько порядков. Понятное дело, эти правила могут отсечь и сам оптимальный план выполнения запроса, но позволяют получить хоть что-то приемлемое за адекватное время. В последние годы в связи с активным развитием ML начали развиваться и нейронные оптимизаторы запросов —особенность которых в том, что они самостоятельно, без участия человека, находят необходимые закономерности в выполнении сложных планов исходя из обучения на огромном количестве данных. Тенденция началась приблизительно в 2017 году и продолжается до сих пор. Давайте посмотрим, что уже появилось в этой области в хронологическом порядке и какие перспективы нас ждут.

https://habr.com/ru/companies/postgrespro/articles/841918/

#postgresql #Оптимизация #оптимизация_запросов #reinforcementlearning #машинное_обучение #нейросети #qlearning #deep_qlearning #оптимизация_плана #субд

#субд #оптимизация_плана #deep_qlearning #qlearning #нейросети #машинное_обучение

Habr @[email protected] · 2024-09-09 · 11:42 UTC

Нейронные оптимизаторы запросов в реляционных БД (Часть 1)

В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое количество различных коммерческих и open-source реляционных систем управления базами данных (РСУБД). Скоро стало понятно, что эффективное получение данных из базы — задача далеко не тривиальная. Если говорить прямо, она нелинейная и в общем случае NP-сложная. Когда SQL-запрос становится немного сложнее: SELECT * FROM table , у нас появляется огромная вариативность его исполнения внутри системы — и не всегда понятно, какой из возможных вариантов эффективнее как по памяти, так и по скорости. Чтобы сократить огромное количество вариантов до приемлемого, обычно используются так называемые эвристики — эмпирические правила, которые придуманы человеком для сокращения пространства поиска на несколько порядков. Понятное дело, эти правила могут отсечь и сам оптимальный план выполнения запроса, но позволяют получить хоть что-то приемлемое за адекватное время. В последние годы в связи с активным развитием ML начали развиваться и нейронные оптимизаторы запросов —особенность которых в том, что они самостоятельно, без участия человека, находят необходимые закономерности в выполнении сложных планов исходя из обучения на огромном количестве данных. Тенденция началась приблизительно в 2017 году и продолжается до сих пор. Давайте посмотрим, что уже появилось в этой области в хронологическом порядке и какие перспективы нас ждут.

https://habr.com/ru/companies/postgrespro/articles/841918/

#postgresql #Оптимизация #оптимизация_запросов #reinforcementlearning #машинное_обучение #нейросети #qlearning #deep_qlearning #оптимизация_плана #субд

#postgresql #оптимизация #оптимизация_запросов #reinforcementlearning #машинное_обучение #нейросети

Wojtyr @[email protected] · 2024-04-26 · 08:31 UTC

Sometimes I wish I stayed at the university and continued studying #MachineLearning. I could have been playing #Atari video games!

Look what cool experiments have been done with classic #Atari games and Deep Q-Learning Network (DQN).

DQN outperformed humans in majority of those games.

#AI #Qlearning #DeepLearning

#machinelearning #atari #ai #qlearning #deeplearning

Habr @[email protected] · 2024-04-07 · 09:32 UTC

[Перевод] Гайд на Reinforcement Learning для новичков. Реализация простой задачи

Давайте рассмотрим аналогию с обучением собаки новым трюкам. В этом сценарии мы моделируем ситуацию, а собака пытается реагировать на нее по-разному. Если реакция собаки оказывается желаемой, мы поощряем ее кормом. В противном случае мы тем или иным способом даем понять, что ее реакция не является желаемой. Теперь каждый раз, когда собака попадает в ту же ситуацию, она выполняет аналогичное действие с еще большим энтузиазмом, ожидая получить больше еды. По сути, она учится тому, что нужно делать, на основе положительного опыта. Точно так же она будет учиться тому, что не следует делать, когда сталкивается с негативным опытом. Именно так работает Reinforcement Learning в широком смысле

https://habr.com/ru/articles/805917/

#ml #qlearning #reinforcementlearning #алгоритмы #машинное+обучение

#машинное #алгоритмы #reinforcementlearning #qlearning #ml

Habr @[email protected] · 2024-01-26 · 15:35 UTC

Обучение с подкреплением. Q-обучение. Понятное объяснение

В данной статье я подробно опишу один из методов обучения с подкреплением - обучение на основе функции полезности (Q-обучение или Q-learning).

https://habr.com/ru/articles/789218/

#qlearning #qобучение #обучение_с_подкреплением #машинное_обучение #машинное_обучение_нейросети_python

#машинное_обучение_нейросети_python #машинное_обучение #обучение_с_подкреплением #qобучение #qlearning

AlexCrimi @[email protected] · 2023-11-23 · 23:36 UTC

To calm down all your craze about #AGI, Therminator and end of the world. Q* will not unlock AGI
#Qlearning , the Belmman-Ford and Dijkstra algorithms for shortest path search all share a common principle called "relaxation" ... nothing special
#OpenAIDrama like a telenovelas

#openaidrama #qlearning #agi

रञ्जित (Ranjit Mathew) @[email protected] · 2023-10-24 · 14:21 UTC

This is just silly; I don't know what the author was really expecting here:

"I Asked An Algorithm To Optimize My Life. Here's What Happened", Wired (https://www.wired.com/story/i-asked-an-algorithm-to-optimize-my-life/).

#AI #ReinforcementLearning #QLearning #ML #LifeHacks #Optimization

#ai #reinforcementlearning #qlearning #ml #lifehacks #optimization