home.social

#thompson_sampling — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #thompson_sampling, aggregated by home.social.

  1. Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум

    Аналитический центр red_mad_robot продолжает разбирать исследования японской лаборатории Sakana AI — в прошлый раз это была архитектура CTM, вдохновлённая внутренней динамикой человеческого мышления. Теперь — метод, который помогает языковым моделям мыслить точнее уже на этапе выполнения запроса. В работе представлены два подхода: AB‑MCTS и его расширение Multi‑LLM AB‑MCTS. Первый объединяет два принципа — уточнение уже готовых ответов и генерацию альтернативных, второй добавляет работу нескольких языковых моделей. Всё это чтобы научить модели «думать» одновременно глубже и шире.

    habr.com/ru/companies/redmadro

    #ai #llm #monte_carlo_tree_search #abmcts #inference #reasoning #thompson_sampling #reinforcement_learning