home.social

#arcagi2 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #arcagi2, aggregated by home.social.

  1. Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

    Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

    habr.com/ru/articles/1003130/

    #нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

  2. Data contamination threatens #LLM #AIEvaluation Scaling has “limits to growth”. New #ARCAGI2 counters this problem with contamination resistant, compositional reasoning tests and human baselines require original reasoning Not just memory recall evaluation arxiv.org/abs/2505.11831

    ARC-AGI-2: A New Challenge for...

  3. Interesting how Poetiq (company) can improve on the performance of the standard Gemini 3.0 Pro model by adding refinements and tricks. It leads to a 9% improvement on the ARC-AGI-2 Benchmark.
    poetiq.ai/posts/arcagi_verifie
    #AI #Poetiq #ArcAGI2 #Google #GeminiPro