home.social

#claude_37_sonnet — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #claude_37_sonnet, aggregated by home.social.

  1. «Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

    В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .

    habr.com/ru/companies/ruvds/ar

    #ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought

  2. Project Vend: может ли языковая модель продавать чипсы и вольфрам?

    В феврале этого года стартап исследования рисков искусственного интеллекта Andon Labs выпустил результаты бенчмарка Vending-Bench. В рамках этого испытания большие языковые модели управляли работой виртуального торгового автомата. Компания Anthropic заинтересовалась опытом Andon Labs. Бенчмарк повторили в реальной жизни в рамках Project Vend. В течение целого месяца агент на Claude 3.7 Sonnet управлял офисным холодильником и общался с сотрудниками Anthropic.

    habr.com/ru/articles/923022/

    #Claude #Claude_37_Sonnet #большие_языковые_модели #БЯМ #ритейл #Project_Vend #VendingBench #галлюцинации #Andon_Labs #Anthropic

  3. Битва сильнейших: ChatGPT o1 pro / DeepSeek r1 / Claude 3.7 Sonnet / Gemini 2.5 Pro

    На дворе 2025-й — год, когда нейросети уже давно превратились из «чего-то неизведанного, но интересного и манящего» в незримых союзников огромного количества людей, которые с радостью поручают им различные задачи в течение дня. И сегодня мы с вами посмотрим на битву ИИ-титанов: ChatGPT o1 Pro, DeepSeek R1, Claude 3.7 Sonnet и Gemini 2.5 Pro. Ну, может, конечно, будет и не столь зрелищно, как в каких-нибудь боевиках, однако, какая из этих моделей справляется с общими задачами лучше всего, мы с вами постараемся выяснить. Что действительно волнует пользователей — как выбрать идеального ИИ-помощника под свою конкретную задачу? Все чаще они ищут не просто умную нейросеть, а специализированные решения для маркетинга, копирайтинга слоганов, сценариев и других видов контента. В этом обзоре мы с вами не только сравним общие способности лидеров рынка, но и присмотримся к тому, какая модель станет вашим лучшим оружием в конкретных областях.

    habr.com/ru/companies/bothub/a

    #нейросети #промты #deepseekr1 #gemini_25_pro #claude_37_sonnet #chatgpt_o1_pro #сравнение

  4. Проверка текста на орфографию: рейтинг лучших AI-корректоров, часть 1

    Вы когда‑нибудь ловили себя на том, что отправляете важное письмо или сообщение, а спустя мгновение замечаете ошибку? Такое ощущение, словно невидимая красная ручка уже начала зачёркивать текст... В статье я исследую инструменты, способные сберечь от этих неприятностей. Всё это нацелено на одну задачу: найти лучший инструмент для проверки орфографии и пунктуации . Эта тема важна для всех, кто взаимодействует с текстом, независимо от того, редактируете ли вы роман, готовите отчёт или пишете пост в соцсетях (да, даже твиты требуют идеальной подачи). Для обзора я выбрал 13 самых популярных онлайн‑сервисов, приложений и нейросетей , чтобы определить, кто лучше сможет проверить правописание (орфографию и пунктуацию). Мы разберём их по косточкам, выявим силу и слабость каждого участника и, конечно, определим победителя. (Ну правда, почему ошибки всегда выпрыгивают на глаза только после отправки?)

    habr.com/ru/companies/bothub/a

    #нейросети #корректура #проверка_орфографии #проверка_пунктуации #исправление_ошибок #deepseek_r1 #claude_37_sonnet #grok_3 #chatgpt_4o #chatgpt_41

  5. Рейтинг 6 нейросетей для сокращения текста, ч. 1: промты рвут контент на части

    Иногда этот мир слишком многословен. Помните случаи, когда вы открываете статью в «Википедии», а через три минуты осознаёте, что потеряли нить повествования? Нейросети, описанные в этом гайде, больше не допустят такого. Сокращение текста — не просто тренд, а настоящий мастхэв для журналистов, студентов, маркетологов и всех, кто хоть раз топил взгляд в 100-страничных инструкциях. 25 полезных промтов, от создания аннотаций до цепочек постов в телеграм‑канале, а также сильные стороны моделей Gemini-2.5-Pro, Grok-3, ChatGPT-4o, DeepSeek‑R1 и Claude-3.7-Sonnet в задачах сокращения текста — обо всём этом здесь. Забудьте о часах правок, когда ИИ превращает полотна букв в аккуратные саммари.

    habr.com/ru/companies/bothub/a

    #нейросети #сокращение_текста #рерайт #промты #gemini_25_pro #claude_37_sonnet

  6. Claude 3.7 Sonnet: Пора сдвинуть ChatGPT и Deepseek с лидирующих позиций

    Последние месяцы рынок генеративного AI буквально кипит — одна за другой выходят мощные новинки. ChatGPT-4.5 от OpenAI , GROK-3 от X , свежие релизы от Google Gemini — и Anthropic не осталась в стороне, представив свою разработку: Claude 3.7 Sonnet. Как заявляют разработчики , новый AI не просто стал быстрее и умнее своих предшественников, он первым внедрил «гибридную модель рассуждений». В этой статье я хочу оценить способности новой модели и, разумеется, выяснить на практике, действительно ли Claude 3.7 Sonnet соответствует всему, что наобещали разработчики. Приятного прочтения)

    habr.com/ru/companies/bothub/a

    #ai #искусственный_интеллект #claude_37_sonnet #claude_35 #deepseek_r1 #gpt

  7. От ресторанов до банков: какие компании доверяют ИИ важные задачи

    Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

    habr.com/ru/articles/888476/

    #ии #искусственный_интеллект #ai #llmarena #claude_37_sonnet #gpt4o

  8. Вышла новая GPT-4.5 preview, она сделает меня банкротом

    Несколько часов назад (на момент написания статьи) я получил информационный e‑mail от OpenAI с темой «GPT-4.5 research preview» — компания релизит свою самую большую модель на данный момент времени. Сравним стоимость за её использование с другими флагманскими моделями (o1, GPT-4o), а так же прирост в качестве, и поймём, почему она нас разорит.

    habr.com/ru/articles/886588/

    #gpt45 #gpt_45 #gpt45preview #openai #llm #claude_37_sonnet