#claude_37_sonnet — Public Fediverse posts on home.social

Habr @[email protected] · 2025-06-30 · 11:42 UTC

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .

https://habr.com/ru/companies/ruvds/articles/920924/

#ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought

#ruvds_статьи #llm #галлюцинации #языковые_модели #дезинформация #функция_рассуждения

Habr @[email protected] · 2025-06-29 · 09:12 UTC

Project Vend: может ли языковая модель продавать чипсы и вольфрам?

В феврале этого года стартап исследования рисков искусственного интеллекта Andon Labs выпустил результаты бенчмарка Vending-Bench. В рамках этого испытания большие языковые модели управляли работой виртуального торгового автомата. Компания Anthropic заинтересовалась опытом Andon Labs. Бенчмарк повторили в реальной жизни в рамках Project Vend. В течение целого месяца агент на Claude 3.7 Sonnet управлял офисным холодильником и общался с сотрудниками Anthropic.

https://habr.com/ru/articles/923022/

#Claude #Claude_37_Sonnet #большие_языковые_модели #БЯМ #ритейл #Project_Vend #VendingBench #галлюцинации #Andon_Labs #Anthropic

#claude #claude_37_sonnet #большие_языковые_модели #бям #ритейл #project_vend

Habr @[email protected] · 2025-06-17 · 20:12 UTC

Битва сильнейших: ChatGPT o1 pro / DeepSeek r1 / Claude 3.7 Sonnet / Gemini 2.5 Pro

На дворе 2025-й — год, когда нейросети уже давно превратились из «чего-то неизведанного, но интересного и манящего» в незримых союзников огромного количества людей, которые с радостью поручают им различные задачи в течение дня. И сегодня мы с вами посмотрим на битву ИИ-титанов: ChatGPT o1 Pro, DeepSeek R1, Claude 3.7 Sonnet и Gemini 2.5 Pro. Ну, может, конечно, будет и не столь зрелищно, как в каких-нибудь боевиках, однако, какая из этих моделей справляется с общими задачами лучше всего, мы с вами постараемся выяснить. Что действительно волнует пользователей — как выбрать идеального ИИ-помощника под свою конкретную задачу? Все чаще они ищут не просто умную нейросеть, а специализированные решения для маркетинга, копирайтинга слоганов, сценариев и других видов контента. В этом обзоре мы с вами не только сравним общие способности лидеров рынка, но и присмотримся к тому, какая модель станет вашим лучшим оружием в конкретных областях.

https://habr.com/ru/companies/bothub/articles/919366/

#нейросети #промты #deepseekr1 #gemini_25_pro #claude_37_sonnet #chatgpt_o1_pro #сравнение

#нейросети #промты #deepseekr1 #gemini_25_pro #claude_37_sonnet #chatgpt_o1_pro

Habr @[email protected] · 2025-05-29 · 13:12 UTC

Проверка текста на орфографию: рейтинг лучших AI-корректоров, часть 1

Вы когда‑нибудь ловили себя на том, что отправляете важное письмо или сообщение, а спустя мгновение замечаете ошибку? Такое ощущение, словно невидимая красная ручка уже начала зачёркивать текст... В статье я исследую инструменты, способные сберечь от этих неприятностей. Всё это нацелено на одну задачу: найти лучший инструмент для проверки орфографии и пунктуации . Эта тема важна для всех, кто взаимодействует с текстом, независимо от того, редактируете ли вы роман, готовите отчёт или пишете пост в соцсетях (да, даже твиты требуют идеальной подачи). Для обзора я выбрал 13 самых популярных онлайн‑сервисов, приложений и нейросетей , чтобы определить, кто лучше сможет проверить правописание (орфографию и пунктуацию). Мы разберём их по косточкам, выявим силу и слабость каждого участника и, конечно, определим победителя. (Ну правда, почему ошибки всегда выпрыгивают на глаза только после отправки?)

https://habr.com/ru/companies/bothub/articles/913858/

#нейросети #корректура #проверка_орфографии #проверка_пунктуации #исправление_ошибок #deepseek_r1 #claude_37_sonnet #grok_3 #chatgpt_4o #chatgpt_41

#chatgpt_41 #chatgpt_4o #grok_3 #claude_37_sonnet #deepseek_r1 #исправление_ошибок

Habr @[email protected] · 2025-04-28 · 15:42 UTC

Рейтинг 6 нейросетей для сокращения текста, ч. 1: промты рвут контент на части

Иногда этот мир слишком многословен. Помните случаи, когда вы открываете статью в «Википедии», а через три минуты осознаёте, что потеряли нить повествования? Нейросети, описанные в этом гайде, больше не допустят такого. Сокращение текста — не просто тренд, а настоящий мастхэв для журналистов, студентов, маркетологов и всех, кто хоть раз топил взгляд в 100-страничных инструкциях. 25 полезных промтов, от создания аннотаций до цепочек постов в телеграм‑канале, а также сильные стороны моделей Gemini-2.5-Pro, Grok-3, ChatGPT-4o, DeepSeek‑R1 и Claude-3.7-Sonnet в задачах сокращения текста — обо всём этом здесь. Забудьте о часах правок, когда ИИ превращает полотна букв в аккуратные саммари.

https://habr.com/ru/companies/bothub/articles/904572/

#нейросети #сокращение_текста #рерайт #промты #gemini_25_pro #claude_37_sonnet

Habr @[email protected] · 2025-03-25 · 17:52 UTC

Claude 3.7 Sonnet: Пора сдвинуть ChatGPT и Deepseek с лидирующих позиций

Последние месяцы рынок генеративного AI буквально кипит — одна за другой выходят мощные новинки. ChatGPT-4.5 от OpenAI , GROK-3 от X , свежие релизы от Google Gemini — и Anthropic не осталась в стороне, представив свою разработку: Claude 3.7 Sonnet. Как заявляют разработчики , новый AI не просто стал быстрее и умнее своих предшественников, он первым внедрил «гибридную модель рассуждений». В этой статье я хочу оценить способности новой модели и, разумеется, выяснить на практике, действительно ли Claude 3.7 Sonnet соответствует всему, что наобещали разработчики. Приятного прочтения)

https://habr.com/ru/companies/bothub/articles/894146/

#ai #искусственный_интеллект #claude_37_sonnet #claude_35 #deepseek_r1 #gpt

#gpt #deepseek_r1 #claude_35 #claude_37_sonnet #искусственный_интеллект #ai

Habr @[email protected] · 2025-03-06 · 11:32 UTC

От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

https://habr.com/ru/articles/888476/

#ии #искусственный_интеллект #ai #llmarena #claude_37_sonnet #gpt4o

#gpt4o #claude_37_sonnet #llmarena #ai #искусственный_интеллект #ии

Habr @[email protected] · 2025-02-28 · 06:52 UTC

Вышла новая GPT-4.5 preview, она сделает меня банкротом

Несколько часов назад (на момент написания статьи) я получил информационный e‑mail от OpenAI с темой «GPT-4.5 research preview» — компания релизит свою самую большую модель на данный момент времени. Сравним стоимость за её использование с другими флагманскими моделями (o1, GPT-4o), а так же прирост в качестве, и поймём, почему она нас разорит.

https://habr.com/ru/articles/886588/

#gpt45 #gpt_45 #gpt45preview #openai #llm #claude_37_sonnet

#claude_37_sonnet #llm #openai #gpt45preview #gpt_45 #gpt45