#сравнение_моделей — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #сравнение_моделей, aggregated by home.social.
-
Цифровой аудит против галлюцинаций по ГОСТу. Как понять, когда ответу ИИ нельзя верить?
Все мы привыкли, что нейросети — это про креатив, быстрый поиск и «накидай мне презу на завтра», но что происходит, когда вы выводите LLM из зоны комфорта написания стишков, саммари и поздравлений для бухгалтерии, в зону ответственности, такую как анализ сложных документов, комплаенс, медицина, право, аудит или стратегическое планирование и финансы? Там начинается серая зона, где ИИ не просто ошибается, он совершает ложные декларирования исполнения. То есть говорит: «Я прочитал и проверил», хотя на самом деле: «Я сгенерировал текст, похожий на отчет о проверке».
https://habr.com/ru/articles/1033404/
#ИИ #LLM #интерпретация_ИИ #аудит_ИИ #сравнение_моделей #ChatCPT #Gemini #принятие_решений
-
GLM 5.1 vs. DeepSeek V3.2: сравниваем топовые китайские модели
В Veai мы регулярно тестируем и сравниваем модели, которые доступны у нас в плагине. Каждая модель, которую мы добавляем проходит через наш собственный бенчмарк, прежде чем попасть в продакшн. Недавно тестированию подверглись GLM 5.1 и DeepSeek V3.2. Делимся результатами.
https://habr.com/ru/companies/veai/articles/1027370/
#агент_для_разработчиков #AIагент #бенчмарк_LLM #GLM_51 #DeepSeek_V32 #сравнение_моделей #кодингагент #Veai #open_source_LLM #LLMсудьи
-
[Перевод] Я vs. машина
Прошёл примерно год с тех пор, как я начал активно использовать Claude Code для разработки, и, как я уже писал , это существенно изменило мои рабочие процессы. Продуктивность действительно выросла — но в основном по ощущениям, а они у меня примерно такие же надёжные, как мои эстимейты (то есть никакие, и лучше не станут). Так что я решил, что пора проверить своё чутьё абсолютно научно пуленепробиваемым способом (со статистически высокозначимой контрольной группой из меня , себя и моей собственной персоны ).
https://habr.com/ru/articles/1000556/
#claude_code #ииагенты #LLM #вайбкодинг #автоматизация_разработки #сравнение_моделей #opensource_LLM #codex #kimi
-
[Перевод] Я vs. машина
Прошёл примерно год с тех пор, как я начал активно использовать Claude Code для разработки, и, как я уже писал , это существенно изменило мои рабочие процессы. Продуктивность действительно выросла — но в основном по ощущениям, а они у меня примерно такие же надёжные, как мои эстимейты (то есть никакие, и лучше не станут). Так что я решил, что пора проверить своё чутьё абсолютно научно пуленепробиваемым способом (со статистически высокозначимой контрольной группой из меня , себя и моей собственной персоны ).
https://habr.com/ru/articles/1000556/
#claude_code #ииагенты #LLM #вайбкодинг #автоматизация_разработки #сравнение_моделей #opensource_LLM #codex #kimi
-
[Перевод] Я vs. машина
Прошёл примерно год с тех пор, как я начал активно использовать Claude Code для разработки, и, как я уже писал , это существенно изменило мои рабочие процессы. Продуктивность действительно выросла — но в основном по ощущениям, а они у меня примерно такие же надёжные, как мои эстимейты (то есть никакие, и лучше не станут). Так что я решил, что пора проверить своё чутьё абсолютно научно пуленепробиваемым способом (со статистически высокозначимой контрольной группой из меня , себя и моей собственной персоны ).
https://habr.com/ru/articles/1000556/
#claude_code #ииагенты #LLM #вайбкодинг #автоматизация_разработки #сравнение_моделей #opensource_LLM #codex #kimi
-
[Перевод] Я vs. машина
Прошёл примерно год с тех пор, как я начал активно использовать Claude Code для разработки, и, как я уже писал , это существенно изменило мои рабочие процессы. Продуктивность действительно выросла — но в основном по ощущениям, а они у меня примерно такие же надёжные, как мои эстимейты (то есть никакие, и лучше не станут). Так что я решил, что пора проверить своё чутьё абсолютно научно пуленепробиваемым способом (со статистически высокозначимой контрольной группой из меня , себя и моей собственной персоны ).
https://habr.com/ru/articles/1000556/
#claude_code #ииагенты #LLM #вайбкодинг #автоматизация_разработки #сравнение_моделей #opensource_LLM #codex #kimi
-
[Перевод] Руководство по PyTorch для новичков: создаём модель множественной регрессии с нуля
В реальных задачах машинного обучения куда чаще приходится иметь дело не с «миллионами картинок», а с небольшими табличными датасетами вроде Abalone из UCI. В статье разбирается путь от честного EDA и линейной регрессии до нейросетевой модели на PyTorch: что дают трансформации признаков, какие проблемы создают гетероскедастичность и мультиколлинеарность, когда глубокая модель действительно улучшает метрики, а когда остаётся всего лишь дорогим способом получить те же самые 4–5 % выигрыша. По сути, это разбор того, где проходит граница здравого смысла между «добавим ещё один слой» и «нам хватит простой модели».
https://habr.com/ru/companies/otus/articles/975328/
#машинное_обучение #множественная_регрессия #нейронная_сеть #PyTorch #анализ_данных #EDA #инженерия_признаков #качество_модели #сравнение_моделей
-
Как бесплатно использовать и сравнивать топовые платные ИИ-модели (на примере Seedream v4)
Перед тем, как платить за доступ к моделям (особенно дорогим), полезно «пощупать» их на своих задачах. В этой статье я продемонстрировала рабочий способ бесплатно сравнить топовые модели ИИ на примере платной Seedream v4 ( ByteDance ) и Nano Banana ( Google ) через сайт Yupp.ai . Эта платформа показывает два ответа разных моделей, вы выбираете лучший, оставляете короткий фидбек и зарабатываете кредиты, которыми «оплачиваете» последующие прогоны. Затем вы уже сами выбираете, какие именно модели (даже платные) хотите тестировать
https://habr.com/ru/articles/954678/
#нейросети #сравнение #сравнение_моделей #как_бесплатно_протестировать_модель #обзор_сервисов #практика #гайд #nano_banana #seedream4 #бесплатно
-
Как бесплатно использовать и сравнивать топовые платные ИИ-модели (на примере Seedream v4)
Перед тем, как платить за доступ к моделям (особенно дорогим), полезно «пощупать» их на своих задачах. В этой статье я продемонстрировала рабочий способ бесплатно сравнить топовые модели ИИ на примере платной Seedream v4 ( ByteDance ) и Nano Banana ( Google ) через сайт Yupp.ai . Эта платформа показывает два ответа разных моделей, вы выбираете лучший, оставляете короткий фидбек и зарабатываете кредиты, которыми «оплачиваете» последующие прогоны. Затем вы уже сами выбираете, какие именно модели (даже платные) хотите тестировать
https://habr.com/ru/articles/954678/
#нейросети #сравнение #сравнение_моделей #как_бесплатно_протестировать_модель #обзор_сервисов #практика #гайд #nano_banana #seedream4 #бесплатно
-
Как бесплатно использовать и сравнивать топовые платные ИИ-модели (на примере Seedream v4)
Перед тем, как платить за доступ к моделям (особенно дорогим), полезно «пощупать» их на своих задачах. В этой статье я продемонстрировала рабочий способ бесплатно сравнить топовые модели ИИ на примере платной Seedream v4 ( ByteDance ) и Nano Banana ( Google ) через сайт Yupp.ai . Эта платформа показывает два ответа разных моделей, вы выбираете лучший, оставляете короткий фидбек и зарабатываете кредиты, которыми «оплачиваете» последующие прогоны. Затем вы уже сами выбираете, какие именно модели (даже платные) хотите тестировать
https://habr.com/ru/articles/954678/
#нейросети #сравнение #сравнение_моделей #как_бесплатно_протестировать_модель #обзор_сервисов #практика #гайд #nano_banana #seedream4 #бесплатно
-
Как бесплатно использовать и сравнивать топовые платные ИИ-модели (на примере Seedream v4)
Перед тем, как платить за доступ к моделям (особенно дорогим), полезно «пощупать» их на своих задачах. В этой статье я продемонстрировала рабочий способ бесплатно сравнить топовые модели ИИ на примере платной Seedream v4 ( ByteDance ) и Nano Banana ( Google ) через сайт Yupp.ai . Эта платформа показывает два ответа разных моделей, вы выбираете лучший, оставляете короткий фидбек и зарабатываете кредиты, которыми «оплачиваете» последующие прогоны. Затем вы уже сами выбираете, какие именно модели (даже платные) хотите тестировать
https://habr.com/ru/articles/954678/
#нейросети #сравнение #сравнение_моделей #как_бесплатно_протестировать_модель #обзор_сервисов #практика #гайд #nano_banana #seedream4 #бесплатно
-
SQL и нейросети: изучаем логику моделей через анализ и визуализацию весов
SQL — это не только про базы данных. В машинном обучении его используют для анализа весов, поиска аномалий, сравнения моделей и визуализации их логики. SQL помогает определить значимость признаков, заметить переобучение и оценить работу модели. В статье разберём, как хранить и извлекать веса, вычислять ключевые метрики и строить графики.
https://habr.com/ru/companies/netologyru/articles/891690/
#sql #машинное_обучение #machine_learning #ml #оптимизация_запросов #sql_запросы #нейросети #визуализация_данных #сравнение_моделей #базы_данных
-
Русскоязычные LLM: отечественные разработки в сравнении с глобальными адаптациями
Кто справляется с русским языком эффективнее: локальные разработки или глобальные адаптации? Мы сравнили отечественные модели, такие как GigaChat, с их западными конкурентами, включая ChatGPT. Немного разберемся, какие модели подходят для бизнеса, творчества и аналитики в русскоязычном сегменте
https://habr.com/ru/companies/korus_consulting/articles/888568/
#llmмодели #нейросети #api #chatgpt #gigachat #cotype #сравнение_моделей #языковые_модели
-
[Перевод] Тест Grok-3 против DeepSeek-r1: когда бесплатный ИИ наступает на пятки платному
16 февраля Илон Маск объявил о запуске Grok-3 , назвав его «самым умным ИИ на планете». Интересно, как Grok-3 выглядит на фоне модели DeepSeek‑r1 ? Этот вопрос не давал мне покоя, и я решил проверить, кто из них сильнее в таких областях, как программирование , логика , математика и творческое письмо . Давайте разберёмся, оправдан ли весь этот ажиотаж вокруг Grok-3 . Я протестировал обе модели, используя специально составленный список запросов, и тщательно оценил их способности в разных задачах.
-
Как я объединил перевод и суммаризацию текстов, и что из этого вышло
Перевод и суммаризация текстов – это две задачи, которые на первый взгляд кажутся совершенно разными. Перевод требует точного передачи исходного содержания на другой язык, сохраняя все детали и нюансы. Суммаризация же предполагает сокращение текста до его основных идей, часто убирая второстепенные детали. Однако при ближайшем рассмотрении эти задачи имеют много общего...
https://habr.com/ru/articles/879212/
#суммаризация_текста #суммаризация #перевод #переводчик #многозадачное_обучение #сравнение_моделей #бесплатная_модель #китайский #английский #русский