home.social

#сравнение_моделей — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #сравнение_моделей, aggregated by home.social.

  1. Цифровой аудит против галлюцинаций по ГОСТу. Как понять, когда ответу ИИ нельзя верить?

    Все мы привыкли, что нейросети — это про креатив, быстрый поиск и «накидай мне презу на завтра», но что происходит, когда вы выводите LLM из зоны комфорта написания стишков, саммари и поздравлений для бухгалтерии, в зону ответственности, такую как анализ сложных документов, комплаенс, медицина, право, аудит или стратегическое планирование и финансы? Там начинается серая зона, где ИИ не просто ошибается, он совершает ложные декларирования исполнения. То есть говорит: «Я прочитал и проверил», хотя на самом деле: «Я сгенерировал текст, похожий на отчет о проверке».

    habr.com/ru/articles/1033404/

    #ИИ #LLM #интерпретация_ИИ #аудит_ИИ #сравнение_моделей #ChatCPT #Gemini #принятие_решений

  2. GLM 5.1 vs. DeepSeek V3.2: сравниваем топовые китайские модели

    В Veai мы регулярно тестируем и сравниваем модели, которые доступны у нас в плагине. Каждая модель, которую мы добавляем проходит через наш собственный бенчмарк, прежде чем попасть в продакшн. Недавно тестированию подверглись GLM 5.1 и DeepSeek V3.2. Делимся результатами.

    habr.com/ru/companies/veai/art

    #агент_для_разработчиков #AIагент #бенчмарк_LLM #GLM_51 #DeepSeek_V32 #сравнение_моделей #кодингагент #Veai #open_source_LLM #LLMсудьи

  3. [Перевод] Я vs. машина

    Прошёл примерно год с тех пор, как я начал активно использовать Claude Code для разработки, и, как я уже писал , это существенно изменило мои рабочие процессы. Продуктивность действительно выросла — но в основном по ощущениям, а они у меня примерно такие же надёжные, как мои эстимейты (то есть никакие, и лучше не станут). Так что я решил, что пора проверить своё чутьё абсолютно научно пуленепробиваемым способом (со статистически высокозначимой контрольной группой из меня , себя и моей собственной персоны ).

    habr.com/ru/articles/1000556/

    #claude_code #ииагенты #LLM #вайбкодинг #автоматизация_разработки #сравнение_моделей #opensource_LLM #codex #kimi

  4. [Перевод] Я vs. машина

    Прошёл примерно год с тех пор, как я начал активно использовать Claude Code для разработки, и, как я уже писал , это существенно изменило мои рабочие процессы. Продуктивность действительно выросла — но в основном по ощущениям, а они у меня примерно такие же надёжные, как мои эстимейты (то есть никакие, и лучше не станут). Так что я решил, что пора проверить своё чутьё абсолютно научно пуленепробиваемым способом (со статистически высокозначимой контрольной группой из меня , себя и моей собственной персоны ).

    habr.com/ru/articles/1000556/

    #claude_code #ииагенты #LLM #вайбкодинг #автоматизация_разработки #сравнение_моделей #opensource_LLM #codex #kimi

  5. [Перевод] Я vs. машина

    Прошёл примерно год с тех пор, как я начал активно использовать Claude Code для разработки, и, как я уже писал , это существенно изменило мои рабочие процессы. Продуктивность действительно выросла — но в основном по ощущениям, а они у меня примерно такие же надёжные, как мои эстимейты (то есть никакие, и лучше не станут). Так что я решил, что пора проверить своё чутьё абсолютно научно пуленепробиваемым способом (со статистически высокозначимой контрольной группой из меня , себя и моей собственной персоны ).

    habr.com/ru/articles/1000556/

    #claude_code #ииагенты #LLM #вайбкодинг #автоматизация_разработки #сравнение_моделей #opensource_LLM #codex #kimi

  6. [Перевод] Я vs. машина

    Прошёл примерно год с тех пор, как я начал активно использовать Claude Code для разработки, и, как я уже писал , это существенно изменило мои рабочие процессы. Продуктивность действительно выросла — но в основном по ощущениям, а они у меня примерно такие же надёжные, как мои эстимейты (то есть никакие, и лучше не станут). Так что я решил, что пора проверить своё чутьё абсолютно научно пуленепробиваемым способом (со статистически высокозначимой контрольной группой из меня , себя и моей собственной персоны ).

    habr.com/ru/articles/1000556/

    #claude_code #ииагенты #LLM #вайбкодинг #автоматизация_разработки #сравнение_моделей #opensource_LLM #codex #kimi

  7. [Перевод] Руководство по PyTorch для новичков: создаём модель множественной регрессии с нуля

    В реальных задачах машинного обучения куда чаще приходится иметь дело не с «миллионами картинок», а с небольшими табличными датасетами вроде Abalone из UCI. В статье разбирается путь от честного EDA и линейной регрессии до нейросетевой модели на PyTorch: что дают трансформации признаков, какие проблемы создают гетероскедастичность и мультиколлинеарность, когда глубокая модель действительно улучшает метрики, а когда остаётся всего лишь дорогим способом получить те же самые 4–5 % выигрыша. По сути, это разбор того, где проходит граница здравого смысла между «добавим ещё один слой» и «нам хватит простой модели».

    habr.com/ru/companies/otus/art

    #машинное_обучение #множественная_регрессия #нейронная_сеть #PyTorch #анализ_данных #EDA #инженерия_признаков #качество_модели #сравнение_моделей

  8. Как бесплатно использовать и сравнивать топовые платные ИИ-модели (на примере Seedream v4)

    Перед тем, как платить за доступ к моделям (особенно дорогим), полезно «пощупать» их на своих задачах. В этой статье я продемонстрировала рабочий способ бесплатно сравнить топовые модели ИИ на примере платной Seedream v4 ( ByteDance ) и Nano Banana ( Google ) через сайт Yupp.ai . Эта платформа показывает два ответа разных моделей, вы выбираете лучший, оставляете короткий фидбек и зарабатываете кредиты, которыми «оплачиваете» последующие прогоны. Затем вы уже сами выбираете, какие именно модели (даже платные) хотите тестировать

    habr.com/ru/articles/954678/

    #нейросети #сравнение #сравнение_моделей #как_бесплатно_протестировать_модель #обзор_сервисов #практика #гайд #nano_banana #seedream4 #бесплатно

  9. Как бесплатно использовать и сравнивать топовые платные ИИ-модели (на примере Seedream v4)

    Перед тем, как платить за доступ к моделям (особенно дорогим), полезно «пощупать» их на своих задачах. В этой статье я продемонстрировала рабочий способ бесплатно сравнить топовые модели ИИ на примере платной Seedream v4 ( ByteDance ) и Nano Banana ( Google ) через сайт Yupp.ai . Эта платформа показывает два ответа разных моделей, вы выбираете лучший, оставляете короткий фидбек и зарабатываете кредиты, которыми «оплачиваете» последующие прогоны. Затем вы уже сами выбираете, какие именно модели (даже платные) хотите тестировать

    habr.com/ru/articles/954678/

    #нейросети #сравнение #сравнение_моделей #как_бесплатно_протестировать_модель #обзор_сервисов #практика #гайд #nano_banana #seedream4 #бесплатно

  10. Как бесплатно использовать и сравнивать топовые платные ИИ-модели (на примере Seedream v4)

    Перед тем, как платить за доступ к моделям (особенно дорогим), полезно «пощупать» их на своих задачах. В этой статье я продемонстрировала рабочий способ бесплатно сравнить топовые модели ИИ на примере платной Seedream v4 ( ByteDance ) и Nano Banana ( Google ) через сайт Yupp.ai . Эта платформа показывает два ответа разных моделей, вы выбираете лучший, оставляете короткий фидбек и зарабатываете кредиты, которыми «оплачиваете» последующие прогоны. Затем вы уже сами выбираете, какие именно модели (даже платные) хотите тестировать

    habr.com/ru/articles/954678/

    #нейросети #сравнение #сравнение_моделей #как_бесплатно_протестировать_модель #обзор_сервисов #практика #гайд #nano_banana #seedream4 #бесплатно

  11. Как бесплатно использовать и сравнивать топовые платные ИИ-модели (на примере Seedream v4)

    Перед тем, как платить за доступ к моделям (особенно дорогим), полезно «пощупать» их на своих задачах. В этой статье я продемонстрировала рабочий способ бесплатно сравнить топовые модели ИИ на примере платной Seedream v4 ( ByteDance ) и Nano Banana ( Google ) через сайт Yupp.ai . Эта платформа показывает два ответа разных моделей, вы выбираете лучший, оставляете короткий фидбек и зарабатываете кредиты, которыми «оплачиваете» последующие прогоны. Затем вы уже сами выбираете, какие именно модели (даже платные) хотите тестировать

    habr.com/ru/articles/954678/

    #нейросети #сравнение #сравнение_моделей #как_бесплатно_протестировать_модель #обзор_сервисов #практика #гайд #nano_banana #seedream4 #бесплатно

  12. SQL и нейросети: изучаем логику моделей через анализ и визуализацию весов

    SQL — это не только про базы данных. В машинном обучении его используют для анализа весов, поиска аномалий, сравнения моделей и визуализации их логики. SQL помогает определить значимость признаков, заметить переобучение и оценить работу модели. В статье разберём, как хранить и извлекать веса, вычислять ключевые метрики и строить графики.

    habr.com/ru/companies/netology

    #sql #машинное_обучение #machine_learning #ml #оптимизация_запросов #sql_запросы #нейросети #визуализация_данных #сравнение_моделей #базы_данных

  13. Русскоязычные LLM: отечественные разработки в сравнении с глобальными адаптациями

    Кто справляется с русским языком эффективнее: локальные разработки или глобальные адаптации? Мы сравнили отечественные модели, такие как GigaChat, с их западными конкурентами, включая ChatGPT. Немного разберемся, какие модели подходят для бизнеса, творчества и аналитики в русскоязычном сегменте

    habr.com/ru/companies/korus_co

    #llmмодели #нейросети #api #chatgpt #gigachat #cotype #сравнение_моделей #языковые_модели

  14. [Перевод] Тест Grok-3 против DeepSeek-r1: когда бесплатный ИИ наступает на пятки платному

    16 февраля Илон Маск объявил о запуске Grok-3 , назвав его «самым умным ИИ на планете». Интересно, как Grok-3 выглядит на фоне модели DeepSeek‑r1 ? Этот вопрос не давал мне покоя, и я решил проверить, кто из них сильнее в таких областях, как программирование , логика , математика и творческое письмо . Давайте разберёмся, оправдан ли весь этот ажиотаж вокруг Grok-3 . Я протестировал обе модели, используя специально составленный список запросов, и тщательно оценил их способности в разных задачах.

    habr.com/ru/companies/bothub/a

    #ии #ai #grok #deepseek #сравнение_моделей

  15. Как я объединил перевод и суммаризацию текстов, и что из этого вышло

    Перевод и суммаризация текстов – это две задачи, которые на первый взгляд кажутся совершенно разными. Перевод требует точного передачи исходного содержания на другой язык, сохраняя все детали и нюансы. Суммаризация же предполагает сокращение текста до его основных идей, часто убирая второстепенные детали. Однако при ближайшем рассмотрении эти задачи имеют много общего...

    habr.com/ru/articles/879212/

    #суммаризация_текста #суммаризация #перевод #переводчик #многозадачное_обучение #сравнение_моделей #бесплатная_модель #китайский #английский #русский