#llmjudge — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-27 · 19:22 UTC

Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда база выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что воспроизводимый и объясняет, какой инструмент под какую задачу. Дальше — цифры, стек и три разбора «почему не взлетело».

https://habr.com/ru/articles/1040322/

#llm #gemma4 #dora #lora #sft #llmjudge

#llmjudge #sft #lora #dora #gemma4 #llm

Habr @[email protected] · 2026-05-27 · 19:22 UTC

Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда база выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что воспроизводимый и объясняет, какой инструмент под какую задачу. Дальше — цифры, стек и три разбора «почему не взлетело».

https://habr.com/ru/articles/1040322/

#llm #gemma4 #dora #lora #sft #llmjudge

#llmjudge #sft #lora #dora #gemma4 #llm

Habr @[email protected] · 2026-05-27 · 19:22 UTC

Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда база выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что воспроизводимый и объясняет, какой инструмент под какую задачу. Дальше — цифры, стек и три разбора «почему не взлетело».

https://habr.com/ru/articles/1040322/

#llm #gemma4 #dora #lora #sft #llmjudge

#llmjudge #sft #lora #dora #gemma4 #llm

Habr @[email protected] · 2026-05-27 · 19:22 UTC

Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда база выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что воспроизводимый и объясняет, какой инструмент под какую задачу. Дальше — цифры, стек и три разбора «почему не взлетело».

https://habr.com/ru/articles/1040322/

#llm #gemma4 #dora #lora #sft #llmjudge

Habr @[email protected] · 2026-05-18 · 12:32 UTC

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.

https://habr.com/ru/articles/1036448/

#llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge

#llmjudge #спорт #sft #dora #русский_язык #openrouter

Habr @[email protected] · 2026-05-18 · 12:32 UTC

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.

https://habr.com/ru/articles/1036448/

#llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge

#openrouter #qwen #gemma #бенчмарк #llm #llmjudge

Habr @[email protected] · 2026-05-18 · 12:32 UTC

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.

https://habr.com/ru/articles/1036448/

#llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge

#llmjudge #спорт #sft #dora #русский_язык #openrouter

Habr @[email protected] · 2026-05-18 · 12:32 UTC

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.

https://habr.com/ru/articles/1036448/

#llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge

#llm #бенчмарк #gemma #qwen #openrouter #русский_язык