home.social

#llmjudge — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #llmjudge, aggregated by home.social.

  1. Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

    Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда база выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что воспроизводимый и объясняет, какой инструмент под какую задачу. Дальше — цифры, стек и три разбора «почему не взлетело».

    habr.com/ru/articles/1040322/

    #llm #gemma4 #dora #lora #sft #llmjudge

  2. Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

    Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда база выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что воспроизводимый и объясняет, какой инструмент под какую задачу. Дальше — цифры, стек и три разбора «почему не взлетело».

    habr.com/ru/articles/1040322/

    #llm #gemma4 #dora #lora #sft #llmjudge

  3. Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

    Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда база выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что воспроизводимый и объясняет, какой инструмент под какую задачу. Дальше — цифры, стек и три разбора «почему не взлетело».

    habr.com/ru/articles/1040322/

    #llm #gemma4 #dora #lora #sft #llmjudge

  4. Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

    Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда база выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что воспроизводимый и объясняет, какой инструмент под какую задачу. Дальше — цифры, стек и три разбора «почему не взлетело».

    habr.com/ru/articles/1040322/

    #llm #gemma4 #dora #lora #sft #llmjudge

  5. Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

    Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.

    habr.com/ru/articles/1036448/

    #llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge

  6. Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

    Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.

    habr.com/ru/articles/1036448/

    #llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge

  7. Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

    Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.

    habr.com/ru/articles/1036448/

    #llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge

  8. Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

    Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.

    habr.com/ru/articles/1036448/

    #llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge