home.social

#dynamic_architecture — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #dynamic_architecture, aggregated by home.social.

  1. 97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика

    Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя.

    habr.com/ru/companies/borisova

    #mixture_of_experts #moe #selfdistillation #dynamic_architecture #llm #research

  2. 97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика

    Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя.

    habr.com/ru/companies/borisova

    #mixture_of_experts #moe #selfdistillation #dynamic_architecture #llm #research

  3. 97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика

    Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя.

    habr.com/ru/companies/borisova

    #mixture_of_experts #moe #selfdistillation #dynamic_architecture #llm #research

  4. 97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика

    Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя.

    habr.com/ru/companies/borisova

    #mixture_of_experts #moe #selfdistillation #dynamic_architecture #llm #research

  5. 97 часов на одной RTX 4090: как я учил нейросеть улучшать саму себя — и что пошло не так

    Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя, и как модель в итоге нашла выход сама.

    habr.com/ru/articles/1005168/

    #mixture_of_experts #moe #selfdistillation #dynamic_architecture #pytorch #llm #research

  6. 97 часов на одной RTX 4090: как я учил нейросеть улучшать саму себя — и что пошло не так

    Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя, и как модель в итоге нашла выход сама.

    habr.com/ru/articles/1005168/

    #mixture_of_experts #moe #selfdistillation #dynamic_architecture #pytorch #llm #research

  7. 97 часов на одной RTX 4090: как я учил нейросеть улучшать саму себя — и что пошло не так

    Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя, и как модель в итоге нашла выход сама.

    habr.com/ru/articles/1005168/

    #mixture_of_experts #moe #selfdistillation #dynamic_architecture #pytorch #llm #research

  8. 97 часов на одной RTX 4090: как я учил нейросеть улучшать саму себя — и что пошло не так

    Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя, и как модель в итоге нашла выход сама.

    habr.com/ru/articles/1005168/

    #mixture_of_experts #moe #selfdistillation #dynamic_architecture #pytorch #llm #research