#mixture_of_experts — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-26 · 08:42 UTC

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

https://habr.com/ru/articles/1028032/

#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

#стоимость_инференса #openai_anthropic_конкуренция #ai_безопасность #дистилляция_моделей #экспортный_контроль_ai #swebench

Habr @[email protected] · 2026-04-26 · 08:42 UTC

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

https://habr.com/ru/articles/1028032/

#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

#стоимость_инференса #openai_anthropic_конкуренция #ai_безопасность #дистилляция_моделей #экспортный_контроль_ai #swebench

Habr @[email protected] · 2026-04-26 · 08:42 UTC

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

https://habr.com/ru/articles/1028032/

#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

#стоимость_инференса #openai_anthropic_конкуренция #ai_безопасность #дистилляция_моделей #экспортный_контроль_ai #swebench

Habr @[email protected] · 2026-04-26 · 08:42 UTC

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

https://habr.com/ru/articles/1028032/

#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

#deepseek_v4 #mixture_of_experts #open_source_llm #frontier_модели #swebench #экспортный_контроль_ai

Habr @[email protected] · 2026-03-15 · 13:02 UTC

97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя.

https://habr.com/ru/companies/borisovai/articles/1010470/

#mixture_of_experts #moe #selfdistillation #dynamic_architecture #llm #research

Habr @[email protected] · 2026-03-15 · 13:02 UTC

97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя.

https://habr.com/ru/companies/borisovai/articles/1010470/

#mixture_of_experts #moe #selfdistillation #dynamic_architecture #llm #research

Habr @[email protected] · 2026-03-15 · 13:02 UTC

97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя.

https://habr.com/ru/companies/borisovai/articles/1010470/

#mixture_of_experts #moe #selfdistillation #dynamic_architecture #llm #research

Habr @[email protected] · 2026-03-15 · 13:02 UTC

97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя.

https://habr.com/ru/companies/borisovai/articles/1010470/

#mixture_of_experts #moe #selfdistillation #dynamic_architecture #llm #research

#research #llm #dynamic_architecture #selfdistillation #moe #mixture_of_experts

Habr @[email protected] · 2026-03-06 · 12:02 UTC

97 часов на одной RTX 4090: как я учил нейросеть улучшать саму себя — и что пошло не так

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя, и как модель в итоге нашла выход сама.

https://habr.com/ru/articles/1005168/

#mixture_of_experts #moe #selfdistillation #dynamic_architecture #pytorch #llm #research

#research #llm #pytorch #dynamic_architecture #selfdistillation #moe

Habr @[email protected] · 2026-03-06 · 12:02 UTC

97 часов на одной RTX 4090: как я учил нейросеть улучшать саму себя — и что пошло не так

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя, и как модель в итоге нашла выход сама.

https://habr.com/ru/articles/1005168/

#mixture_of_experts #moe #selfdistillation #dynamic_architecture #pytorch #llm #research

#research #llm #pytorch #dynamic_architecture #selfdistillation #moe

Habr @[email protected] · 2026-03-06 · 12:02 UTC

97 часов на одной RTX 4090: как я учил нейросеть улучшать саму себя — и что пошло не так

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя, и как модель в итоге нашла выход сама.

https://habr.com/ru/articles/1005168/

#mixture_of_experts #moe #selfdistillation #dynamic_architecture #pytorch #llm #research

#research #llm #pytorch #dynamic_architecture #selfdistillation #moe

Habr @[email protected] · 2026-03-06 · 12:02 UTC

97 часов на одной RTX 4090: как я учил нейросеть улучшать саму себя — и что пошло не так

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя, и как модель в итоге нашла выход сама.

https://habr.com/ru/articles/1005168/

#mixture_of_experts #moe #selfdistillation #dynamic_architecture #pytorch #llm #research

#mixture_of_experts #moe #selfdistillation #dynamic_architecture #pytorch #llm

Habr @[email protected] · 2025-12-18 · 09:22 UTC

Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита

Долгое время большие языковые модели строились по принципу «больше — лучше». Топовые компании гнались за количеством параметров, не считаясь с затратами. Но когда счета за обучение GPT-4 превысили $100 миллионов, а инференс начал требовать промышленных масштабов энергии, стало ясно: «грубая сила» больше не работает. Эффективность старого прямолинейного подхода напоминает использование грузового поезда для доставки одной-единственной буханки хлеба: задача выполняется, но цена процесса абсурдна. Индустрии срочно понадобился способ разорвать связку «умнее = дороже». И решением стала архитектура Mixture-of-Experts (MoE). Суть метода проста: перестать «думать» всей нейросетью над каждой задачей и научить модель активировать ресурсы выборочно. Такое выборочное использование вычислений позволяет наращивать число параметров, не превращая модель в прожорливого монстра. Причем эта идея не новая. Google экспериментировал с ней ещё в 2017-м, потом была пара академических проектов, а дальше технология благополучно канула в небытие. Трансформеры вроде GPT захватили рынок, и про MoE все дружно забыли. Но в последние пару лет MoE резко вернулась: Mixtral и Mistral 3, DeepSeek, DBRX, Qwen, Kimi K2 Thinking. И список громких релизов пополняется чуть ли не ежемесячно. Давайте разбираться, что стоит за этим возвращением и действительно ли МоЕ станет решением всех проблем.

https://habr.com/ru/companies/magnus-tech/articles/977488/

#mixture_of_experts #MoE_архитектура #плотные_и_разреженные_модели #проблемы_MoE_архитектуры #почему_MoE_возвращается #масштабирование_языковых_моделей #MOEнейросети #moe_против_трансформеров #сезон_ии_в_разработке

#сезон_ии_в_разработке #moe_против_трансформеров #moeнейросети #масштабирование_языковых_моделей #почему_moe_возвращается #проблемы_moe_архитектуры

Habr @[email protected] · 2025-09-24 · 07:32 UTC

MoE vs. SSM: Два пути из «Тирании Квадрата» Трансформеров

Архитектура Трансформеров уперлась в стену квадратичной сложности O(n²), или «Тиранию Квадрата». В статье мы разбираем два пути решения этой проблемы: Mixture-of-Experts (MoE), масштабирующий знания, и State Space Models (SSM), масштабирующий контекст. Это сравнительный анализ архитектур, которые определяют будущее AI.

https://habr.com/ru/articles/949826/

#llm #moe #ssm #архитектура_трансформер #квадратичная_сложность #State_Space_Models #Mixture_of_Experts

#llm #moe #ssm #архитектура_трансформер #квадратичная_сложность #state_space_models

Habr @[email protected] · 2025-09-24 · 07:32 UTC

MoE vs. SSM: Два пути из «Тирании Квадрата» Трансформеров

Архитектура Трансформеров уперлась в стену квадратичной сложности O(n²), или «Тиранию Квадрата». В статье мы разбираем два пути решения этой проблемы: Mixture-of-Experts (MoE), масштабирующий знания, и State Space Models (SSM), масштабирующий контекст. Это сравнительный анализ архитектур, которые определяют будущее AI.

https://habr.com/ru/articles/949826/

#llm #moe #ssm #архитектура_трансформер #квадратичная_сложность #State_Space_Models #Mixture_of_Experts

#llm #moe #ssm #архитектура_трансформер #квадратичная_сложность #state_space_models

Habr @[email protected] · 2025-09-24 · 07:32 UTC

MoE vs. SSM: Два пути из «Тирании Квадрата» Трансформеров

Архитектура Трансформеров уперлась в стену квадратичной сложности O(n²), или «Тиранию Квадрата». В статье мы разбираем два пути решения этой проблемы: Mixture-of-Experts (MoE), масштабирующий знания, и State Space Models (SSM), масштабирующий контекст. Это сравнительный анализ архитектур, которые определяют будущее AI.

https://habr.com/ru/articles/949826/

#llm #moe #ssm #архитектура_трансформер #квадратичная_сложность #State_Space_Models #Mixture_of_Experts

#llm #moe #ssm #архитектура_трансформер #квадратичная_сложность #state_space_models

Habr @[email protected] · 2025-09-24 · 07:32 UTC

MoE vs. SSM: Два пути из «Тирании Квадрата» Трансформеров

Архитектура Трансформеров уперлась в стену квадратичной сложности O(n²), или «Тиранию Квадрата». В статье мы разбираем два пути решения этой проблемы: Mixture-of-Experts (MoE), масштабирующий знания, и State Space Models (SSM), масштабирующий контекст. Это сравнительный анализ архитектур, которые определяют будущее AI.

https://habr.com/ru/articles/949826/

#llm #moe #ssm #архитектура_трансформер #квадратичная_сложность #State_Space_Models #Mixture_of_Experts

#mixture_of_experts #state_space_models #квадратичная_сложность #архитектура_трансформер #ssm #moe

aaron ~# :blinkingcursor: @[email protected] · 2025-09-10 · 05:24 UTC

Making the most out of a small LLM

Yesterday i finally built my own #AI #server. I had a spare #Nvidia RTX 2070 with 8GB of #VRAM laying around and wanted to do this for a long time.

The problem is that most #LLMs need a lot of VRAM and i don't want to buy another #GPU just to host my own AI. Then i came across #gemma3 and #qwen3. Both of these are amazing #quantized models with stunning reasoning given that they need so less resources.

I chose huihui_ai/qwen3-abliterated:14b since it supports #deepthinking, #toolcalling and is pretty unrestricted. After some testing i noticed that the 8b model performs even better than the 14b variant with drastically better performance. I can't make out any quality loss there to be honest. The 14b model sneaked in chinese characters into the response very often. The 8b model on the other hand doesn't.

Now i've got a very fast model with amazing reasoning (even in German) and tool calling support. The only thing left to improve is knowledge. #Firecrawl is a great tool for #webscraping and as soon as i implemented websearching, the setup was complete. At least i thought it was.

I want to make the most out of this LLM and therefore my next step is to implement a basic #webserver that exposes the same #API #endpoints as #ollama so that everywhere ollama is supported, i can point it to my python script instead. This way it feels like the model is way more capable than it actually is. I can use these advanced features everywhere without being bound to it's actual knowledge.

To improve this setup even more i will likely switch to a #mixture_of_experts architecture soon. This project is a lot of fun and i can't wait to integrate it into my homelab.

#homelab #selfhosting #privacy #ai #llm #largelanguagemodels #coding #developement

#ai #server #nvidia #vram #llms #gpu

aaron ~# :blinkingcursor: @[email protected] · 2025-09-10 · 05:24 UTC

Making the most out of a small LLM

Yesterday i finally built my own #AI #server. I had a spare #Nvidia RTX 2070 with 8GB of #VRAM laying around and wanted to do this for a long time.

The problem is that most #LLMs need a lot of VRAM and i don't want to buy another #GPU just to host my own AI. Then i came across #gemma3 and #qwen3. Both of these are amazing #quantized models with stunning reasoning given that they need so less resources.

I chose huihui_ai/qwen3-abliterated:14b since it supports #deepthinking, #toolcalling and is pretty unrestricted. After some testing i noticed that the 8b model performs even better than the 14b variant with drastically better performance. I can't make out any quality loss there to be honest. The 14b model sneaked in chinese characters into the response very often. The 8b model on the other hand doesn't.

Now i've got a very fast model with amazing reasoning (even in German) and tool calling support. The only thing left to improve is knowledge. #Firecrawl is a great tool for #webscraping and as soon as i implemented websearching, the setup was complete. At least i thought it was.

I want to make the most out of this LLM and therefore my next step is to implement a basic #webserver that exposes the same #API #endpoints as #ollama so that everywhere ollama is supported, i can point it to my python script instead. This way it feels like the model is way more capable than it actually is. I can use these advanced features everywhere without being bound to it's actual knowledge.

To improve this setup even more i will likely switch to a #mixture_of_experts architecture soon. This project is a lot of fun and i can't wait to integrate it into my homelab.

#homelab #selfhosting #privacy #ai #llm #largelanguagemodels #coding #developement

#ai #server #nvidia #vram #llms #gpu

aaron ~# :blinkingcursor: @[email protected] · 2025-09-10 · 05:24 UTC

Making the most out of a small LLM

Yesterday i finally built my own #AI #server. I had a spare #Nvidia RTX 2070 with 8GB of #VRAM laying around and wanted to do this for a long time.

The problem is that most #LLMs need a lot of VRAM and i don't want to buy another #GPU just to host my own AI. Then i came across #gemma3 and #qwen3. Both of these are amazing #quantized models with stunning reasoning given that they need so less resources.

I chose huihui_ai/qwen3-abliterated:14b since it supports #deepthinking, #toolcalling and is pretty unrestricted. After some testing i noticed that the 8b model performs even better than the 14b variant with drastically better performance. I can't make out any quality loss there to be honest. The 14b model sneaked in chinese characters into the response very often. The 8b model on the other hand doesn't.

Now i've got a very fast model with amazing reasoning (even in German) and tool calling support. The only thing left to improve is knowledge. #Firecrawl is a great tool for #webscraping and as soon as i implemented websearching, the setup was complete. At least i thought it was.

I want to make the most out of this LLM and therefore my next step is to implement a basic #webserver that exposes the same #API #endpoints as #ollama so that everywhere ollama is supported, i can point it to my python script instead. This way it feels like the model is way more capable than it actually is. I can use these advanced features everywhere without being bound to it's actual knowledge.

To improve this setup even more i will likely switch to a #mixture_of_experts architecture soon. This project is a lot of fun and i can't wait to integrate it into my homelab.

#homelab #selfhosting #privacy #ai #llm #largelanguagemodels #coding #developement

#ai #server #nvidia #vram #llms #gpu

aaron ~# :blinkingcursor: @[email protected] · 2025-09-10 · 05:24 UTC

Making the most out of a small LLM

Yesterday i finally built my own #AI #server. I had a spare #Nvidia RTX 2070 with 8GB of #VRAM laying around and wanted to do this for a long time.

The problem is that most #LLMs need a lot of VRAM and i don't want to buy another #GPU just to host my own AI. Then i came across #gemma3 and #qwen3. Both of these are amazing #quantized models with stunning reasoning given that they need so less resources.

I chose huihui_ai/qwen3-abliterated:14b since it supports #deepthinking, #toolcalling and is pretty unrestricted. After some testing i noticed that the 8b model performs even better than the 14b variant with drastically better performance. I can't make out any quality loss there to be honest. The 14b model sneaked in chinese characters into the response very often. The 8b model on the other hand doesn't.

Now i've got a very fast model with amazing reasoning (even in German) and tool calling support. The only thing left to improve is knowledge. #Firecrawl is a great tool for #webscraping and as soon as i implemented websearching, the setup was complete. At least i thought it was.

I want to make the most out of this LLM and therefore my next step is to implement a basic #webserver that exposes the same #API #endpoints as #ollama so that everywhere ollama is supported, i can point it to my python script instead. This way it feels like the model is way more capable than it actually is. I can use these advanced features everywhere without being bound to it's actual knowledge.

To improve this setup even more i will likely switch to a #mixture_of_experts architecture soon. This project is a lot of fun and i can't wait to integrate it into my homelab.

#homelab #selfhosting #privacy #ai #llm #largelanguagemodels #coding #developement

#developement #coding #largelanguagemodels #llm #privacy #selfhosting

aaron ~# :blinkingcursor: @[email protected] · 2025-09-10 · 05:24 UTC

Making the most out of a small LLM

Yesterday i finally built my own #AI #server. I had a spare #Nvidia RTX 2070 with 8GB of #VRAM laying around and wanted to do this for a long time.

The problem is that most #LLMs need a lot of VRAM and i don't want to buy another #GPU just to host my own AI. Then i came across #gemma3 and #qwen3. Both of these are amazing #quantized models with stunning reasoning given that they need so less resources.

I chose huihui_ai/qwen3-abliterated:14b since it supports #deepthinking, #toolcalling and is pretty unrestricted. After some testing i noticed that the 8b model performs even better than the 14b variant with drastically better performance. I can't make out any quality loss there to be honest. The 14b model sneaked in chinese characters into the response very often. The 8b model on the other hand doesn't.

Now i've got a very fast model with amazing reasoning (even in German) and tool calling support. The only thing left to improve is knowledge. #Firecrawl is a great tool for #webscraping and as soon as i implemented websearching, the setup was complete. At least i thought it was.

I want to make the most out of this LLM and therefore my next step is to implement a basic #webserver that exposes the same #API #endpoints as #ollama so that everywhere ollama is supported, i can point it to my python script instead. This way it feels like the model is way more capable than it actually is. I can use these advanced features everywhere without being bound to it's actual knowledge.

To improve this setup even more i will likely switch to a #mixture_of_experts architecture soon. This project is a lot of fun and i can't wait to integrate it into my homelab.

#homelab #selfhosting #privacy #ai #llm #largelanguagemodels #coding #developement

#ai #server #nvidia #vram #llms #gpu

Habr @[email protected] · 2025-02-04 · 18:42 UTC

ИИ простыми словами, часть 1. Архитектура Mixture of Experts (MoE)

Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их. Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы когда я пишу статьи, я сразу мог бы дать ссылку на понятное и простое объяснение сложных терминов. А ещё в этом проекте, мне захотелось сопровождать мои материалы симпатичными и понятными иллюстрациями на русском языке, поэтому я рисую их самостоятельно. Так я начал свой хобби‑проект « AI человеческим языком ». Каждую новую статью про популярный термин я хочу адаптировать под Хабр, и выкладывать сюда. После громко стрельнувших DeepSeek V3/R1, и прочих, многие стали обращать внимание на то, что в описании моделей используется «архитектура Mixture of Experts». Также, её можно увидеть у Microsoft, Mistral, Facebook: Phi3.5-MoE, Mixtral, NLLB-200, и прочие. Поэтому первое, о чем мне хочется рассказать — это архитектура «Mixture of Experts».

https://habr.com/ru/articles/879494/

#mixture_of_experts #moe #искусственный_интеллект #llm #deepseek #r1

#r1 #deepseek #llm #искусственный_интеллект #moe #mixture_of_experts