#gqa — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-21 · 06:12 UTC

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

https://habr.com/ru/articles/1037532/

#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

#русский_язык #nlp #swiglu #gqa #rope #google_colab

Habr @[email protected] · 2026-05-21 · 06:12 UTC

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

https://habr.com/ru/articles/1037532/

#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

#русский_язык #nlp #swiglu #gqa #rope #google_colab

Habr @[email protected] · 2026-05-21 · 06:12 UTC

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

https://habr.com/ru/articles/1037532/

#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

#русский_язык #nlp #swiglu #gqa #rope #google_colab

Habr @[email protected] · 2026-05-21 · 06:12 UTC

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

https://habr.com/ru/articles/1037532/

#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

#gpt #llm #pretraining #распределённое_обучение #google_colab #rope

Habr @[email protected] · 2026-05-16 · 09:22 UTC

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

https://habr.com/ru/articles/1035862/

#LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

#gpu #бенчмарк #gqa #kv_cache #квантование #локальные_модели

Habr @[email protected] · 2026-05-16 · 09:22 UTC

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

https://habr.com/ru/articles/1035862/

#LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

#gpu #бенчмарк #gqa #kv_cache #квантование #локальные_модели

Habr @[email protected] · 2026-05-16 · 09:22 UTC

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

https://habr.com/ru/articles/1035862/

#LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

#gpu #бенчмарк #gqa #kv_cache #квантование #локальные_модели

Habr @[email protected] · 2026-05-16 · 09:22 UTC

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

https://habr.com/ru/articles/1035862/

#LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

#llm #vram #llamacpp #локальные_модели #квантование #kv_cache

Reddit Tech VN Bot @[email protected] · 2026-01-21 · 06:17 UTC

GLM-4-32B-0414 nổi bật với chỉ **2 đầu KV**, giúp tiết kiệm đáng kể bộ nhớ cache KV nhờ sử dụng GQA. Tiếc rằng GLM-4.7-Flash đã loại bỏ tính năng này, làm giảm hiệu quả tối ưu hóa bộ nhớ. #AI #LLM #GLM #KVCache #GQA #TríTuệNhânTạo #MôHìnhNgônNgữ #AIoptimization

https://www.reddit.com/r/LocalLLaMA/comments/1qiphdr/two_heads_is_all_i_need/

#ai #llm #glm #kvcache #gqa #trituệnhantạo

DevTo VN Bot @[email protected] · 2025-12-19 · 17:16 UTC

📌 Đa số mô hình dùng Grouped Query Attention (GQA), nhưng không có nghĩa bạn cũng nên dùng.📌
GQA hiệu quả, mở rộng tốt, nhưng chưa chắc phù hợp với mọi trường hợp.
Tùy mục tiêu: context dài, độ trễ thấp hay thử nghiệm, hãy cân nhắc các cơ chế khác như:
✅ Multi-head Attention
✅ Multi-query Attention
✅ Latent Attention
Video phân tích cách chọn cơ chế attention và hướng dẫn code self-attention từ đầu:
🎥 Dành cho người muốn hiểu sâu & tối ưu mô hình.
#AttentionMechanism #GQA #Mac

#attentionmechanism #gqa #mac

DevTo VN Bot @[email protected] · 2025-12-19 · 17:16 UTC

📌 Đa số mô hình dùng Grouped Query Attention (GQA), nhưng không có nghĩa bạn cũng nên dùng.📌
GQA hiệu quả, mở rộng tốt, nhưng chưa chắc phù hợp với mọi trường hợp.
Tùy mục tiêu: context dài, độ trễ thấp hay thử nghiệm, hãy cân nhắc các cơ chế khác như:
✅ Multi-head Attention
✅ Multi-query Attention
✅ Latent Attention
Video phân tích cách chọn cơ chế attention và hướng dẫn code self-attention từ đầu:
🎥 Dành cho người muốn hiểu sâu & tối ưu mô hình.
#AttentionMechanism #GQA #Mac

#attentionmechanism #gqa #mac

DevTo VN Bot @[email protected] · 2025-12-19 · 17:16 UTC

📌 Đa số mô hình dùng Grouped Query Attention (GQA), nhưng không có nghĩa bạn cũng nên dùng.📌
GQA hiệu quả, mở rộng tốt, nhưng chưa chắc phù hợp với mọi trường hợp.
Tùy mục tiêu: context dài, độ trễ thấp hay thử nghiệm, hãy cân nhắc các cơ chế khác như:
✅ Multi-head Attention
✅ Multi-query Attention
✅ Latent Attention
Video phân tích cách chọn cơ chế attention và hướng dẫn code self-attention từ đầu:
🎥 Dành cho người muốn hiểu sâu & tối ưu mô hình.
#AttentionMechanism #GQA #Mac

#mac #gqa #attentionmechanism

DevTo VN Bot @[email protected] · 2025-12-19 · 17:16 UTC

📌 Đa số mô hình dùng Grouped Query Attention (GQA), nhưng không có nghĩa bạn cũng nên dùng.📌
GQA hiệu quả, mở rộng tốt, nhưng chưa chắc phù hợp với mọi trường hợp.
Tùy mục tiêu: context dài, độ trễ thấp hay thử nghiệm, hãy cân nhắc các cơ chế khác như:
✅ Multi-head Attention
✅ Multi-query Attention
✅ Latent Attention
Video phân tích cách chọn cơ chế attention và hướng dẫn code self-attention từ đầu:
🎥 Dành cho người muốn hiểu sâu & tối ưu mô hình.
#AttentionMechanism #GQA #Mac

#attentionmechanism #gqa #mac