home.social

#gqa — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #gqa, aggregated by home.social.

  1. Как я обучил GPT с нуля на русском языке — и что из этого получилось

    Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

    habr.com/ru/articles/1037532/

    #GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

  2. Как я обучил GPT с нуля на русском языке — и что из этого получилось

    Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

    habr.com/ru/articles/1037532/

    #GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

  3. Как я обучил GPT с нуля на русском языке — и что из этого получилось

    Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

    habr.com/ru/articles/1037532/

    #GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

  4. Как я обучил GPT с нуля на русском языке — и что из этого получилось

    Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

    habr.com/ru/articles/1037532/

    #GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

  5. Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

    Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

    habr.com/ru/articles/1035862/

    #LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

  6. Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

    Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

    habr.com/ru/articles/1035862/

    #LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

  7. Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

    Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

    habr.com/ru/articles/1035862/

    #LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

  8. Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

    Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

    habr.com/ru/articles/1035862/

    #LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

  9. GLM-4-32B-0414 nổi bật với chỉ **2 đầu KV**, giúp tiết kiệm đáng kể bộ nhớ cache KV nhờ sử dụng GQA. Tiếc rằng GLM-4.7-Flash đã loại bỏ tính năng này, làm giảm hiệu quả tối ưu hóa bộ nhớ. #AI #LLM #GLM #KVCache #GQA #TríTuệNhânTạo #MôHìnhNgônNgữ #AIoptimization

    reddit.com/r/LocalLLaMA/commen

  10. 📌 Đa số mô hình dùng Grouped Query Attention (GQA), nhưng không có nghĩa bạn cũng nên dùng.📌
    GQA hiệu quả, mở rộng tốt, nhưng chưa chắc phù hợp với mọi trường hợp.
    Tùy mục tiêu: context dài, độ trễ thấp hay thử nghiệm, hãy cân nhắc các cơ chế khác như:
    ✅ Multi-head Attention
    ✅ Multi-query Attention
    ✅ Latent Attention
    Video phân tích cách chọn cơ chế attention và hướng dẫn code self-attention từ đầu:
    🎥 Dành cho người muốn hiểu sâu & tối ưu mô hình.
    #AttentionMechanism #GQA #Mac

  11. 📌 Đa số mô hình dùng Grouped Query Attention (GQA), nhưng không có nghĩa bạn cũng nên dùng.📌
    GQA hiệu quả, mở rộng tốt, nhưng chưa chắc phù hợp với mọi trường hợp.
    Tùy mục tiêu: context dài, độ trễ thấp hay thử nghiệm, hãy cân nhắc các cơ chế khác như:
    ✅ Multi-head Attention
    ✅ Multi-query Attention
    ✅ Latent Attention
    Video phân tích cách chọn cơ chế attention và hướng dẫn code self-attention từ đầu:
    🎥 Dành cho người muốn hiểu sâu & tối ưu mô hình.
    #AttentionMechanism #GQA #Mac

  12. 📌 Đa số mô hình dùng Grouped Query Attention (GQA), nhưng không có nghĩa bạn cũng nên dùng.📌
    GQA hiệu quả, mở rộng tốt, nhưng chưa chắc phù hợp với mọi trường hợp.
    Tùy mục tiêu: context dài, độ trễ thấp hay thử nghiệm, hãy cân nhắc các cơ chế khác như:
    ✅ Multi-head Attention
    ✅ Multi-query Attention
    ✅ Latent Attention
    Video phân tích cách chọn cơ chế attention và hướng dẫn code self-attention từ đầu:
    🎥 Dành cho người muốn hiểu sâu & tối ưu mô hình.
    #AttentionMechanism #GQA #Mac

  13. 📌 Đa số mô hình dùng Grouped Query Attention (GQA), nhưng không có nghĩa bạn cũng nên dùng.📌
    GQA hiệu quả, mở rộng tốt, nhưng chưa chắc phù hợp với mọi trường hợp.
    Tùy mục tiêu: context dài, độ trễ thấp hay thử nghiệm, hãy cân nhắc các cơ chế khác như:
    ✅ Multi-head Attention
    ✅ Multi-query Attention
    ✅ Latent Attention
    Video phân tích cách chọn cơ chế attention và hướng dẫn code self-attention từ đầu:
    🎥 Dành cho người muốn hiểu sâu & tối ưu mô hình.
    #AttentionMechanism #GQA #Mac