home.social

#gemma4 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #gemma4, aggregated by home.social.

  1. Vor 2½ Monaten habe ich 1000 Token bei #metaGer gekauft und davon sind aktuell noch 822 Token übrig.

    In etwa 90 Tagen habe ich 178 Token verbraucht, was im Schnitt etwa zwei Anfragen täglich entspricht.

    Kommt mir wenig vor. Mir liegen natürlich keine Zahlen vor, aber früher wären es wohl deutlich mehr Suchanfragen gewesen.

    Heute beantwortet ein lokal inferiertes #Gemma4 viele meiner Fragen. Klassische Suchmaschinen verwende ich immer seltener für meine Recherchen.

    Geht euch das auch so?

  2. Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

    Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

    habr.com/ru/articles/1033808/

    #llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

  3. Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

    Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

    habr.com/ru/articles/1033808/

    #llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

  4. Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

    Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

    habr.com/ru/articles/1033808/

    #llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

  5. Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

    Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

    habr.com/ru/articles/1033808/

    #llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

  6. New week, small update: Run LLMs Locally

    Now with a new setup for OpenCode with Qwen 3.6 and Gemma 4, including permissions and thinking variants.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode

  7. RT @mr_r0b0t: Wusstest du, dass Qwen3.6 mit nativer MTP ausgeliefert wurde? Ja, dieselbe MTP, für die Google gestern die Unterstützung von Gemma4 freigegeben hat! Multi Token Prediction (MTP) = spekulatives Decoding. Hier ist ein Qwen3.6-Modell, quantisiert auf Q4KM, das MTP über ikllama.cpp unterstützt.

    mehr auf Arint.info

    #AI #Gemma4 #LLM #MTP #Qwen3 #arint_info

    https://x.com/mr_r0b0t/status/2052022017470120067#m

  8. Oh joy, another tech article full of #jargon and buzzwords 🤯! "Gemma 4" sounds like the latest Marvel superhero, but it's just another AI model pretending to be useful. Go on, sprinkle more "innovation" and "faster inference" nonsense—we're all holding our breath 🙄.
    blog.google/innovation-and-ai/ #techbuzzwords #AIinnovation #overload #Gemma4 #AIhype #HackerNews #ngated

  9. Oh joy, another tech article full of #jargon and buzzwords 🤯! "Gemma 4" sounds like the latest Marvel superhero, but it's just another AI model pretending to be useful. Go on, sprinkle more "innovation" and "faster inference" nonsense—we're all holding our breath 🙄.
    blog.google/innovation-and-ai/ #techbuzzwords #AIinnovation #overload #Gemma4 #AIhype #HackerNews #ngated

  10. Oh joy, another tech article full of #jargon and buzzwords 🤯! "Gemma 4" sounds like the latest Marvel superhero, but it's just another AI model pretending to be useful. Go on, sprinkle more "innovation" and "faster inference" nonsense—we're all holding our breath 🙄.
    blog.google/innovation-and-ai/ #techbuzzwords #AIinnovation #overload #Gemma4 #AIhype #HackerNews #ngated

  11. New week, more slides: Run LLMs Locally

    Now with LFM 2 and new slides for using Transformers.js with WebGPU for Privacy Filter, Function Calling and Embeddings, running completely in your browser.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #gptoss #qwen3 #glm #localai #gemma4 #nemotron #webgpu

  12. New week, new slides: Run LLMs Locally

    Now including Nemotron 3 Nano Omni from Nvidia, Llama.cpp built-in tools and new slides about using Transformers.js with WebGPU for Image Recognition and OCR.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #gptoss #qwen3 #glm #localai #gemma4 #nemotron #webgpu

  13. Trying out the new #Gemma4 models on my #Pixel9. Completely local, open source, multimodal, multilingual (it switched between English, Chinese and Finnish just fine). E2B works well but E4B crashes constantly on my P9. No chat history, but that's not necessarily a bad thing. #GoogleAIEdgeGallery

  14. Ich sitze seit 7h an einem kack UML Diagramm mit #plantuml. Die Kollegin braucht das morgen.
    Da ich keine #cloud basierte #ai nutzen darf, wegen unsere Geschäftsgeheimnisse, nutze ich entweder unsere genehmigte #chatgpt Enterprise Version von der Firma oder #gemma4 / #qwen3 mit #lmstudio.
    Momentan hat sie die nicht ganz perfekte Variante, bei der man noch von einem "Schönheitsfehler" reden kann.

  15. You can use Gemma 4, the newly released #ai model by #google fully #local on your device. This means that, after the download, you dont need internet to use the AI and conversations are not send to google, which is a huge #privacy win.
    You can download the model via the edge gallery app without login.

    Im not associated with google in any way.

    Do you use AI local on your device?

    #gemma4 #googleai #localai #offlineai #PrivacyWins #Ai #dataprivacy #DataProtection #privateai

  16. RT @svpino: Ich führe Gemma 4 26b und 31b nebeneinander auf meinem Mac Studio aus. Hardware: Mac Studio M4 Max mit 128 GB RAM. Beide Modelle laufen lokal mit Ollama. Beigefügt ist ein Vergleich beider Modelle bei der Erledigung einer einfachen Aufgabe (das erste Bild zeigt 26b, das zweite 31b). Wie erwartet ist 26b wesentlich schneller: • 37,0 % schneller bei der Prompt-Verarbeitung (66,16 vs. 48,29 Tokens/s) • 283,7 % schneller bei der Evaluierungsrate (85,57 vs. 22,30 Tokens/s). Das 26b-Modell ist ein Mixture-of-Experts-Modell mit nur 4B aktiven Parametern. Das 31b-Modell ist ein Dense-Modell (jeder Parameter ist zu jeder Zeit aktiv). Ich vergleiche diese beiden Modelle erst seit wenigen Stunden und konnte bisher keinen signifikanten Unterschied in der Qualität der Ausgaben zwischen ihnen feststellen. Mein Anwendungsfall besteht darin, ihnen PDF-Dokumente vorzulegen und Fragen dazu zu stellen. Beide Modelle haben bisher gleichwertige Ergebnisse geliefert. Ich habe auch die 8b-Version getestet, die auf meinem Computer extrem schnell läuft (407,19 Tokens/s), aber die Ergebnisse sind nicht so gut (ein weniger intelligentes Modell). Sie ist gut zum Schreiben, aber das ist auch schon alles. Übrigens ist das 26b-Modell auf meinem Mac, obwohl es schneller als das 31b-Modell ist, im Vergleich zu einem in der Cloud gehosteten Modell immer noch sehr langsam.

    mehr auf Arint.info

    #AI #Gemma4 #LLM #MacStudio #Ollama #arint_info

    https://x.com/svpino/status/2044033205112824197#m

  17. New week, new update for the slides of my talk "Run LLMs Locally":

    Now including Gemma4 and Qwen3-Omni with Vision and Audio support and new slides describing Llama.cpp server parameters.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #gptoss #qwen3 #glm #localai #gemma4

  18. Ah, #Google unveils yet another flavor of #AI alphabet soup with "Gemma 4," where you can create #nano #bananas 🍌, #audio #talk to your imaginary friends, and generate #high-fidelity #music that sounds just like your nephew's band in the garage. 🎵 Apparently, this is the future of responsible AI—if your responsibility includes making cinematic cat videos and text-driven selfies. 📸
    deepmind.google/models/gemma/g #Gemma4 #HackerNews #ngated