#mtp — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #mtp, aggregated by home.social.
-
New week, more slides: Run LLMs Locally
Now including wllama to run GGUF models inside your browser!
wllama uses llama.cpp, WebAssembly and WebGPU, bringing a completely new experience of LLMs into the web.
It has no 4 GB limitation and is faster than Transformers.js.I also added translations using the HY-MT model from Tencent.
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
#ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly
-
New week, more slides: Run LLMs Locally
Now including wllama to run GGUF models inside your browser!
wllama uses llama.cpp, WebAssembly and WebGPU, bringing a completely new experience of LLMs into the web.
It has no 4 GB limitation and is faster than Transformers.js.I also added translations using the HY-MT model from Tencent.
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
#ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly
-
New week, more slides: Run LLMs Locally
Now including wllama to run GGUF models inside your browser!
wllama uses llama.cpp, WebAssembly and WebGPU, bringing a completely new experience of LLMs into the web.
It has no 4 GB limitation and is faster than Transformers.js.I also added translations using the HY-MT model from Tencent.
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
#ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly
-
New week, more slides: Run LLMs Locally
Now including wllama to run GGUF models inside your browser!
wllama uses llama.cpp, WebAssembly and WebGPU, bringing a completely new experience of LLMs into the web.
It has no 4 GB limitation and is faster than Transformers.js.I also added translations using the HY-MT model from Tencent.
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
#ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly
-
New week, more slides: Run LLMs Locally
Now including wllama to run GGUF models inside your browser!
wllama uses llama.cpp, WebAssembly and WebGPU, bringing a completely new experience of LLMs into the web.
It has no 4 GB limitation and is faster than Transformers.js.I also added translations using the HY-MT model from Tencent.
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
#ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly
-
RT @TeksEdge: 🚀 Neue MTP-Unterstützung für Strix Halo veröffentlicht!
mehr auf Arint.info
-
RT @TeksEdge: 🚀 Neue MTP-Unterstützung für Strix Halo veröffentlicht!
mehr auf Arint.info
-
RT @TeksEdge: 🚀 Neue MTP-Unterstützung für Strix Halo veröffentlicht!
mehr auf Arint.info
-
RT @TeksEdge: 🚀 Neue MTP-Unterstützung für Strix Halo veröffentlicht!
mehr auf Arint.info
-
RT @TeksEdge: 🚀 Neue MTP-Unterstützung für Strix Halo veröffentlicht!
mehr auf Arint.info
-
RT @dealignai: TRANSLASION: Qwen3.6-27b und 35b MXFP4 MXFP8 CRACK ist jetzt mit MTP verfügbar. Genieße unzensierte Geschwindigkeit!
mehr auf Arint.info
-
RT @dealignai: TRANSLASION: Qwen3.6-27b und 35b MXFP4 MXFP8 CRACK ist jetzt mit MTP verfügbar. Genieße unzensierte Geschwindigkeit!
mehr auf Arint.info
-
RT @dealignai: TRANSLASION: Qwen3.6-27b und 35b MXFP4 MXFP8 CRACK ist jetzt mit MTP verfügbar. Genieße unzensierte Geschwindigkeit!
mehr auf Arint.info
-
RT @dealignai: TRANSLASION: Qwen3.6-27b und 35b MXFP4 MXFP8 CRACK ist jetzt mit MTP verfügbar. Genieße unzensierte Geschwindigkeit!
mehr auf Arint.info
-
RT @dealignai: TRANSLASION: Qwen3.6-27b und 35b MXFP4 MXFP8 CRACK ist jetzt mit MTP verfügbar. Genieße unzensierte Geschwindigkeit!
mehr auf Arint.info
-
New week, new slides: Run LLMs Locally
Now including multi-token prediction using Qwen3.6 35B-A3B with Nextn quantization. Also speech recognition using Qwen-3-ASR is now working directly with Llama.cpp and included in the slides.
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
#ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp
-
New week, new slides: Run LLMs Locally
Now including multi-token prediction using Qwen3.6 35B-A3B with Nextn quantization. Also speech recognition using Qwen-3-ASR is now working directly with Llama.cpp and included in the slides.
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
#ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp
-
New week, new slides: Run LLMs Locally
Now including multi-token prediction using Qwen3.6 35B-A3B with Nextn quantization. Also speech recognition using Qwen-3-ASR is now working directly with Llama.cpp and included in the slides.
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
#ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp
-
New week, new slides: Run LLMs Locally
Now including multi-token prediction using Qwen3.6 35B-A3B with Nextn quantization. Also speech recognition using Qwen-3-ASR is now working directly with Llama.cpp and included in the slides.
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
#ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp
-
New week, new slides: Run LLMs Locally
Now including multi-token prediction using Qwen3.6 35B-A3B with Nextn quantization. Also speech recognition using Qwen-3-ASR is now working directly with Llama.cpp and included in the slides.
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
#ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp
-
Qwen3.6 MTP весит на 0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений
В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при этом остается lossless. Для моделей, которые не имеют встроенного MTP, есть альтернативы в лице EAGLE-3 и DFlash.
-
Qwen3.6 MTP весит на 0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений
В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при этом остается lossless. Для моделей, которые не имеют встроенного MTP, есть альтернативы в лице EAGLE-3 и DFlash.
-
Qwen3.6 MTP весит на 0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений
В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при этом остается lossless. Для моделей, которые не имеют встроенного MTP, есть альтернативы в лице EAGLE-3 и DFlash.
-
Qwen3.6 MTP весит на 0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений
В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при этом остается lossless. Для моделей, которые не имеют встроенного MTP, есть альтернативы в лице EAGLE-3 и DFlash.
-
RT @danielhanchen: Qwen3.6 MTP Unsloth GGUFs laufen jetzt 1,8x schneller, ein Anstieg von 1,4x vor nur zwei Tagen!
mehr auf Arint.info
#GGUF #llamacpp #MTP #Qwen3 #SpeculativeDecoding #Unsloth #arint_info
-
RT @nash_su: Mac-Inferenzgeschwindigkeit verdoppelt 🚀
mehr auf Arint.info
-
Fast Android File Access via SSHFS over Wi-Fi or USB (MTP Alternative): https://emanuelduss.ch/posts/fast-android-file-access-via-sshfs/ #android #mtp #sshfs
-
Fast Android File Access via SSHFS over Wi-Fi or USB (MTP Alternative): https://emanuelduss.ch/posts/fast-android-file-access-via-sshfs/ #android #mtp #sshfs
-
Fast Android File Access via SSHFS over Wi-Fi or USB (MTP Alternative): https://emanuelduss.ch/posts/fast-android-file-access-via-sshfs/ #android #mtp #sshfs
-
Fast Android File Access via SSHFS over Wi-Fi or USB (MTP Alternative): https://emanuelduss.ch/posts/fast-android-file-access-via-sshfs/ #android #mtp #sshfs
-
RT @danielhanchen: Qwen3.6 MTP Unsloth GGUFs laufen jetzt 1,8x schneller, eine Steigerung von 1,4x vor nur zwei Tagen!
mehr auf Arint.info
#GGUF #llamacpp #MTP #Qwen3 #SpeculativeDecoding #Unsloth #arint_info
-
RT @mr_r0b0t: Wusstest du, dass Qwen3.6 mit nativer MTP ausgeliefert wurde? Ja, dieselbe MTP, für die Google gestern die Unterstützung von Gemma4 freigegeben hat! Multi Token Prediction (MTP) = spekulatives Decoding. Hier ist ein Qwen3.6-Modell, quantisiert auf Q4KM, das MTP über ikllama.cpp unterstützt.
mehr auf Arint.info
-
RT @mr_r0b0t: Wusstest du, dass Qwen3.6 mit nativer MTP ausgeliefert wurde? Ja, dieselbe MTP, für die Google gestern die Unterstützung von Gemma4 freigegeben hat! Multi Token Prediction (MTP) = spekulatives Decoding. Hier ist ein Qwen3.6-Modell, quantisiert auf Q4KM, das MTP über ikllama.cpp unterstützt.
mehr auf Arint.info
-
RT @mr_r0b0t: Wusstest du, dass Qwen3.6 mit nativer MTP ausgeliefert wurde? Ja, dieselbe MTP, für die Google gestern die Unterstützung von Gemma4 freigegeben hat! Multi Token Prediction (MTP) = spekulatives Decoding. Hier ist ein Qwen3.6-Modell, quantisiert auf Q4KM, das MTP über ikllama.cpp unterstützt.
mehr auf Arint.info
-
RT @mr_r0b0t: Wusstest du, dass Qwen3.6 mit nativer MTP ausgeliefert wurde? Ja, dieselbe MTP, für die Google gestern die Unterstützung von Gemma4 freigegeben hat! Multi Token Prediction (MTP) = spekulatives Decoding. Hier ist ein Qwen3.6-Modell, quantisiert auf Q4KM, das MTP über ikllama.cpp unterstützt.
mehr auf Arint.info
-
RT @mr_r0b0t: Wusstest du, dass Qwen3.6 mit nativer MTP ausgeliefert wurde? Ja, dieselbe MTP, für die Google gestern die Unterstützung von Gemma4 freigegeben hat! Multi Token Prediction (MTP) = spekulatives Decoding. Hier ist ein Qwen3.6-Modell, quantisiert auf Q4KM, das MTP über ikllama.cpp unterstützt.
mehr auf Arint.info
-
https://www.europesays.com/pl/386829/ 28 premier na Poznań Motor Show 2026 – Menadżer Floty #mtp #PL #Poland #Polish #Polska #Polski #poznan #PoznańMotorShow #targi
-
anyone who was a teenager or 20-something during the 90's....
Save the date - June 4th 2026
Your new anthem will arrive
#music #Summerin99 #mtp #rockAnthem #1999 #90s
-
anyone who was a teenager or 20-something during the 90's....
Save the date - June 4th 2026
Your new anthem will arrive
#music #Summerin99 #mtp #rockAnthem #1999 #90s
-
anyone who was a teenager or 20-something during the 90's....
Save the date - June 4th 2026
Your new anthem will arrive
#music #Summerin99 #mtp #rockAnthem #1999 #90s
-
anyone who was a teenager or 20-something during the 90's....
Save the date - June 4th 2026
Your new anthem will arrive
#music #Summerin99 #mtp #rockAnthem #1999 #90s
-
anyone who was a teenager or 20-something during the 90's....
Save the date - June 4th 2026
Your new anthem will arrive
#music #Summerin99 #mtp #rockAnthem #1999 #90s
-
https://www.europesays.com/pl/345145/ Gęstnieje atmosfera wokół sprawy Areny. „Szkoda publicznych pieniędzy” #ArenaPoznań #MiastoPoznań #mtp #PL #Poland #Polish #Polska #Polski #poznan
-
#MeetTheRepublicans waited until THE FINAL FIVE MINUTES to talk about THE LARGEST POLITICAL PROTEST IN AMERICAN HISTORY. 🤨 #MtP
-
#MeetTheRepublicans waited until THE FINAL FIVE MINUTES to talk about THE LARGEST POLITICAL PROTEST IN AMERICAN HISTORY. 🤨 #MtP
-
#MeetTheRepublicans waited until THE FINAL FIVE MINUTES to talk about THE LARGEST POLITICAL PROTEST IN AMERICAN HISTORY. 🤨 #MtP
-
#MeetTheRepublicans waited until THE FINAL FIVE MINUTES to talk about THE LARGEST POLITICAL PROTEST IN AMERICAN HISTORY. 🤨 #MtP
-
#MeetTheRepublicans waited until THE FINAL FIVE MINUTES to talk about THE LARGEST POLITICAL PROTEST IN AMERICAN HISTORY. 🤨 #MtP
-
She knows what she's doing. "Tens of thousands" in NYC isn't the same as suggesting "tens of thousands nationwide." 😐
I had to shut off #MtP after Lankford called #Democrats "totally unreasonable" for "opposing allowing #ICE agents to police Polling places. No one thinks illegal aliens should be allowed to vote."
I screamed at my TV and shut it off. LORD I DESPISE THESE PEOPLE! 🤬
-
She knows what she's doing. "Tens of thousands" in NYC isn't the same as suggesting "tens of thousands nationwide." 😐
I had to shut off #MtP after Lankford called #Democrats "totally unreasonable" for "opposing allowing #ICE agents to police Polling places. No one thinks illegal aliens should be allowed to vote."
I screamed at my TV and shut it off. LORD I DESPISE THESE PEOPLE! 🤬