#mlx — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #mlx, aggregated by home.social.
-
6 моделей, 3 инфраструктурных задачи, 1 локальный AI-агент
В прошлой статье было показано, что обычный MacBook Pro M2 16GB может с оговорками решать инфраструктурные проблемы используя локальную LLM. В этой статье будут показаны результаты решения более сложных инфраструктурных задач на более тяжеловесных моделях. Мой личный выбор - Qwen3.6-35-A3B для проблем, которые сформулированы общими словами, Gemma4-26B-A4B - для чётко описанных проблем . Далее обо всём этом подробнее.
-
6 моделей, 3 инфраструктурных задачи, 1 локальный AI-агент
В прошлой статье было показано, что обычный MacBook Pro M2 16GB может с оговорками решать инфраструктурные проблемы используя локальную LLM. В этой статье будут показаны результаты решения более сложных инфраструктурных задач на более тяжеловесных моделях. Мой личный выбор - Qwen3.6-35-A3B для проблем, которые сформулированы общими словами, Gemma4-26B-A4B - для чётко описанных проблем . Далее обо всём этом подробнее.
-
6 моделей, 3 инфраструктурных задачи, 1 локальный AI-агент
В прошлой статье было показано, что обычный MacBook Pro M2 16GB может с оговорками решать инфраструктурные проблемы используя локальную LLM. В этой статье будут показаны результаты решения более сложных инфраструктурных задач на более тяжеловесных моделях. Мой личный выбор - Qwen3.6-35-A3B для проблем, которые сформулированы общими словами, Gemma4-26B-A4B - для чётко описанных проблем . Далее обо всём этом подробнее.
-
6 моделей, 3 инфраструктурных задачи, 1 локальный AI-агент
В прошлой статье было показано, что обычный MacBook Pro M2 16GB может с оговорками решать инфраструктурные проблемы используя локальную LLM. В этой статье будут показаны результаты решения более сложных инфраструктурных задач на более тяжеловесных моделях. Мой личный выбор - Qwen3.6-35-A3B для проблем, которые сформулированы общими словами, Gemma4-26B-A4B - для чётко описанных проблем . Далее обо всём этом подробнее.
-
RT @nash_su: Mac-Inferenzgeschwindigkeit verdoppelt 🚀
mehr auf Arint.info
-
Локальный агент для диагностики инфраструктуры
В статье описаны результаты, которые получил в поисках ответа на вопрос "можно ли решать реальные задачи диагностики и исправления проблем инфраструктуры на слабом MacBook в агентском режиме (да, но)".
-
Локальный агент для диагностики инфраструктуры
В статье описаны результаты, которые получил в поисках ответа на вопрос "можно ли решать реальные задачи диагностики и исправления проблем инфраструктуры на слабом MacBook в агентском режиме (да, но)".
-
Локальный агент для диагностики инфраструктуры
В статье описаны результаты, которые получил в поисках ответа на вопрос "можно ли решать реальные задачи диагностики и исправления проблем инфраструктуры на слабом MacBook в агентском режиме (да, но)".
-
Локальный агент для диагностики инфраструктуры
В статье описаны результаты, которые получил в поисках ответа на вопрос "можно ли решать реальные задачи диагностики и исправления проблем инфраструктуры на слабом MacBook в агентском режиме (да, но)".
-
One of the coolest things of making an ultra fast, local, TTS system, is that you can give real time voices to your AI systems. Play with a demo here. It's a bit like the Realtime API from OpenAI, but free instead of 10 cents per minute. Play with it on the website to chat with Speaklone in real time. Why pay for voice?
https://speaklone.com
#iOS #macoS #indiedev #mlx #apple -
Как я запускал Qwen 3.5 на Mac: бенчмарк 8 локальных LLM-серверов. Кто быстрее?
Взял MacBook Pro M2 Max, 64GB, и задал простой вопрос: какой MLX-сервер реально готов держать Qwen 3.5 35B как локальный API для команды? Оказалось - серверов восемь, каждый в README обещает «blazing fast», а по факту между ними пропасть. Написал харнесс на Python, прогнал пять итераций на восьми промтах - от AIME до 52k токенов. Single-user тройка идёт ноздря в ноздрю. Но стоит пустить два запроса параллельно - и четыре фреймворка из шести откатываются в очередь, один деградирует до 0.85×, и только один выдаёт честные 2.17×. По дороге всплыли квадратичный attention в 2026 году, фантомные 14 000 tokens/sec из-за одной строчки в SSE-парсере и зомби-процесс на 20GB RAM, про который молчат все README. Внутри - графики, таблица «что выбрать под ваш сценарий» и репозиторий, чтобы повторить у себя.
-
Как я запускал Qwen 3.5 на Mac: бенчмарк 8 локальных LLM-серверов. Кто быстрее?
Взял MacBook Pro M2 Max, 64GB, и задал простой вопрос: какой MLX-сервер реально готов держать Qwen 3.5 35B как локальный API для команды? Оказалось - серверов восемь, каждый в README обещает «blazing fast», а по факту между ними пропасть. Написал харнесс на Python, прогнал пять итераций на восьми промтах - от AIME до 52k токенов. Single-user тройка идёт ноздря в ноздрю. Но стоит пустить два запроса параллельно - и четыре фреймворка из шести откатываются в очередь, один деградирует до 0.85×, и только один выдаёт честные 2.17×. По дороге всплыли квадратичный attention в 2026 году, фантомные 14 000 tokens/sec из-за одной строчки в SSE-парсере и зомби-процесс на 20GB RAM, про который молчат все README. Внутри - графики, таблица «что выбрать под ваш сценарий» и репозиторий, чтобы повторить у себя.
-
Как я запускал Qwen 3.5 на Mac: бенчмарк 8 локальных LLM-серверов. Кто быстрее?
Взял MacBook Pro M2 Max, 64GB, и задал простой вопрос: какой MLX-сервер реально готов держать Qwen 3.5 35B как локальный API для команды? Оказалось - серверов восемь, каждый в README обещает «blazing fast», а по факту между ними пропасть. Написал харнесс на Python, прогнал пять итераций на восьми промтах - от AIME до 52k токенов. Single-user тройка идёт ноздря в ноздрю. Но стоит пустить два запроса параллельно - и четыре фреймворка из шести откатываются в очередь, один деградирует до 0.85×, и только один выдаёт честные 2.17×. По дороге всплыли квадратичный attention в 2026 году, фантомные 14 000 tokens/sec из-за одной строчки в SSE-парсере и зомби-процесс на 20GB RAM, про который молчат все README. Внутри - графики, таблица «что выбрать под ваш сценарий» и репозиторий, чтобы повторить у себя.
-
Как я запускал Qwen 3.5 на Mac: бенчмарк 8 локальных LLM-серверов. Кто быстрее?
Взял MacBook Pro M2 Max, 64GB, и задал простой вопрос: какой MLX-сервер реально готов держать Qwen 3.5 35B как локальный API для команды? Оказалось - серверов восемь, каждый в README обещает «blazing fast», а по факту между ними пропасть. Написал харнесс на Python, прогнал пять итераций на восьми промтах - от AIME до 52k токенов. Single-user тройка идёт ноздря в ноздрю. Но стоит пустить два запроса параллельно - и четыре фреймворка из шести откатываются в очередь, один деградирует до 0.85×, и только один выдаёт честные 2.17×. По дороге всплыли квадратичный attention в 2026 году, фантомные 14 000 tokens/sec из-за одной строчки в SSE-парсере и зомби-процесс на 20GB RAM, про который молчат все README. Внутри - графики, таблица «что выбрать под ваш сценарий» и репозиторий, чтобы повторить у себя.
-
OllamaがAppleシリコン向けに「MLX」をネイティブ統合:ローカルAIで最大2倍の高速化を実現
テクノロジー業界における「AIの実行場所」を巡る力学は確実に変化しているようだ。ローカル環境での大規模言語モデル(LLM)実行を支援するプラットフォーム「Ollama」は、Appleのオープンソース機械学習フレームワーク「MLX」へのネイティブ対応を特徴とするバージョン0.19のプレビュー版を公開した。このアップデートは、これまでクラウドベースのAPIに依存してきたAI開発やエージェント操作の基盤を、エンドユーザーの端末側へと引き寄せる技術的なマイルストーンと言えるだろう。 ユニファイドメモリの真価を引き出すアーキテクチャ統合 従来のパーソナルコンピュータにおける機械学習アプローチは、中央演算処理装置(CPU)と画像処理半導体(GPU)が物理的に分離されたメモリプールを持つことを前提としてきた。この構造では、膨大なパラメータを持つLLMを動作させる際、CPUからGPUへのデータ転送自体がボトルネックとなる。 ハードウェアとソフトウェアの完璧な同期 Appleシリコン(M1以降のチップセット)の最大の特徴は、CPUとGPUが単一の巨大なメモリプールを共有する「ユニファイドメモリアーキテクチャ」を採用している点にある。Appleが開発したMLXは、このハードウェア上の特性をソフトウェア側から直接利用するために設計されたフレームワークだ。Ollamaは今回のアップデートにより、MLXの共有メモリモデルを深いレベルで統合した。 その結果として生じるのは、データ転送オーバーヘッドの劇的な削減である。LLMの推論処理において、メモリ帯域幅はスループットを決定づける最重要要因となる。OllamaがMLXを経由してユニファイドメモリに直接アクセス可能となったことで、レイテンシが大幅に低下し、スループットが飛躍的に向上したのだ。 ベンチマークが示す推論能力の飛躍的な向上 アーキテクチャの刷新は、実際のベンチマーク結果に明確な数値として表れている。Ollamaが公開した内部テスト(テスト対象はAlibabaの「Qwen3.5-35B-A3B」モデル)によると、Appleの最新チップセットであるM5、M5 […]https://xenospectrum.com/ollama-mlx-apple-silicon-nvfp4-local-ai/
-
💡 Apple FastVLM funziona offline nel browser: zero latenza e privacy totale nei video IA
#ai #apple #appleglasses #ar #blog #fastvlm #llm #mlx #news #picks #smartglasses #tech #tecnologia #webgpu
-
- Cohere Transcribe automatic speech recognition model supports 14 languages with impressive benchmarks: https://cohere.com/blog/transcribe https://huggingface.co/CohereLabs/cohere-transcribe-03-2026 MLX port already: https://github.com/Blaizzy/mlx-audio
- Distributed ML training across MacBooks via MLX + Airdrop, cool! https://github.com/swarnim-j/grove
- Rumours: iOS 27 will open Siri to run any AI service (Bloomberg) + Anthropic acknowledges testing 'step change' level model after 'leak' (fortune.com)
-
Apple – So viel schneller laufen lokale KI-Modelle mit dem M5-Chip
Apple demonstriert den Leistungszuwachs des neuen M5-Chips bei der Ausführung von lokalen KI-Modellen auf der eigenen MLX-Plattform. Der Vergleich zum Vorgänger M4 bietet Einblicke in die nächste Generation der Apple-Prozessoren.Leistungssprung b
https://www.apfeltalk.de/magazin/news/apple-so-viel-schneller-laufen-lokale-ki-modelle-mit-dem-m5-chip/
#KI #News #Apple #KI #LokaleSprachmodelle #M5 #Mac #MLX #Prozessor -
How to vibe code for free: Running Qwen3 on your Mac, using MLX
https://localforge.dev/blog/running-qwen3-macbook-mlx
#ycombinator #Qwen3 #MLX #macOS #Apple_Silicon #Local_LLM #Localforge #Free_Code_Generation #Ollama #Local_AI #LLM_Agent -
Mit dem aktuellen Update der #LMStudio #MLX Runtime (0.36.1) laufen seit heute auch die Ministral- und Devstral-Modelle im entsprechenden Format.
ministral-3-14b-reasoning liefert dabei auf meinem 2022er MacBook Pro M1 brauchbare 16tok/sec - dem #LLM beim "Denken" zuzugucken ist dabei recht amüsant: Im Vergleich zu anderen Reasoning-Modellen finde ich es irgendwie sympathisch "verkopft" und unentschlossen.
-
Cobbled together an #ExoLabs cluster to fuck around with #devstral a bit, since it's kinda too big for my M3 Max daily driver. While in the process of bringing up nodes the model hit a bug in the #MLX #Python module that deals with inference model sharding related to passing around MLX vs Numpy data structures.
For shits and giggles and also not being a top-tier #Numpy data structure debugging guy I asked Devstral to look at the bug and figure out a fix. After one wrong turn it came up with a fix which I applied to the other nodes and now it's happily sharding the bigger Devstral models. Not sure about vibe coding as a social contagion but from a “How close are we to #Skynet”-perspective I think we're cooked, chat.
Anyway enjoy your Memorial Day weekend 🎉
Figure 1. A very heterogeneous Exo cluster.
-
Một script Python đơn giản hỗ trợ chép âm thanh micro trực tiếp bằng mô hình parakeet-tdt-0.6b-v2/3 trên MLX, tự động sao chép và dán. Nhấn tổ hợp phím để bật/tắt. Tác giả: @fullbridgerecctifier. Cảm ơn nguồn chia sẻ!
#Python #Transcribe #MLX #parakeet #SpeechToText #ScriptĐơnGiản #TríTuệNhânTạo
-
Thunderbolt‑5‑Cluster: RDMA macht KI-Berechnungen auf dem Mac deutlich schneller
Mit macOS Tahoe 26.2 bringt Apple RDMA-Unterstützung über Thunderbolt 5 auf den Mac und öffnet damit neue Wege für KI‑Berechnungen im Cluster. Ein Praxistest mit vier Mac Stu
https://www.apfeltalk.de/magazin/feature/thunderbolt%e2%80%915%e2%80%91cluster-rdma-macht-ki-berechnungen-auf-dem-mac-deutlich-schneller/
#Feature #KI #KIForschung #LargeLanguageModels #MacStudio #MacOSTahoe #MLX #RDMA #Thunderbolt5 -
Does anyone know a way to run a very large #GGUF or #MLX pre-trained #AI model using sharding if it won't fit into unified memory? Speed isn't the goal; just loading. I tried a 250GB model with 72GB VRAM + 24GB RAM using the llama.cpp Metal-enabled runtime, but it didn't work in #LM_Studio even with "keep model in memory" off and "try mmap()" on.
Seems like swap or partial loading should be possible, esp. using #macOS dynamically-sized compressed swap. Thoughts?
-
#Apple should’ve ignored the (pseudo) AI hype
Continue #NeuralAccelerator hardware & #MLX software development, enable running useful LLM locally
Partner with Steam, make running #Games on #macOS & porting to #iOS trivially easy
Embrace a “local first, intermittent connections, eventually consistent” view of the future
Be an alternative to the “cloud first, always on, always connected” future everyone else in trying to sell
Focus on #HomeAutomation
-
Hi everyone. I am excited to announce that we have released an exciting command line tool called PerspectiveCLI. This tool allows anyone using the Mac terminal to chat with Apple Foundation Models or MLX Community models. You can download it from our Github page, and I encourage anyone to contribute to the project. https://github.com/Techopolis/PerspectiveCLI, #iOSDev #AppleFoundationModels, #MLX, #PerspectiveIntelligence
-
A Implementation of Alpha Zero for Chess in MLX
https://github.com/koogle/mlx-playground/tree/main/chesszero
-
Local Audio Transcription with MLX Whisper and AI agent API on Apple Silicon
I attend a lot of meetings. Some are in-person, some remote, but almost all of them benefit from having a transcript and summary afterwards. Commercial transcription services work well, but they come with two drawback
https://www.hylkerozema.nl/2026/02/24/local-audio-transcription-with-mlx-whisper-and-claude-on-apple-silicon/
#DataScience #LiveUpdates #AppleSilicon #ClaudeAPI #MLX #Python #Transcription #Whisper -
Local Audio Transcription with MLX Whisper and AI agent API on Apple Silicon
I attend a lot of meetings. Some are in-person, some remote, but almost all of them benefit from having a transcript and summary afterwards. Commercial transcription services work well, but they come with two drawback
https://www.hylkerozema.nl/2026/02/24/local-audio-transcription-with-mlx-whisper-and-claude-on-apple-silicon/
#DataScience #LiveUpdates #AppleSilicon #ClaudeAPI #MLX #Python #Transcription #Whisper -
Local Audio Transcription with MLX Whisper and AI agent API on Apple Silicon
I attend a lot of meetings. Some are in-person, some remote, but almost all of them benefit from having a transcript and summary afterwards. Commercial transcription services work well, but they come with two drawback
https://www.hylkerozema.nl/2026/02/24/local-audio-transcription-with-mlx-whisper-and-claude-on-apple-silicon/
#DataScience #LiveUpdates #AppleSilicon #ClaudeAPI #MLX #Python #Transcription #Whisper -
Local Audio Transcription with MLX Whisper and AI agent API on Apple Silicon
I attend a lot of meetings. Some are in-person, some remote, but almost all of them benefit from having a transcript and summary afterwards. Commercial transcription services work well, but they come with two drawback
https://www.hylkerozema.nl/2026/02/24/local-audio-transcription-with-mlx-whisper-and-claude-on-apple-silicon/
#DataScience #LiveUpdates #AppleSilicon #ClaudeAPI #MLX #Python #Transcription #Whisper -
Local Audio Transcription with MLX Whisper and AI agent API on Apple Silicon
I attend a lot of meetings. Some are in-person, some remote, but almost all of them benefit from having a transcript and summary afterwards. Commercial transcription services work well, but they come with two drawback
https://www.hylkerozema.nl/2026/02/24/local-audio-transcription-with-mlx-whisper-and-claude-on-apple-silicon/
#DataScience #LiveUpdates #AppleSilicon #ClaudeAPI #MLX #Python #Transcription #Whisper -
Kimi K2 Thinking Kimi K2 Thinking Chinese AI lab Moonshot's Kimi K2 established itself as one of the largest open weight models - 1 trillion parameters - back in July . They've now released...
#ai #generative-ai #llms #llm #mlx #pelican-riding-a-bicycle #llm-reasoning #llm-release #openrouter #ai-in-china #artificial-analysis
Origin | Interest | Match -
Kimi K2 Thinking Kimi K2 Thinking Chinese AI lab Moonshot's Kimi K2 established itself as one of the largest open weight models - 1 trillion parameters - back in July . They've now released...
#ai #generative-ai #llms #llm #mlx #pelican-riding-a-bicycle #llm-reasoning #llm-release #openrouter #ai-in-china #artificial-analysis
Origin | Interest | Match -
The prolific Awni Hannun @awnihannun of #mlx fame:
[…] A very legit list from the White House on accelerating AI innovation in America.
🙄 You really can’t separate tech from policy when tech is now more than ever a tool of sadistic oppression. Especially #AI. Especially #Google, #Meta and possibly #Apple?
Maybe Hannun should watch M3GAN 2.0 🫨 , if he doesn’t have time to read the news about what’s happening in his country. Or is it fear of deportation?
Also it’s the U.S., not America. But, peanuts.
https://xcancel.com/awnihannun/status/1948115306783859063
#notechforgenocide
#notechforapartheid
#NoTechForTyrants
#trumpism #ai #usfascism #uspol -
In this video, Ollama vs. LM Studio (GGUF), showing that their performance is quite similar, with LM Studio’s tok/sec output used for consistent benchmarking.
What’s even more impressive? The Mac Studio M3 Ultra pulls under 200W during inference with the Q4 671B R1 model. That’s quite amazing for such performance!
#LLMs #AI #MachineLearning #Ollama #LMStudio #GGUF #MLX #TechReview #Benchmarking #MacStudio #M3Ultra #LocalLLM #AIbenchmarks #EnergyEfficient #linux
-
Ah, the classic tale of "MacBook Warrior discovers free coding nirvana" 🤓 with the mystical powers of #Qwen3 and the enigmatic #MLX. Because who needs a life when you can vibe code all day, right? 🙃 Just don't forget to post about it on every platform known to man, including the one called "Localforge" (whatever that is). 😂
https://localforge.dev/blog/running-qwen3-macbook-mlx #MacBookWarrior #FreeCoding #Nirvana #Localforge #HackerNews #ngated -
#Cambodian official -
https://kensbookinfo.blogspot.com/p/business.html#4A #Family Mystery of Life, Death, and Destiny" by Phoebe -
https://kensbookinfo.blogspot.com/p/media.html#8#Apple #TV app – Top #Movies -
https://kensbookinfo.blogspot.com/p/canada.html#4#Singapore extradites ex-Wirecard #Asia director to #Germany -
https://kensbookinfo.blogspot.com/p/world-capitals.html#SingaporeOllama is supercharged by #MLX's unified memory use -
https://kensbookinfo.blogspot.com/p/infotech.html#49View all news from the UK https://kensbookinfo.blogspot.com/2026/03/latest-news-from-united-kingdom.html
-
Lightning-SimulWhisper là mô hình phiên âm giọng nói thời gian thực mới, được tối ưu hóa cho Apple Silicon. Nó mang lại tốc độ nhanh hơn ~15 lần so với bản PyTorch gốc trên M2 MacBook Pro, sử dụng công nghệ SimulStreaming (SOTA 2025). Dự án này đang ở giai đoạn beta.
#LightningSimulWhisper #SpeechToText #AppleSilicon #M2 #AI #MachineLearning #RealtimeTranscription #CoreML #MLX #PhiênÂmGiọngNói #ThờiGianThực #TríTuệNhânTạo #HọcMáyhttps://www.reddit.com/r/LocalLLaMA/comments/1o3abmd/lightningsim
-
RamaLama là công cụ CLI giúp chạy và xây dựng các mô hình LLM qua container. Bước sœur hỗ trợ MLX kèm llama.cpp, vLLM. Tương thích nhiều thiết bị: GPU Apple Silicon, Nvidia, AMD, Intel, mới hỗ trợ NPU Ascend. Mời cộng đồng thử nghiệm với cấu hình đặc biệt. GitHub: containers/ramalama. Hình thành diễn đàn dev Lukas trong weeks sau. #RamaLama #MLX #LLM #AI #Tech #GitHub #مطور #Container
https://www.reddit.com/r/LocalLLaMA/comments/1odilom/ramalama_running_llms_as_containers_adding_mlx/
-
La Perf — бенчмарк локального ИИ, или M-серия наносит ответный удар
Если вам интересен мир ИИ и вы хотите не просто делать fit, predict на удаленной ВМ, а изучать что-то локально, экспериментировать и упрощать себе жизнь, запуская модели прямо на своем девайсе — скорее всего, вам понадобится достаточно мощное железо. Эта статья - попытка ответить на вопрос эффективности железа для популярных AI задач: LLM, VLM, эмбэддинги. Она будет полезна как ML/AI Инженерам, так и просто Энтузиастам, которые выбирают себе железо для локального инференса gpt-oss .
https://habr.com/ru/articles/966654/
#бенчмарк #ai #llm #vlm #embeddings #opensource #localai #mlx #cuda #mps
-
Apple – So viel schneller laufen lokale KI-Modelle mit dem M5-Chip
Apple demonstriert den Leistungszuwachs des neuen M5-Chips bei der Ausführung von lokalen KI-Modellen auf der eigenen MLX-Plattform. Der Vergleich zum Vorgänger M4 bietet Einblicke in die nächste Generation der Apple-Prozessoren.Leistungssprung b
https://www.apfeltalk.de/magazin/news/apple-so-viel-schneller-laufen-lokale-ki-modelle-mit-dem-m5-chip/
#KI #News #Apple #KI #LokaleSprachmodelle #M5 #Mac #MLX #Prozessor -
Apple – So viel schneller laufen lokale KI-Modelle mit dem M5-Chip
Apple demonstriert den Leistungszuwachs des neuen M5-Chips bei der Ausführung von lokalen KI-Modellen auf der eigenen MLX-Plattform. Der Vergleich zum Vorgänger M4 bietet Einblicke in die nächste Generation der Apple-Prozessoren.Leistungssprung b
https://www.apfeltalk.de/magazin/news/apple-so-viel-schneller-laufen-lokale-ki-modelle-mit-dem-m5-chip/
#KI #News #Apple #KI #LokaleSprachmodelle #M5 #Mac #MLX #Prozessor -
Apple – So viel schneller laufen lokale KI-Modelle mit dem M5-Chip
Apple demonstriert den Leistungszuwachs des neuen M5-Chips bei der Ausführung von lokalen KI-Modellen auf der eigenen MLX-Plattform. Der Vergleich zum Vorgänger M4 bietet Einblicke in die nächste Generation der Apple-Prozessoren.Leistungssprung b
https://www.apfeltalk.de/magazin/news/apple-so-viel-schneller-laufen-lokale-ki-modelle-mit-dem-m5-chip/
#KI #News #Apple #KI #LokaleSprachmodelle #M5 #Mac #MLX #Prozessor