#flashattention — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #flashattention, aggregated by home.social.
-
谷歌一篇论文砸崩内存巨头?不懂“显存墙”,怎么做 AI 时代的工程师! 本文永久链接 – https://tonybai.com/2026/03/28/ai-engineer-gpu-introduction-course 大家好...
#技术志 #AIModel #AI模型 #ArtificialIntelligence #AttentionMechanism #ComputeBound #ComputingPower #CUDA #FlashAttention #FP8 #Go
Origin | Interest | Match -
🤔 Ah, the classic tale of a tech enthusiast playing "will-it-blend?" with TPUs and Flash Attention! 🤪 Our hero Archer FAFO (Finds A Free Option) decides to port algorithms like he's playing a game of Tetris—except it's on a free-tier #TPU in #Colab, which is basically like using a Ferrari to deliver pizza for free. 🍕🚗
https://archerzhang.me/forcing-flash-attention-onto-a-tpu #techenthusiast #FlashAttention #freeoptions #algorithmshack #HackerNews #ngated -
🤔 Ah, the classic tale of a tech enthusiast playing "will-it-blend?" with TPUs and Flash Attention! 🤪 Our hero Archer FAFO (Finds A Free Option) decides to port algorithms like he's playing a game of Tetris—except it's on a free-tier #TPU in #Colab, which is basically like using a Ferrari to deliver pizza for free. 🍕🚗
https://archerzhang.me/forcing-flash-attention-onto-a-tpu #techenthusiast #FlashAttention #freeoptions #algorithmshack #HackerNews #ngated -
🤔 Ah, the classic tale of a tech enthusiast playing "will-it-blend?" with TPUs and Flash Attention! 🤪 Our hero Archer FAFO (Finds A Free Option) decides to port algorithms like he's playing a game of Tetris—except it's on a free-tier #TPU in #Colab, which is basically like using a Ferrari to deliver pizza for free. 🍕🚗
https://archerzhang.me/forcing-flash-attention-onto-a-tpu #techenthusiast #FlashAttention #freeoptions #algorithmshack #HackerNews #ngated -
🤔 Ah, the classic tale of a tech enthusiast playing "will-it-blend?" with TPUs and Flash Attention! 🤪 Our hero Archer FAFO (Finds A Free Option) decides to port algorithms like he's playing a game of Tetris—except it's on a free-tier #TPU in #Colab, which is basically like using a Ferrari to deliver pizza for free. 🍕🚗
https://archerzhang.me/forcing-flash-attention-onto-a-tpu #techenthusiast #FlashAttention #freeoptions #algorithmshack #HackerNews #ngated -
New benchmark shows that larger CUDA tiles can cut Flash Attention throughput by 18‑43 % across sequence lengths. The study dives into kernel design, TFLOPS loss, and what it means for transformer model efficiency on NVIDIA GPUs. Open‑source researchers can use these insights to tune their kernels and reclaim performance. #FlashAttention #CUDATiles #GPUPerformance #TFLOPS
🔗 https://aidailypost.com/news/large-cuda-tiles-reduce-flash-attention-tflops-by-1843-across
-
New benchmark shows that larger CUDA tiles can cut Flash Attention throughput by 18‑43 % across sequence lengths. The study dives into kernel design, TFLOPS loss, and what it means for transformer model efficiency on NVIDIA GPUs. Open‑source researchers can use these insights to tune their kernels and reclaim performance. #FlashAttention #CUDATiles #GPUPerformance #TFLOPS
🔗 https://aidailypost.com/news/large-cuda-tiles-reduce-flash-attention-tflops-by-1843-across
-
New benchmark shows that larger CUDA tiles can cut Flash Attention throughput by 18‑43 % across sequence lengths. The study dives into kernel design, TFLOPS loss, and what it means for transformer model efficiency on NVIDIA GPUs. Open‑source researchers can use these insights to tune their kernels and reclaim performance. #FlashAttention #CUDATiles #GPUPerformance #TFLOPS
🔗 https://aidailypost.com/news/large-cuda-tiles-reduce-flash-attention-tflops-by-1843-across
-
The Hidden Engineering Behind Fast AI: How LLM Inference Actually Works
https://techlife.blog/posts/llm-inference-optimization/
#LLM #Inference #PagedAttention #vLLM #FlashAttention #SpeculativeDecoding #MachineLearning #GPUOptimization #KVCache
-
The Hidden Engineering Behind Fast AI: How LLM Inference Actually Works
https://techlife.blog/posts/llm-inference-optimization/
#LLM #Inference #PagedAttention #vLLM #FlashAttention #SpeculativeDecoding #MachineLearning #GPUOptimization #KVCache
-
The Hidden Engineering Behind Fast AI: How LLM Inference Actually Works
https://techlife.blog/posts/llm-inference-optimization/
#LLM #Inference #PagedAttention #vLLM #FlashAttention #SpeculativeDecoding #MachineLearning #GPUOptimization #KVCache
-
The Hidden Engineering Behind Fast AI: How LLM Inference Actually Works
https://techlife.blog/posts/llm-inference-optimization/
#LLM #Inference #PagedAttention #vLLM #FlashAttention #SpeculativeDecoding #MachineLearning #GPUOptimization #KVCache
-
The Hidden Engineering Behind Fast AI: How LLM Inference Actually Works
https://techlife.blog/posts/llm-inference-optimization/
#LLM #Inference #PagedAttention #vLLM #FlashAttention #SpeculativeDecoding #MachineLearning #GPUOptimization #KVCache
-
Triton, Flash-attension, Sage-attension и bitsandbytes с Rocm7 в Windows
В конце января 2026 вышел triton-windows 3.6.0.post25 , который позволяет использовать flash-attention , sage-attention (v1) и другие библиотеки, использующие Triton, на картах AMD с поддержкой rocWMMA в Windows. Также, несмотря на то, что в официальном репозитории bitsandbytes еще не приняли PR для поддержки ROCm 7, его все же можно собрать, внеся небольшие изменения в код. Эти изменения я уже сделал в своем форке. В этой статье я расскажу, как установить все это себе, а также для примера запустим пару тестов в ComfyUI, в том числе со свежей LTX-2, и сделаем Qlora адаптер для модели Gemma 3.
https://habr.com/ru/articles/987672/
#triton #amd #rx7900 #sageattention #flashattention #bitsandbytes #rocm #rocm7 #comfyui #ltx2
-
Triton, Flash-attension, Sage-attension и bitsandbytes с Rocm7 в Windows
В конце января 2026 вышел triton-windows 3.6.0.post25 , который позволяет использовать flash-attention , sage-attention (v1) и другие библиотеки, использующие Triton, на картах AMD с поддержкой rocWMMA в Windows. Также, несмотря на то, что в официальном репозитории bitsandbytes еще не приняли PR для поддержки ROCm 7, его все же можно собрать, внеся небольшие изменения в код. Эти изменения я уже сделал в своем форке. В этой статье я расскажу, как установить все это себе, а также для примера запустим пару тестов в ComfyUI, в том числе со свежей LTX-2, и сделаем Qlora адаптер для модели Gemma 3.
https://habr.com/ru/articles/987672/
#triton #amd #rx7900 #sageattention #flashattention #bitsandbytes #rocm #rocm7 #comfyui #ltx2
-
Triton, Flash-attension, Sage-attension и bitsandbytes с Rocm7 в Windows
В конце января 2026 вышел triton-windows 3.6.0.post25 , который позволяет использовать flash-attention , sage-attention (v1) и другие библиотеки, использующие Triton, на картах AMD с поддержкой rocWMMA в Windows. Также, несмотря на то, что в официальном репозитории bitsandbytes еще не приняли PR для поддержки ROCm 7, его все же можно собрать, внеся небольшие изменения в код. Эти изменения я уже сделал в своем форке. В этой статье я расскажу, как установить все это себе, а также для примера запустим пару тестов в ComfyUI, в том числе со свежей LTX-2, и сделаем Qlora адаптер для модели Gemma 3.
https://habr.com/ru/articles/987672/
#triton #amd #rx7900 #sageattention #flashattention #bitsandbytes #rocm #rocm7 #comfyui #ltx2
-
Triton, Flash-attension, Sage-attension и bitsandbytes с Rocm7 в Windows
В конце января 2026 вышел triton-windows 3.6.0.post25 , который позволяет использовать flash-attention , sage-attention (v1) и другие библиотеки, использующие Triton, на картах AMD с поддержкой rocWMMA в Windows. Также, несмотря на то, что в официальном репозитории bitsandbytes еще не приняли PR для поддержки ROCm 7, его все же можно собрать, внеся небольшие изменения в код. Эти изменения я уже сделал в своем форке. В этой статье я расскажу, как установить все это себе, а также для примера запустим пару тестов в ComfyUI, в том числе со свежей LTX-2, и сделаем Qlora адаптер для модели Gemma 3.
https://habr.com/ru/articles/987672/
#triton #amd #rx7900 #sageattention #flashattention #bitsandbytes #rocm #rocm7 #comfyui #ltx2
-
🖥️ Thử Qwen3‑30B (a3b VL Q4_XS) trên GPU P40 với Flash Attention. Đạt context 100k, nhưng khi tới ~60K gặp lỗi lặp đoạn, hiệu năng giảm mạnh. Tắt FA, chuyển MOE weights sang CPU: tốc độ giảm ~5x, K‑cache chậm ở Q4/Q5. Người dùng đang tìm cách tối ưu cài đặt. #AI #LLM #Qwen30B #FlashAttention #GPU #LocalLLaMA #trí_tự_nhiên #công_nghệ
-
I rebuilt FlashAttention in Triton to understand the performance archaeology
https://aminediro.com/posts/flash_attn/
#HackerNews #FlashAttention #Triton #Performance #Archaeology #Rebuild #TechInnovation #MachineLearning
-
I rebuilt FlashAttention in Triton to understand the performance archaeology
https://aminediro.com/posts/flash_attn/
#HackerNews #FlashAttention #Triton #Performance #Archaeology #Rebuild #TechInnovation #MachineLearning
-
I rebuilt FlashAttention in Triton to understand the performance archaeology
https://aminediro.com/posts/flash_attn/
#HackerNews #FlashAttention #Triton #Performance #Archaeology #Rebuild #TechInnovation #MachineLearning
-
I rebuilt FlashAttention in Triton to understand the performance archaeology
https://aminediro.com/posts/flash_attn/
#HackerNews #FlashAttention #Triton #Performance #Archaeology #Rebuild #TechInnovation #MachineLearning
-
I rebuilt FlashAttention in Triton to understand the performance archaeology
https://aminediro.com/posts/flash_attn/
#HackerNews #FlashAttention #Triton #Performance #Archaeology #Rebuild #TechInnovation #MachineLearning
-
NVIDIA wprowadza Skip Softmax – rewolucja w szybkości LLM-ów
Czy naprawdę trzeba liczyć uwagę do każdego słowa w 128 tysiącach tokenów? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to szybciej, nie rozwalając modelu.
Czytaj dalej:
https://pressmind.org/nvidia-wprowadza-skip-softmax-rewolucja-w-szybkosci-llm-ow/#PressMindLabs #blackwell #flashattention #hopper #rag #skipsoftmax
-
NVIDIA prezentuje Skip Softmax – rewolucja w obliczeniach LLM!
Czy naprawdę musimy liczyć uwagę każdego tokena do każdego innego tokena, tylko dlatego że tak mówi matematyka? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to sprytniej.
Czytaj dalej:
https://pressmind.org/nvidia-prezentuje-skip-softmax-rewolucja-w-obliczeniach-llm/#PressMindLabs #flashattention #llm #nvidia #rag #skipsoftmax
-
NVIDIA prezentuje Skip Softmax – rewolucja w obliczeniach LLM!
Czy naprawdę musimy liczyć uwagę każdego tokena do każdego innego tokena, tylko dlatego że tak mówi matematyka? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to sprytniej.
Czytaj dalej:
https://pressmind.org/nvidia-prezentuje-skip-softmax-rewolucja-w-obliczeniach-llm/#PressMindLabs #flashattention #llm #nvidia #rag #skipsoftmax
-
NVIDIA prezentuje Skip Softmax – rewolucja w obliczeniach LLM!
Czy naprawdę musimy liczyć uwagę każdego tokena do każdego innego tokena, tylko dlatego że tak mówi matematyka? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to sprytniej.
Czytaj dalej:
https://pressmind.org/nvidia-prezentuje-skip-softmax-rewolucja-w-obliczeniach-llm/#PressMindLabs #flashattention #llm #nvidia #rag #skipsoftmax
-
NVIDIA prezentuje Skip Softmax – rewolucja w obliczeniach LLM!
Czy naprawdę musimy liczyć uwagę każdego tokena do każdego innego tokena, tylko dlatego że tak mówi matematyka? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to sprytniej.
Czytaj dalej:
https://pressmind.org/nvidia-prezentuje-skip-softmax-rewolucja-w-obliczeniach-llm/#PressMindLabs #flashattention #llm #nvidia #rag #skipsoftmax
-
NVIDIA prezentuje Skip Softmax – rewolucja w obliczeniach LLM!
Czy naprawdę musimy liczyć uwagę każdego tokena do każdego innego tokena, tylko dlatego że tak mówi matematyka? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to sprytniej.
Czytaj dalej:
https://pressmind.org/nvidia-prezentuje-skip-softmax-rewolucja-w-obliczeniach-llm/#PressMindLabs #flashattention #llm #nvidia #rag #skipsoftmax
-
Ускоряем LLM по максимуму. Как я создал кросс-платформенный Flash Attention с поддержкой Turing+ архитектур и не только
На сегодняшний день трансформеры правят балом хайпа в мире машинного обучения, особенно после появления ChatGPT и ему подобных языковых моделей. Это стало возможным благодаря лежащему в основе их архитектуры механизму внимания (attention), однако он же и является слабым местом с точки зрения производительности и потребления памяти. Хотя в связи с этим и была разработана изящная концепция Flash Attention (Tri Dao), её существующие реализации имеют ряд ограничений. Поэтому представляю вашему вниманию первую и единственную open-source реализацию Flash Attention 2 на Triton с поддержкой Linux и Windows, Turing-Blackwell архитектур (теперь можно работать в Google Colab и Kaggle), гомо и гетерогенных кластеров, опциональным детерминизмом, а также возможностью ручной кастомизации ядер (kernels) для более гибкой настройки под каждую GPU архитектуру отдельно. Более подробно о том как это устроено и не только — далее в статье.
https://habr.com/ru/articles/976576/
#машинное_обучение #transformers #трансформеры #внимание #attention #flashattention #triton #большие_языковые_модели #llm #оптимизация_производительности
-
Ускоряем LLM по максимуму. Как я создал кросс-платформенный Flash Attention с поддержкой Turing+ архитектур и не только
На сегодняшний день трансформеры правят балом хайпа в мире машинного обучения, особенно после появления ChatGPT и ему подобных языковых моделей. Это стало возможным благодаря лежащему в основе их архитектуры механизму внимания (attention), однако он же и является слабым местом с точки зрения производительности и потребления памяти. Хотя в связи с этим и была разработана изящная концепция Flash Attention (Tri Dao), её существующие реализации имеют ряд ограничений. Поэтому представляю вашему вниманию первую и единственную open-source реализацию Flash Attention 2 на Triton с поддержкой Linux и Windows, Turing-Blackwell архитектур (теперь можно работать в Google Colab и Kaggle), гомо и гетерогенных кластеров, опциональным детерминизмом, а также возможностью ручной кастомизации ядер (kernels) для более гибкой настройки под каждую GPU архитектуру отдельно. Более подробно о том как это устроено и не только — далее в статье.
https://habr.com/ru/articles/976576/
#машинное_обучение #transformers #трансформеры #внимание #attention #flashattention #triton #большие_языковые_модели #llm #оптимизация_производительности
-
Ускоряем LLM по максимуму. Как я создал кросс-платформенный Flash Attention с поддержкой Turing+ архитектур и не только
На сегодняшний день трансформеры правят балом хайпа в мире машинного обучения, особенно после появления ChatGPT и ему подобных языковых моделей. Это стало возможным благодаря лежащему в основе их архитектуры механизму внимания (attention), однако он же и является слабым местом с точки зрения производительности и потребления памяти. Хотя в связи с этим и была разработана изящная концепция Flash Attention (Tri Dao), её существующие реализации имеют ряд ограничений. Поэтому представляю вашему вниманию первую и единственную open-source реализацию Flash Attention 2 на Triton с поддержкой Linux и Windows, Turing-Blackwell архитектур (теперь можно работать в Google Colab и Kaggle), гомо и гетерогенных кластеров, опциональным детерминизмом, а также возможностью ручной кастомизации ядер (kernels) для более гибкой настройки под каждую GPU архитектуру отдельно. Более подробно о том как это устроено и не только — далее в статье.
https://habr.com/ru/articles/976576/
#машинное_обучение #transformers #трансформеры #внимание #attention #flashattention #triton #большие_языковые_модели #llm #оптимизация_производительности
-
Ускоряем LLM по максимуму. Как я создал кросс-платформенный Flash Attention с поддержкой Turing+ архитектур и не только
На сегодняшний день трансформеры правят балом хайпа в мире машинного обучения, особенно после появления ChatGPT и ему подобных языковых моделей. Это стало возможным благодаря лежащему в основе их архитектуры механизму внимания (attention), однако он же и является слабым местом с точки зрения производительности и потребления памяти. Хотя в связи с этим и была разработана изящная концепция Flash Attention (Tri Dao), её существующие реализации имеют ряд ограничений. Поэтому представляю вашему вниманию первую и единственную open-source реализацию Flash Attention 2 на Triton с поддержкой Linux и Windows, Turing-Blackwell архитектур (теперь можно работать в Google Colab и Kaggle), гомо и гетерогенных кластеров, опциональным детерминизмом, а также возможностью ручной кастомизации ядер (kernels) для более гибкой настройки под каждую GPU архитектуру отдельно. Более подробно о том как это устроено и не только — далее в статье.
https://habr.com/ru/articles/976576/
#машинное_обучение #transformers #трансформеры #внимание #attention #flashattention #triton #большие_языковые_модели #llm #оптимизация_производительности
-
New update: PyTorch and NVIDIA’s BioNeMo now support attn_input_format, unlocking faster flash‑attention scaling for models like ESM3. The change adds cu_seq_lens_q handling and integrates with Hugging Face and Transformer Engine, boosting open‑source LLM performance. Dive into the details to see how this impacts your next project. #PyTorch #NVIDIA #flashattention #BioNeMo
🔗 https://aidailypost.com/news/pytorch-nvidia-bionemo-add-attninputformat-flashattention-scaling
-
4x faster LLM inference (Flash Attention guy's company)
https://www.together.ai/blog/adaptive-learning-speculator-system-atlas
#HackerNews #4xFasterInference #FlashAttention #LLMTechnology #AIInnovation #AdaptiveLearning
-
4x faster LLM inference (Flash Attention guy's company)
https://www.together.ai/blog/adaptive-learning-speculator-system-atlas
#HackerNews #4xFasterInference #FlashAttention #LLMTechnology #AIInnovation #AdaptiveLearning
-
4x faster LLM inference (Flash Attention guy's company)
https://www.together.ai/blog/adaptive-learning-speculator-system-atlas
#HackerNews #4xFasterInference #FlashAttention #LLMTechnology #AIInnovation #AdaptiveLearning
-
4x faster LLM inference (Flash Attention guy's company)
https://www.together.ai/blog/adaptive-learning-speculator-system-atlas
#HackerNews #4xFasterInference #FlashAttention #LLMTechnology #AIInnovation #AdaptiveLearning
-
4x faster LLM inference (Flash Attention guy's company)
https://www.together.ai/blog/adaptive-learning-speculator-system-atlas
#HackerNews #4xFasterInference #FlashAttention #LLMTechnology #AIInnovation #AdaptiveLearning
-
Writing Speed-of-Light Flash Attention for 5090 in CUDA C++
https://gau-nernst.github.io/fa-5090/
#HackerNews #WritingSpeedOfLight #FlashAttention #CUDA #C++ #5090 #HackerNews #Technology
-
Writing Speed-of-Light Flash Attention for 5090 in CUDA C++
https://gau-nernst.github.io/fa-5090/
#HackerNews #WritingSpeedOfLight #FlashAttention #CUDA #C++ #5090 #HackerNews #Technology
-
Writing Speed-of-Light Flash Attention for 5090 in CUDA C++
https://gau-nernst.github.io/fa-5090/
#HackerNews #WritingSpeedOfLight #FlashAttention #CUDA #C++ #5090 #HackerNews #Technology
-
Writing Speed-of-Light Flash Attention for 5090 in CUDA C++
https://gau-nernst.github.io/fa-5090/
#HackerNews #WritingSpeedOfLight #FlashAttention #CUDA #C++ #5090 #HackerNews #Technology
-
Writing Speed-of-Light Flash Attention for 5090 in CUDA C++
https://gau-nernst.github.io/fa-5090/
#HackerNews #WritingSpeedOfLight #FlashAttention #CUDA #C++ #5090 #HackerNews #Technology
-
🤖 Oh joy, another thrilling journey through the riveting world of Flash Attention in SGLang! 🌟 Because clearly, the universe was desperately yearning for a detailed breakdown of yet another backend implementation. 🤯 Guess #SGLang 0.4.6 just wouldn’t be the same without it! 🥳
https://hebiao064.github.io/fa3-attn-backend-basic #FlashAttention #BackendImplementation #TechNews #Innovation #Excitement #HackerNews #ngated -
🤖 Oh joy, another thrilling journey through the riveting world of Flash Attention in SGLang! 🌟 Because clearly, the universe was desperately yearning for a detailed breakdown of yet another backend implementation. 🤯 Guess #SGLang 0.4.6 just wouldn’t be the same without it! 🥳
https://hebiao064.github.io/fa3-attn-backend-basic #FlashAttention #BackendImplementation #TechNews #Innovation #Excitement #HackerNews #ngated -
🤖 Oh joy, another thrilling journey through the riveting world of Flash Attention in SGLang! 🌟 Because clearly, the universe was desperately yearning for a detailed breakdown of yet another backend implementation. 🤯 Guess #SGLang 0.4.6 just wouldn’t be the same without it! 🥳
https://hebiao064.github.io/fa3-attn-backend-basic #FlashAttention #BackendImplementation #TechNews #Innovation #Excitement #HackerNews #ngated -
🤖 Oh joy, another thrilling journey through the riveting world of Flash Attention in SGLang! 🌟 Because clearly, the universe was desperately yearning for a detailed breakdown of yet another backend implementation. 🤯 Guess #SGLang 0.4.6 just wouldn’t be the same without it! 🥳
https://hebiao064.github.io/fa3-attn-backend-basic #FlashAttention #BackendImplementation #TechNews #Innovation #Excitement #HackerNews #ngated -
Вакцина… от рака?
Вакцина… от рака? Максимально недлинный рассказ про то, как иммунные клетки атакуют злокачественную опухоль с помощью антител и почему не стоит быстро ждать иммунного ответа; а также про важнейшие виды иммунопрепаратов, технологии создания терапевтических онковакцин и принципиальный подход к использованию нейросетей в этом деле.
https://habr.com/ru/articles/883062/
#онковакцина #иммунитет #FlashAttention #дендритные_клетки #неоантигены #CART_технология
-
Вакцина… от рака?
Вакцина… от рака? Максимально недлинный рассказ про то, как иммунные клетки атакуют злокачественную опухоль с помощью антител и почему не стоит быстро ждать иммунного ответа; а также про важнейшие виды иммунопрепаратов, технологии создания терапевтических онковакцин и принципиальный подход к использованию нейросетей в этом деле.
https://habr.com/ru/articles/883062/
#онковакцина #иммунитет #FlashAttention #дендритные_клетки #неоантигены #CART_технология