#gemm — Public Fediverse posts on home.social

Habr @[email protected] · 2026-03-20 · 06:32 UTC

Умножение матриц: пример использования расширения ARM SME2 в Apple M4 Pro

В конце 2020 года я купил MacBook Pro 13 на процессоре Apple M1, очень хотелось испытать процессоры на архитектуре ARM. Почти сразу на чипе Apple M1 был найден вычислительный блок для матричных операций Apple AMX. Для Apple AMX не было документации, он не использовался в Apple Accelerate , но несколько энтузиастов занимались реверс-инжинирингом и анализом производительности ( " https://github.com/corsix/amx " ). В 2024 году вышли компьютеры на базе семейства процессоров Apple M4, у которых блок AMX задействован для выполнения инструкций из Scalable Matrix Extension 2 (сайт ARM недоступен в РФ) (ARM SME2). В статье рассмотрим использование расширения ARM SME2 на примере умножения заполненных матриц. Увидим, как выжать максимум из процессора и получить прирост производительности в десятки раз.

https://habr.com/ru/articles/1012528/

#ARM_SME #Apple_M #gemm #умножение_матриц #линейная_алгебра #вычислительные_методы #высокопроизводительные_вычисления #оптимизация_кода #векторные_инструкции #векторные_исчисления

#векторные_исчисления #векторные_инструкции #оптимизация_кода #высокопроизводительные_вычисления #вычислительные_методы #линейная_алгебра

Habr @[email protected] · 2026-03-20 · 06:32 UTC

Умножение матриц: пример использования расширения ARM SME2 в Apple M4 Pro

В конце 2020 года я купил MacBook Pro 13 на процессоре Apple M1, очень хотелось испытать процессоры на архитектуре ARM. Почти сразу на чипе Apple M1 был найден вычислительный блок для матричных операций Apple AMX. Для Apple AMX не было документации, он не использовался в Apple Accelerate , но несколько энтузиастов занимались реверс-инжинирингом и анализом производительности ( " https://github.com/corsix/amx " ). В 2024 году вышли компьютеры на базе семейства процессоров Apple M4, у которых блок AMX задействован для выполнения инструкций из Scalable Matrix Extension 2 (сайт ARM недоступен в РФ) (ARM SME2). В статье рассмотрим использование расширения ARM SME2 на примере умножения заполненных матриц. Увидим, как выжать максимум из процессора и получить прирост производительности в десятки раз.

https://habr.com/ru/articles/1012528/

#ARM_SME #Apple_M #gemm #умножение_матриц #линейная_алгебра #вычислительные_методы #высокопроизводительные_вычисления #оптимизация_кода #векторные_инструкции #векторные_исчисления

#векторные_исчисления #векторные_инструкции #оптимизация_кода #высокопроизводительные_вычисления #вычислительные_методы #линейная_алгебра

Habr @[email protected] · 2026-03-20 · 06:32 UTC

Умножение матриц: пример использования расширения ARM SME2 в Apple M4 Pro

В конце 2020 года я купил MacBook Pro 13 на процессоре Apple M1, очень хотелось испытать процессоры на архитектуре ARM. Почти сразу на чипе Apple M1 был найден вычислительный блок для матричных операций Apple AMX. Для Apple AMX не было документации, он не использовался в Apple Accelerate , но несколько энтузиастов занимались реверс-инжинирингом и анализом производительности ( " https://github.com/corsix/amx " ). В 2024 году вышли компьютеры на базе семейства процессоров Apple M4, у которых блок AMX задействован для выполнения инструкций из Scalable Matrix Extension 2 (сайт ARM недоступен в РФ) (ARM SME2). В статье рассмотрим использование расширения ARM SME2 на примере умножения заполненных матриц. Увидим, как выжать максимум из процессора и получить прирост производительности в десятки раз.

https://habr.com/ru/articles/1012528/

#ARM_SME #Apple_M #gemm #умножение_матриц #линейная_алгебра #вычислительные_методы #высокопроизводительные_вычисления #оптимизация_кода #векторные_инструкции #векторные_исчисления

#векторные_исчисления #векторные_инструкции #оптимизация_кода #высокопроизводительные_вычисления #вычислительные_методы #линейная_алгебра

Habr @[email protected] · 2026-03-20 · 06:32 UTC

Умножение матриц: пример использования расширения ARM SME2 в Apple M4 Pro

В конце 2020 года я купил MacBook Pro 13 на процессоре Apple M1, очень хотелось испытать процессоры на архитектуре ARM. Почти сразу на чипе Apple M1 был найден вычислительный блок для матричных операций Apple AMX. Для Apple AMX не было документации, он не использовался в Apple Accelerate , но несколько энтузиастов занимались реверс-инжинирингом и анализом производительности ( " https://github.com/corsix/amx " ). В 2024 году вышли компьютеры на базе семейства процессоров Apple M4, у которых блок AMX задействован для выполнения инструкций из Scalable Matrix Extension 2 (сайт ARM недоступен в РФ) (ARM SME2). В статье рассмотрим использование расширения ARM SME2 на примере умножения заполненных матриц. Увидим, как выжать максимум из процессора и получить прирост производительности в десятки раз.

https://habr.com/ru/articles/1012528/

#ARM_SME #Apple_M #gemm #умножение_матриц #линейная_алгебра #вычислительные_методы #высокопроизводительные_вычисления #оптимизация_кода #векторные_инструкции #векторные_исчисления

#arm_sme #apple_m #gemm #умножение_матриц #линейная_алгебра #вычислительные_методы

PressMind Labs @[email protected] · 2025-11-26 · 17:03 UTC

NVIDIA wprowadza CuTe DSL w CUTLASS 4 – Python zbliża się do C++ w wydajności

Czy da się dogonić C++ wydajnością, pisząc w Pythonie – i to bez czarów, bez sugar-coata i bez tygodni czekania na kompilację? NVIDIA twierdzi, że tak: nowy CuTe DSL w CUTLASS 4 obiecuje „C++-owe” osiągi Tensor Cores z wygodą pythonowych API.

Czytaj dalej:
https://pressmind.org/nvidia-wprowadza-cute-dsl-w-cutlass-4-python-zbliza-sie-do-c-w-wydajnosci/

#PressMindLabs #cutedsl #cutlass #gemm #nvidia #pythonjit

#pressmindlabs #cutedsl #cutlass #gemm #nvidia #pythonjit

Habr @[email protected] · 2025-08-07 · 17:22 UTC

Учимся разрабатывать для GPU на примере операции GEMM

Привет, Хабр! Сегодня я расскажу про реализацию матричного умножения и особенности разработки для GPU. Познакомлю вас с устройством GPU, объясню, чем отличается программирование от привычного для CPU, какие нюансы нужно учитывать для эффективной реализации операций GEMM. А затем сравним производительность разных подходов к реализации.

https://habr.com/ru/companies/yadro/articles/934878/

#gpu_вычисления #opencl #gemm

#gemm #opencl #gpu_вычисления

Habr @[email protected] · 2025-08-07 · 17:22 UTC

Учимся разрабатывать для GPU на примере операции GEMM

Привет, Хабр! Сегодня я расскажу про реализацию матричного умножения и особенности разработки для GPU. Познакомлю вас с устройством GPU, объясню, чем отличается программирование от привычного для CPU, какие нюансы нужно учитывать для эффективной реализации операций GEMM. А затем сравним производительность разных подходов к реализации.

https://habr.com/ru/companies/yadro/articles/934878/

#gpu_вычисления #opencl #gemm

#gemm #opencl #gpu_вычисления

Habr @[email protected] · 2025-08-07 · 17:22 UTC

Учимся разрабатывать для GPU на примере операции GEMM

Привет, Хабр! Сегодня я расскажу про реализацию матричного умножения и особенности разработки для GPU. Познакомлю вас с устройством GPU, объясню, чем отличается программирование от привычного для CPU, какие нюансы нужно учитывать для эффективной реализации операций GEMM. А затем сравним производительность разных подходов к реализации.

https://habr.com/ru/companies/yadro/articles/934878/

#gpu_вычисления #opencl #gemm

#gemm #opencl #gpu_вычисления

Habr @[email protected] · 2025-08-07 · 17:22 UTC

Учимся разрабатывать для GPU на примере операции GEMM

Привет, Хабр! Сегодня я расскажу про реализацию матричного умножения и особенности разработки для GPU. Познакомлю вас с устройством GPU, объясню, чем отличается программирование от привычного для CPU, какие нюансы нужно учитывать для эффективной реализации операций GEMM. А затем сравним производительность разных подходов к реализации.

https://habr.com/ru/companies/yadro/articles/934878/

#gpu_вычисления #opencl #gemm

Habr @[email protected] · 2025-04-20 · 07:22 UTC

OpenBLAS/gemm отстаёт на RISC-V

В ходе недавних исследований мы выполнили комплексное тестирование производительности математической библиотеки OpenBLAS на платформе RISC‑V и выявили существенную разницу в скорости выполнения ключевой операции матричного умножения cblas_sgemm по сравнению с архитектурой x86 — производительность оказалась значительно ниже. cblas_sgemm — функция для умножения матриц, состоящих из 32-разрядных вещественных чисел. Хотелось бы обратить внимание на то, что функция матричного умножения gemm, соответствующая стандартам BLAS, используется во многих библиотеках и алгоритмах. А OpenBLAS — одна из самых популярных реализаций стандарта BLAS с оптимизацией под различные платформы. Так на x86_64 OpenBlas получает производительность примерно 80–90% от теоретического максимума процессора. А на Risc‑v примерно 20–25%. Также была рассмотрена самостоятельно реализованная функция перемножения матриц mini‑gemm по алгоритму описанному в статье . При этом наша реализация получает производительность 30–35% от максимума. Из чего встает два вопроса: почему на RISC‑V не получили 80%, как на x86_64 и как так вышло, что наша реализация обогнала OpenBLAS.

https://habr.com/ru/articles/902442/

#openblas #gemm #riscv #производительность

Habr @[email protected] · 2025-04-20 · 07:22 UTC

OpenBLAS/gemm отстаёт на RISC-V

В ходе недавних исследований мы выполнили комплексное тестирование производительности математической библиотеки OpenBLAS на платформе RISC‑V и выявили существенную разницу в скорости выполнения ключевой операции матричного умножения cblas_sgemm по сравнению с архитектурой x86 — производительность оказалась значительно ниже. cblas_sgemm — функция для умножения матриц, состоящих из 32-разрядных вещественных чисел. Хотелось бы обратить внимание на то, что функция матричного умножения gemm, соответствующая стандартам BLAS, используется во многих библиотеках и алгоритмах. А OpenBLAS — одна из самых популярных реализаций стандарта BLAS с оптимизацией под различные платформы. Так на x86_64 OpenBlas получает производительность примерно 80–90% от теоретического максимума процессора. А на Risc‑v примерно 20–25%. Также была рассмотрена самостоятельно реализованная функция перемножения матриц mini‑gemm по алгоритму описанному в статье . При этом наша реализация получает производительность 30–35% от максимума. Из чего встает два вопроса: почему на RISC‑V не получили 80%, как на x86_64 и как так вышло, что наша реализация обогнала OpenBLAS.

https://habr.com/ru/articles/902442/

#openblas #gemm #riscv #производительность

Habr @[email protected] · 2025-04-20 · 07:22 UTC

OpenBLAS/gemm отстаёт на RISC-V

В ходе недавних исследований мы выполнили комплексное тестирование производительности математической библиотеки OpenBLAS на платформе RISC‑V и выявили существенную разницу в скорости выполнения ключевой операции матричного умножения cblas_sgemm по сравнению с архитектурой x86 — производительность оказалась значительно ниже. cblas_sgemm — функция для умножения матриц, состоящих из 32-разрядных вещественных чисел. Хотелось бы обратить внимание на то, что функция матричного умножения gemm, соответствующая стандартам BLAS, используется во многих библиотеках и алгоритмах. А OpenBLAS — одна из самых популярных реализаций стандарта BLAS с оптимизацией под различные платформы. Так на x86_64 OpenBlas получает производительность примерно 80–90% от теоретического максимума процессора. А на Risc‑v примерно 20–25%. Также была рассмотрена самостоятельно реализованная функция перемножения матриц mini‑gemm по алгоритму описанному в статье . При этом наша реализация получает производительность 30–35% от максимума. Из чего встает два вопроса: почему на RISC‑V не получили 80%, как на x86_64 и как так вышло, что наша реализация обогнала OpenBLAS.

https://habr.com/ru/articles/902442/

#openblas #gemm #riscv #производительность

Habr @[email protected] · 2025-04-20 · 07:22 UTC

OpenBLAS/gemm отстаёт на RISC-V

В ходе недавних исследований мы выполнили комплексное тестирование производительности математической библиотеки OpenBLAS на платформе RISC‑V и выявили существенную разницу в скорости выполнения ключевой операции матричного умножения cblas_sgemm по сравнению с архитектурой x86 — производительность оказалась значительно ниже. cblas_sgemm — функция для умножения матриц, состоящих из 32-разрядных вещественных чисел. Хотелось бы обратить внимание на то, что функция матричного умножения gemm, соответствующая стандартам BLAS, используется во многих библиотеках и алгоритмах. А OpenBLAS — одна из самых популярных реализаций стандарта BLAS с оптимизацией под различные платформы. Так на x86_64 OpenBlas получает производительность примерно 80–90% от теоретического максимума процессора. А на Risc‑v примерно 20–25%. Также была рассмотрена самостоятельно реализованная функция перемножения матриц mini‑gemm по алгоритму описанному в статье . При этом наша реализация получает производительность 30–35% от максимума. Из чего встает два вопроса: почему на RISC‑V не получили 80%, как на x86_64 и как так вышло, что наша реализация обогнала OpenBLAS.

https://habr.com/ru/articles/902442/

#openblas #gemm #riscv #производительность

#производительность #riscv #gemm #openblas

N-gated Hacker News @[email protected] · 2025-02-26 · 01:38 UTC

🧐 Welcome to the thrilling world of "#DeepSeek," where they unleash their groundbreaking #FP8 #GEMM #Kernels, as if these buzzwords mean anything to normal humans. 🤖✨ Now you too can revel in the #excitement of "#fine-grained #scaling," because who doesn't dream of spending their weekends scaling kernels? 🎉 #GitHub's #navigation menu is undoubtedly the real star here, stealing the show with its riveting toggle action. 🚀
https://github.com/deepseek-ai/DeepGEMM #tech #HackerNews #ngated

#deepseek #fp8 #gemm #kernels #excitement #fine

N-gated Hacker News @[email protected] · 2025-02-26 · 01:38 UTC

🧐 Welcome to the thrilling world of "#DeepSeek," where they unleash their groundbreaking #FP8 #GEMM #Kernels, as if these buzzwords mean anything to normal humans. 🤖✨ Now you too can revel in the #excitement of "#fine-grained #scaling," because who doesn't dream of spending their weekends scaling kernels? 🎉 #GitHub's #navigation menu is undoubtedly the real star here, stealing the show with its riveting toggle action. 🚀
https://github.com/deepseek-ai/DeepGEMM #tech #HackerNews #ngated

#deepseek #fp8 #gemm #kernels #excitement #fine

N-gated Hacker News @[email protected] · 2025-02-26 · 01:38 UTC

🧐 Welcome to the thrilling world of "#DeepSeek," where they unleash their groundbreaking #FP8 #GEMM #Kernels, as if these buzzwords mean anything to normal humans. 🤖✨ Now you too can revel in the #excitement of "#fine-grained #scaling," because who doesn't dream of spending their weekends scaling kernels? 🎉 #GitHub's #navigation menu is undoubtedly the real star here, stealing the show with its riveting toggle action. 🚀
https://github.com/deepseek-ai/DeepGEMM #tech #HackerNews #ngated

#deepseek #fp8 #gemm #kernels #excitement #fine

N-gated Hacker News @[email protected] · 2025-02-26 · 01:38 UTC

🧐 Welcome to the thrilling world of "#DeepSeek," where they unleash their groundbreaking #FP8 #GEMM #Kernels, as if these buzzwords mean anything to normal humans. 🤖✨ Now you too can revel in the #excitement of "#fine-grained #scaling," because who doesn't dream of spending their weekends scaling kernels? 🎉 #GitHub's #navigation menu is undoubtedly the real star here, stealing the show with its riveting toggle action. 🚀
https://github.com/deepseek-ai/DeepGEMM #tech #HackerNews #ngated

#ngated #hackernews #tech #navigation #github #scaling

N-gated Hacker News @[email protected] · 2025-02-26 · 01:38 UTC

🧐 Welcome to the thrilling world of "#DeepSeek," where they unleash their groundbreaking #FP8 #GEMM #Kernels, as if these buzzwords mean anything to normal humans. 🤖✨ Now you too can revel in the #excitement of "#fine-grained #scaling," because who doesn't dream of spending their weekends scaling kernels? 🎉 #GitHub's #navigation menu is undoubtedly the real star here, stealing the show with its riveting toggle action. 🚀
https://github.com/deepseek-ai/DeepGEMM #tech #HackerNews #ngated

#deepseek #fp8 #gemm #kernels #excitement #fine

Lawrence Murray @[email protected] · 2024-10-04 · 12:18 UTC

Detailing the tiling scheme used for a CUDA kernel doing matrix-matrix multiplication #gpu #cuda #cplusplus #matmul #gemm https://indii.org/blog/gpu-matrix-multiply-tiling/

#gpu #cuda #cplusplus #matmul #gemm

Lawrence Murray @lawmurray · 2024-10-04 · 12:18 UTC

Detailing the tiling scheme used for a CUDA kernel doing matrix-matrix multiplication #gpu #cuda #cplusplus #matmul #gemm https://indii.org/blog/gpu-matrix-multiply-tiling/

#gpu #cuda #cplusplus #matmul #gemm

Lawrence Murray @[email protected] · 2024-10-04 · 12:18 UTC

Detailing the tiling scheme used for a CUDA kernel doing matrix-matrix multiplication #gpu #cuda #cplusplus #matmul #gemm https://indii.org/blog/gpu-matrix-multiply-tiling/

#gpu #cuda #cplusplus #matmul #gemm

Lawrence Murray @[email protected] · 2024-10-04 · 12:18 UTC

Detailing the tiling scheme used for a CUDA kernel doing matrix-matrix multiplication #gpu #cuda #cplusplus #matmul #gemm https://indii.org/blog/gpu-matrix-multiply-tiling/

#gemm #matmul #cplusplus #cuda #gpu

Lawrence Murray @[email protected] · 2024-10-04 · 12:18 UTC

Detailing the tiling scheme used for a CUDA kernel doing matrix-matrix multiplication #gpu #cuda #cplusplus #matmul #gemm https://indii.org/blog/gpu-matrix-multiply-tiling/

#gpu #cuda #cplusplus #matmul #gemm

Jed Brown @[email protected] · 2024-03-05 · 01:03 UTC

Amazing work from Sarah El-Kazdadi. #LibXSMM has become standard for applications needing small, dense matrix multiply/tensor contraction. It uses JIT, which was widely believed to be necessary to achieve high performance in this domain. Sarah's new library, #nanogemm, is competitive or better without JIT (modulo a caveat about padding). #Rust #HPC #GEMM

https://sarah-ek.veganb.tw/blog/nano-gemm/

#libxsmm #nanogemm #rust #hpc #gemm

Jed Brown @[email protected] · 2024-03-05 · 01:03 UTC

Amazing work from Sarah El-Kazdadi. #LibXSMM has become standard for applications needing small, dense matrix multiply/tensor contraction. It uses JIT, which was widely believed to be necessary to achieve high performance in this domain. Sarah's new library, #nanogemm, is competitive or better without JIT (modulo a caveat about padding). #Rust #HPC #GEMM

https://sarah-ek.veganb.tw/blog/nano-gemm/

#libxsmm #nanogemm #rust #hpc #gemm

Jed Brown @jedbrown · 2024-03-05 · 01:03 UTC

Amazing work from Sarah El-Kazdadi. #LibXSMM has become standard for applications needing small, dense matrix multiply/tensor contraction. It uses JIT, which was widely believed to be necessary to achieve high performance in this domain. Sarah's new library, #nanogemm, is competitive or better without JIT (modulo a caveat about padding). #Rust #HPC #GEMM

https://sarah-ek.veganb.tw/blog/nano-gemm/

#libxsmm #nanogemm #rust #hpc #gemm

Jed Brown @[email protected] · 2024-03-05 · 01:03 UTC

Amazing work from Sarah El-Kazdadi. #LibXSMM has become standard for applications needing small, dense matrix multiply/tensor contraction. It uses JIT, which was widely believed to be necessary to achieve high performance in this domain. Sarah's new library, #nanogemm, is competitive or better without JIT (modulo a caveat about padding). #Rust #HPC #GEMM

https://sarah-ek.veganb.tw/blog/nano-gemm/

#gemm #hpc #rust #nanogemm #libxsmm

Jed Brown @[email protected] · 2024-03-05 · 01:03 UTC

Amazing work from Sarah El-Kazdadi. #LibXSMM has become standard for applications needing small, dense matrix multiply/tensor contraction. It uses JIT, which was widely believed to be necessary to achieve high performance in this domain. Sarah's new library, #nanogemm, is competitive or better without JIT (modulo a caveat about padding). #Rust #HPC #GEMM

https://sarah-ek.veganb.tw/blog/nano-gemm/

#libxsmm #nanogemm #rust #hpc #gemm

Habr @[email protected] · 2023-12-25 · 22:17 UTC

Первый взгляд на производительность CPU реализации floating-point GEMM на языке Mojo

Сравниваем производительность реализаций floating-point GEMM из OpenBLAS, Eigen и MKl с реализацией на новом языке программирования Mojo.

https://habr.com/ru/articles/783138/

#mojo #gemm #modular #openblas #eigen #mkl

#mkl #eigen #openblas #modular #gemm #mojo

Habr @[email protected] · 2023-12-25 · 22:17 UTC

Первый взгляд на производительность CPU реализации floating-point GEMM на языке Mojo

Сравниваем производительность реализаций floating-point GEMM из OpenBLAS, Eigen и MKl с реализацией на новом языке программирования Mojo.

https://habr.com/ru/articles/783138/

#mojo #gemm #modular #openblas #eigen #mkl

#mkl #eigen #openblas #modular #gemm #mojo

Habr @[email protected] · 2023-12-25 · 22:17 UTC

Первый взгляд на производительность CPU реализации floating-point GEMM на языке Mojo

Сравниваем производительность реализаций floating-point GEMM из OpenBLAS, Eigen и MKl с реализацией на новом языке программирования Mojo.

https://habr.com/ru/articles/783138/

#mojo #gemm #modular #openblas #eigen #mkl