home.social

#gemm — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #gemm, aggregated by home.social.

  1. Умножение матриц: пример использования расширения ARM SME2 в Apple M4 Pro

    В конце 2020 года я купил MacBook Pro 13 на процессоре Apple M1, очень хотелось испытать процессоры на архитектуре ARM. Почти сразу на чипе Apple M1 был найден вычислительный блок для матричных операций Apple AMX. Для Apple AMX не было документации, он не использовался в Apple Accelerate , но несколько энтузиастов занимались реверс-инжинирингом и анализом производительности ( " github.com/corsix/amx " ). В 2024 году вышли компьютеры на базе семейства процессоров Apple M4, у которых блок AMX задействован для выполнения инструкций из Scalable Matrix Extension 2 (сайт ARM недоступен в РФ) (ARM SME2). В статье рассмотрим использование расширения ARM SME2 на примере умножения заполненных матриц. Увидим, как выжать максимум из процессора и получить прирост производительности в десятки раз.

    habr.com/ru/articles/1012528/

    #ARM_SME #Apple_M #gemm #умножение_матриц #линейная_алгебра #вычислительные_методы #высокопроизводительные_вычисления #оптимизация_кода #векторные_инструкции #векторные_исчисления

  2. Умножение матриц: пример использования расширения ARM SME2 в Apple M4 Pro

    В конце 2020 года я купил MacBook Pro 13 на процессоре Apple M1, очень хотелось испытать процессоры на архитектуре ARM. Почти сразу на чипе Apple M1 был найден вычислительный блок для матричных операций Apple AMX. Для Apple AMX не было документации, он не использовался в Apple Accelerate , но несколько энтузиастов занимались реверс-инжинирингом и анализом производительности ( " github.com/corsix/amx " ). В 2024 году вышли компьютеры на базе семейства процессоров Apple M4, у которых блок AMX задействован для выполнения инструкций из Scalable Matrix Extension 2 (сайт ARM недоступен в РФ) (ARM SME2). В статье рассмотрим использование расширения ARM SME2 на примере умножения заполненных матриц. Увидим, как выжать максимум из процессора и получить прирост производительности в десятки раз.

    habr.com/ru/articles/1012528/

    #ARM_SME #Apple_M #gemm #умножение_матриц #линейная_алгебра #вычислительные_методы #высокопроизводительные_вычисления #оптимизация_кода #векторные_инструкции #векторные_исчисления

  3. Умножение матриц: пример использования расширения ARM SME2 в Apple M4 Pro

    В конце 2020 года я купил MacBook Pro 13 на процессоре Apple M1, очень хотелось испытать процессоры на архитектуре ARM. Почти сразу на чипе Apple M1 был найден вычислительный блок для матричных операций Apple AMX. Для Apple AMX не было документации, он не использовался в Apple Accelerate , но несколько энтузиастов занимались реверс-инжинирингом и анализом производительности ( " github.com/corsix/amx " ). В 2024 году вышли компьютеры на базе семейства процессоров Apple M4, у которых блок AMX задействован для выполнения инструкций из Scalable Matrix Extension 2 (сайт ARM недоступен в РФ) (ARM SME2). В статье рассмотрим использование расширения ARM SME2 на примере умножения заполненных матриц. Увидим, как выжать максимум из процессора и получить прирост производительности в десятки раз.

    habr.com/ru/articles/1012528/

    #ARM_SME #Apple_M #gemm #умножение_матриц #линейная_алгебра #вычислительные_методы #высокопроизводительные_вычисления #оптимизация_кода #векторные_инструкции #векторные_исчисления

  4. Умножение матриц: пример использования расширения ARM SME2 в Apple M4 Pro

    В конце 2020 года я купил MacBook Pro 13 на процессоре Apple M1, очень хотелось испытать процессоры на архитектуре ARM. Почти сразу на чипе Apple M1 был найден вычислительный блок для матричных операций Apple AMX. Для Apple AMX не было документации, он не использовался в Apple Accelerate , но несколько энтузиастов занимались реверс-инжинирингом и анализом производительности ( " github.com/corsix/amx " ). В 2024 году вышли компьютеры на базе семейства процессоров Apple M4, у которых блок AMX задействован для выполнения инструкций из Scalable Matrix Extension 2 (сайт ARM недоступен в РФ) (ARM SME2). В статье рассмотрим использование расширения ARM SME2 на примере умножения заполненных матриц. Увидим, как выжать максимум из процессора и получить прирост производительности в десятки раз.

    habr.com/ru/articles/1012528/

    #ARM_SME #Apple_M #gemm #умножение_матриц #линейная_алгебра #вычислительные_методы #высокопроизводительные_вычисления #оптимизация_кода #векторные_инструкции #векторные_исчисления

  5. NVIDIA wprowadza CuTe DSL w CUTLASS 4 – Python zbliża się do C++ w wydajności

    Czy da się dogonić C++ wydajnością, pisząc w Pythonie – i to bez czarów, bez sugar-coata i bez tygodni czekania na kompilację? NVIDIA twierdzi, że tak: nowy CuTe DSL w CUTLASS 4 obiecuje „C++-owe” osiągi Tensor Cores z wygodą pythonowych API.

    Czytaj dalej:
    pressmind.org/nvidia-wprowadza

    #PressMindLabs #cutedsl #cutlass #gemm #nvidia #pythonjit

  6. Учимся разрабатывать для GPU на примере операции GEMM

    Привет, Хабр! Сегодня я расскажу про реализацию матричного умножения и особенности разработки для GPU. Познакомлю вас с устройством GPU, объясню, чем отличается программирование от привычного для CPU, какие нюансы нужно учитывать для эффективной реализации операций GEMM. А затем сравним производительность разных подходов к реализации.

    habr.com/ru/companies/yadro/ar

    #gpu_вычисления #opencl #gemm

  7. Учимся разрабатывать для GPU на примере операции GEMM

    Привет, Хабр! Сегодня я расскажу про реализацию матричного умножения и особенности разработки для GPU. Познакомлю вас с устройством GPU, объясню, чем отличается программирование от привычного для CPU, какие нюансы нужно учитывать для эффективной реализации операций GEMM. А затем сравним производительность разных подходов к реализации.

    habr.com/ru/companies/yadro/ar

    #gpu_вычисления #opencl #gemm

  8. Учимся разрабатывать для GPU на примере операции GEMM

    Привет, Хабр! Сегодня я расскажу про реализацию матричного умножения и особенности разработки для GPU. Познакомлю вас с устройством GPU, объясню, чем отличается программирование от привычного для CPU, какие нюансы нужно учитывать для эффективной реализации операций GEMM. А затем сравним производительность разных подходов к реализации.

    habr.com/ru/companies/yadro/ar

    #gpu_вычисления #opencl #gemm

  9. Учимся разрабатывать для GPU на примере операции GEMM

    Привет, Хабр! Сегодня я расскажу про реализацию матричного умножения и особенности разработки для GPU. Познакомлю вас с устройством GPU, объясню, чем отличается программирование от привычного для CPU, какие нюансы нужно учитывать для эффективной реализации операций GEMM. А затем сравним производительность разных подходов к реализации.

    habr.com/ru/companies/yadro/ar

    #gpu_вычисления #opencl #gemm

  10. OpenBLAS/gemm отстаёт на RISC-V

    В ходе недавних исследований мы выполнили комплексное тестирование производительности математической библиотеки OpenBLAS на платформе RISC‑V и выявили существенную разницу в скорости выполнения ключевой операции матричного умножения cblas_sgemm по сравнению с архитектурой x86 — производительность оказалась значительно ниже. cblas_sgemm — функция для умножения матриц, состоящих из 32-разрядных вещественных чисел. Хотелось бы обратить внимание на то, что функция матричного умножения gemm, соответствующая стандартам BLAS, используется во многих библиотеках и алгоритмах. А OpenBLAS — одна из самых популярных реализаций стандарта BLAS с оптимизацией под различные платформы. Так на x86_64 OpenBlas получает производительность примерно 80–90% от теоретического максимума процессора. А на Risc‑v примерно 20–25%. Также была рассмотрена самостоятельно реализованная функция перемножения матриц mini‑gemm по алгоритму описанному в статье . При этом наша реализация получает производительность 30–35% от максимума. Из чего встает два вопроса: почему на RISC‑V не получили 80%, как на x86_64 и как так вышло, что наша реализация обогнала OpenBLAS.

    habr.com/ru/articles/902442/

    #openblas #gemm #riscv #производительность

  11. OpenBLAS/gemm отстаёт на RISC-V

    В ходе недавних исследований мы выполнили комплексное тестирование производительности математической библиотеки OpenBLAS на платформе RISC‑V и выявили существенную разницу в скорости выполнения ключевой операции матричного умножения cblas_sgemm по сравнению с архитектурой x86 — производительность оказалась значительно ниже. cblas_sgemm — функция для умножения матриц, состоящих из 32-разрядных вещественных чисел. Хотелось бы обратить внимание на то, что функция матричного умножения gemm, соответствующая стандартам BLAS, используется во многих библиотеках и алгоритмах. А OpenBLAS — одна из самых популярных реализаций стандарта BLAS с оптимизацией под различные платформы. Так на x86_64 OpenBlas получает производительность примерно 80–90% от теоретического максимума процессора. А на Risc‑v примерно 20–25%. Также была рассмотрена самостоятельно реализованная функция перемножения матриц mini‑gemm по алгоритму описанному в статье . При этом наша реализация получает производительность 30–35% от максимума. Из чего встает два вопроса: почему на RISC‑V не получили 80%, как на x86_64 и как так вышло, что наша реализация обогнала OpenBLAS.

    habr.com/ru/articles/902442/

    #openblas #gemm #riscv #производительность

  12. OpenBLAS/gemm отстаёт на RISC-V

    В ходе недавних исследований мы выполнили комплексное тестирование производительности математической библиотеки OpenBLAS на платформе RISC‑V и выявили существенную разницу в скорости выполнения ключевой операции матричного умножения cblas_sgemm по сравнению с архитектурой x86 — производительность оказалась значительно ниже. cblas_sgemm — функция для умножения матриц, состоящих из 32-разрядных вещественных чисел. Хотелось бы обратить внимание на то, что функция матричного умножения gemm, соответствующая стандартам BLAS, используется во многих библиотеках и алгоритмах. А OpenBLAS — одна из самых популярных реализаций стандарта BLAS с оптимизацией под различные платформы. Так на x86_64 OpenBlas получает производительность примерно 80–90% от теоретического максимума процессора. А на Risc‑v примерно 20–25%. Также была рассмотрена самостоятельно реализованная функция перемножения матриц mini‑gemm по алгоритму описанному в статье . При этом наша реализация получает производительность 30–35% от максимума. Из чего встает два вопроса: почему на RISC‑V не получили 80%, как на x86_64 и как так вышло, что наша реализация обогнала OpenBLAS.

    habr.com/ru/articles/902442/

    #openblas #gemm #riscv #производительность

  13. OpenBLAS/gemm отстаёт на RISC-V

    В ходе недавних исследований мы выполнили комплексное тестирование производительности математической библиотеки OpenBLAS на платформе RISC‑V и выявили существенную разницу в скорости выполнения ключевой операции матричного умножения cblas_sgemm по сравнению с архитектурой x86 — производительность оказалась значительно ниже. cblas_sgemm — функция для умножения матриц, состоящих из 32-разрядных вещественных чисел. Хотелось бы обратить внимание на то, что функция матричного умножения gemm, соответствующая стандартам BLAS, используется во многих библиотеках и алгоритмах. А OpenBLAS — одна из самых популярных реализаций стандарта BLAS с оптимизацией под различные платформы. Так на x86_64 OpenBlas получает производительность примерно 80–90% от теоретического максимума процессора. А на Risc‑v примерно 20–25%. Также была рассмотрена самостоятельно реализованная функция перемножения матриц mini‑gemm по алгоритму описанному в статье . При этом наша реализация получает производительность 30–35% от максимума. Из чего встает два вопроса: почему на RISC‑V не получили 80%, как на x86_64 и как так вышло, что наша реализация обогнала OpenBLAS.

    habr.com/ru/articles/902442/

    #openblas #gemm #riscv #производительность

  14. 🧐 Welcome to the thrilling world of "#DeepSeek," where they unleash their groundbreaking #FP8 #GEMM #Kernels, as if these buzzwords mean anything to normal humans. 🤖✨ Now you too can revel in the #excitement of "#fine-grained #scaling," because who doesn't dream of spending their weekends scaling kernels? 🎉 #GitHub's #navigation menu is undoubtedly the real star here, stealing the show with its riveting toggle action. 🚀
    github.com/deepseek-ai/DeepGEMM #tech #HackerNews #ngated

  15. 🧐 Welcome to the thrilling world of "#DeepSeek," where they unleash their groundbreaking #FP8 #GEMM #Kernels, as if these buzzwords mean anything to normal humans. 🤖✨ Now you too can revel in the #excitement of "#fine-grained #scaling," because who doesn't dream of spending their weekends scaling kernels? 🎉 #GitHub's #navigation menu is undoubtedly the real star here, stealing the show with its riveting toggle action. 🚀
    github.com/deepseek-ai/DeepGEMM #tech #HackerNews #ngated

  16. 🧐 Welcome to the thrilling world of "#DeepSeek," where they unleash their groundbreaking #FP8 #GEMM #Kernels, as if these buzzwords mean anything to normal humans. 🤖✨ Now you too can revel in the #excitement of "#fine-grained #scaling," because who doesn't dream of spending their weekends scaling kernels? 🎉 #GitHub's #navigation menu is undoubtedly the real star here, stealing the show with its riveting toggle action. 🚀
    github.com/deepseek-ai/DeepGEMM #tech #HackerNews #ngated

  17. 🧐 Welcome to the thrilling world of "#DeepSeek," where they unleash their groundbreaking #FP8 #GEMM #Kernels, as if these buzzwords mean anything to normal humans. 🤖✨ Now you too can revel in the #excitement of "#fine-grained #scaling," because who doesn't dream of spending their weekends scaling kernels? 🎉 #GitHub's #navigation menu is undoubtedly the real star here, stealing the show with its riveting toggle action. 🚀
    github.com/deepseek-ai/DeepGEMM #tech #HackerNews #ngated

  18. 🧐 Welcome to the thrilling world of "#DeepSeek," where they unleash their groundbreaking #FP8 #GEMM #Kernels, as if these buzzwords mean anything to normal humans. 🤖✨ Now you too can revel in the #excitement of "#fine-grained #scaling," because who doesn't dream of spending their weekends scaling kernels? 🎉 #GitHub's #navigation menu is undoubtedly the real star here, stealing the show with its riveting toggle action. 🚀
    github.com/deepseek-ai/DeepGEMM #tech #HackerNews #ngated

  19. Detailing the tiling scheme used for a CUDA kernel doing matrix-matrix multiplication indii.org/blog/gpu-matrix-mult

  20. Amazing work from Sarah El-Kazdadi. #LibXSMM has become standard for applications needing small, dense matrix multiply/tensor contraction. It uses JIT, which was widely believed to be necessary to achieve high performance in this domain. Sarah's new library, #nanogemm, is competitive or better without JIT (modulo a caveat about padding). #Rust #HPC #GEMM

    sarah-ek.veganb.tw/blog/nano-g

  21. Amazing work from Sarah El-Kazdadi. #LibXSMM has become standard for applications needing small, dense matrix multiply/tensor contraction. It uses JIT, which was widely believed to be necessary to achieve high performance in this domain. Sarah's new library, #nanogemm, is competitive or better without JIT (modulo a caveat about padding). #Rust #HPC #GEMM

    sarah-ek.veganb.tw/blog/nano-g

  22. Amazing work from Sarah El-Kazdadi. has become standard for applications needing small, dense matrix multiply/tensor contraction. It uses JIT, which was widely believed to be necessary to achieve high performance in this domain. Sarah's new library, , is competitive or better without JIT (modulo a caveat about padding).

    sarah-ek.veganb.tw/blog/nano-g

  23. Amazing work from Sarah El-Kazdadi. #LibXSMM has become standard for applications needing small, dense matrix multiply/tensor contraction. It uses JIT, which was widely believed to be necessary to achieve high performance in this domain. Sarah's new library, #nanogemm, is competitive or better without JIT (modulo a caveat about padding). #Rust #HPC #GEMM

    sarah-ek.veganb.tw/blog/nano-g

  24. Amazing work from Sarah El-Kazdadi. #LibXSMM has become standard for applications needing small, dense matrix multiply/tensor contraction. It uses JIT, which was widely believed to be necessary to achieve high performance in this domain. Sarah's new library, #nanogemm, is competitive or better without JIT (modulo a caveat about padding). #Rust #HPC #GEMM

    sarah-ek.veganb.tw/blog/nano-g

  25. Первый взгляд на производительность CPU реализации floating-point GEMM на языке Mojo

    Сравниваем производительность реализаций floating-point GEMM из OpenBLAS, Eigen и MKl с реализацией на новом языке программирования Mojo.

    habr.com/ru/articles/783138/

    #mojo #gemm #modular #openblas #eigen #mkl

  26. Первый взгляд на производительность CPU реализации floating-point GEMM на языке Mojo

    Сравниваем производительность реализаций floating-point GEMM из OpenBLAS, Eigen и MKl с реализацией на новом языке программирования Mojo.

    habr.com/ru/articles/783138/

    #mojo #gemm #modular #openblas #eigen #mkl

  27. Первый взгляд на производительность CPU реализации floating-point GEMM на языке Mojo

    Сравниваем производительность реализаций floating-point GEMM из OpenBLAS, Eigen и MKl с реализацией на новом языке программирования Mojo.

    habr.com/ru/articles/783138/

    #mojo #gemm #modular #openblas #eigen #mkl

  28. Discovered this KILLER local Arizona band the other day called Gemm- they kinda remind me of Hum or Catherine Wheel in that kinda 90s/early 2000s heavy, guitarry super melodic rock way. And the dude's voice is great. Are they shoegazey? Maybe. But not super slow. They're really worth a listen.

    This is their newest stuff, their Summer Promo '23: gemmrockaz.bandcamp.com/album/

    #IndieRock #Arizona #AZ #ArizonaBands #AZBands #Gemm #shoegaze #Phoenix #PhoenixAZ #PhoenixBands

  29. Discovered this KILLER local Arizona band the other day called Gemm- they kinda remind me of Hum or Catherine Wheel in that kinda 90s/early 2000s heavy, guitarry super melodic rock way. And the dude's voice is great. Are they shoegazey? Maybe. But not super slow. They're really worth a listen.

    This is their newest stuff, their Summer Promo '23: gemmrockaz.bandcamp.com/album/

    #IndieRock #Arizona #AZ #ArizonaBands #AZBands #Gemm #shoegaze #Phoenix #PhoenixAZ #PhoenixBands

  30. Discovered this KILLER local Arizona band the other day called Gemm- they kinda remind me of Hum or Catherine Wheel in that kinda 90s/early 2000s heavy, guitarry super melodic rock way. And the dude's voice is great. Are they shoegazey? Maybe. But not super slow. They're really worth a listen.

    This is their newest stuff, their Summer Promo '23: gemmrockaz.bandcamp.com/album/

    #IndieRock #Arizona #AZ #ArizonaBands #AZBands #Gemm #shoegaze #Phoenix #PhoenixAZ #PhoenixBands

  31. Discovered this KILLER local Arizona band the other day called Gemm- they kinda remind me of Hum or Catherine Wheel in that kinda 90s/early 2000s heavy, guitarry super melodic rock way. And the dude's voice is great. Are they shoegazey? Maybe. But not super slow. They're really worth a listen.

    This is their newest stuff, their Summer Promo '23: gemmrockaz.bandcamp.com/album/

    #IndieRock #Arizona #AZ #ArizonaBands #AZBands #Gemm #shoegaze #Phoenix #PhoenixAZ #PhoenixBands

  32. Discovered this KILLER local Arizona band the other day called Gemm- they kinda remind me of Hum or Catherine Wheel in that kinda 90s/early 2000s heavy, guitarry super melodic rock way. And the dude's voice is great. Are they shoegazey? Maybe. But not super slow. They're really worth a listen.

    This is their newest stuff, their Summer Promo '23: gemmrockaz.bandcamp.com/album/

    #IndieRock #Arizona #AZ #ArizonaBands #AZBands #Gemm #shoegaze #Phoenix #PhoenixAZ #PhoenixBands