home.social

#openblas — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #openblas, aggregated by home.social.

  1. Darknet/YOLO running the usual LEGO dataset on a Raspberry Pi 5 used to get 10.52 FPS. With the recent performance changes over the last few days, it is now running at 17.57 FPS on RPI 5. #Darknet #YOLO #OpenBLAS

  2. OpenBLAS/gemm отстаёт на RISC-V

    В ходе недавних исследований мы выполнили комплексное тестирование производительности математической библиотеки OpenBLAS на платформе RISC‑V и выявили существенную разницу в скорости выполнения ключевой операции матричного умножения cblas_sgemm по сравнению с архитектурой x86 — производительность оказалась значительно ниже. cblas_sgemm — функция для умножения матриц, состоящих из 32-разрядных вещественных чисел. Хотелось бы обратить внимание на то, что функция матричного умножения gemm, соответствующая стандартам BLAS, используется во многих библиотеках и алгоритмах. А OpenBLAS — одна из самых популярных реализаций стандарта BLAS с оптимизацией под различные платформы. Так на x86_64 OpenBlas получает производительность примерно 80–90% от теоретического максимума процессора. А на Risc‑v примерно 20–25%. Также была рассмотрена самостоятельно реализованная функция перемножения матриц mini‑gemm по алгоритму описанному в статье . При этом наша реализация получает производительность 30–35% от максимума. Из чего встает два вопроса: почему на RISC‑V не получили 80%, как на x86_64 и как так вышло, что наша реализация обогнала OpenBLAS.

    habr.com/ru/articles/902442/

    #openblas #gemm #riscv #производительность

  3. OpenBLAS/gemm отстаёт на RISC-V

    В ходе недавних исследований мы выполнили комплексное тестирование производительности математической библиотеки OpenBLAS на платформе RISC‑V и выявили существенную разницу в скорости выполнения ключевой операции матричного умножения cblas_sgemm по сравнению с архитектурой x86 — производительность оказалась значительно ниже. cblas_sgemm — функция для умножения матриц, состоящих из 32-разрядных вещественных чисел. Хотелось бы обратить внимание на то, что функция матричного умножения gemm, соответствующая стандартам BLAS, используется во многих библиотеках и алгоритмах. А OpenBLAS — одна из самых популярных реализаций стандарта BLAS с оптимизацией под различные платформы. Так на x86_64 OpenBlas получает производительность примерно 80–90% от теоретического максимума процессора. А на Risc‑v примерно 20–25%. Также была рассмотрена самостоятельно реализованная функция перемножения матриц mini‑gemm по алгоритму описанному в статье . При этом наша реализация получает производительность 30–35% от максимума. Из чего встает два вопроса: почему на RISC‑V не получили 80%, как на x86_64 и как так вышло, что наша реализация обогнала OpenBLAS.

    habr.com/ru/articles/902442/

    #openblas #gemm #riscv #производительность

  4. OpenBLAS/gemm отстаёт на RISC-V

    В ходе недавних исследований мы выполнили комплексное тестирование производительности математической библиотеки OpenBLAS на платформе RISC‑V и выявили существенную разницу в скорости выполнения ключевой операции матричного умножения cblas_sgemm по сравнению с архитектурой x86 — производительность оказалась значительно ниже. cblas_sgemm — функция для умножения матриц, состоящих из 32-разрядных вещественных чисел. Хотелось бы обратить внимание на то, что функция матричного умножения gemm, соответствующая стандартам BLAS, используется во многих библиотеках и алгоритмах. А OpenBLAS — одна из самых популярных реализаций стандарта BLAS с оптимизацией под различные платформы. Так на x86_64 OpenBlas получает производительность примерно 80–90% от теоретического максимума процессора. А на Risc‑v примерно 20–25%. Также была рассмотрена самостоятельно реализованная функция перемножения матриц mini‑gemm по алгоритму описанному в статье . При этом наша реализация получает производительность 30–35% от максимума. Из чего встает два вопроса: почему на RISC‑V не получили 80%, как на x86_64 и как так вышло, что наша реализация обогнала OpenBLAS.

    habr.com/ru/articles/902442/

    #openblas #gemm #riscv #производительность

  5. OpenBLAS/gemm отстаёт на RISC-V

    В ходе недавних исследований мы выполнили комплексное тестирование производительности математической библиотеки OpenBLAS на платформе RISC‑V и выявили существенную разницу в скорости выполнения ключевой операции матричного умножения cblas_sgemm по сравнению с архитектурой x86 — производительность оказалась значительно ниже. cblas_sgemm — функция для умножения матриц, состоящих из 32-разрядных вещественных чисел. Хотелось бы обратить внимание на то, что функция матричного умножения gemm, соответствующая стандартам BLAS, используется во многих библиотеках и алгоритмах. А OpenBLAS — одна из самых популярных реализаций стандарта BLAS с оптимизацией под различные платформы. Так на x86_64 OpenBlas получает производительность примерно 80–90% от теоретического максимума процессора. А на Risc‑v примерно 20–25%. Также была рассмотрена самостоятельно реализованная функция перемножения матриц mini‑gemm по алгоритму описанному в статье . При этом наша реализация получает производительность 30–35% от максимума. Из чего встает два вопроса: почему на RISC‑V не получили 80%, как на x86_64 и как так вышло, что наша реализация обогнала OpenBLAS.

    habr.com/ru/articles/902442/

    #openblas #gemm #riscv #производительность

  6. Question for the #rstats crowd. Do you disable hyperthreads when you run analyses in R with a multithreaded version of #blas e.g. #openblas #mkl etc ?

  7. Question for the #rstats crowd. Do you disable hyperthreads when you run analyses in R with a multithreaded version of #blas e.g. #openblas #mkl etc ?

  8. Question for the #rstats crowd. Do you disable hyperthreads when you run analyses in R with a multithreaded version of #blas e.g. #openblas #mkl etc ?

  9. Question for the #rstats crowd. Do you disable hyperthreads when you run analyses in R with a multithreaded version of #blas e.g. #openblas #mkl etc ?

  10. Question for the #rstats crowd. Do you disable hyperthreads when you run analyses in R with a multithreaded version of #blas e.g. #openblas #mkl etc ?

  11. No fail, no gain: как мы исправили более миллиона тестов, проверяя оптимизацию библиотеки OpenBLAS под RISC-V

    Открытая архитектура RISC-V активно развивается: в стандарт добавляются новые расширения и инструкции, разрабатываются новые ядра и SoC. Поскольку многие компании видят перспективы архитектуры и готовы использовать ее в продакшене, создается программный стек для высокопроизводительных вычислений — RISC-V HPC (High Performance Computing). Прогресс сопровождает формирование нового тренда — OpenHPC. Он заключается в технологической независимости от решений коммерческих компаний. Причем это относится не только к ПО, но и к железу. Чтобы концепция OpenHPC реализовывалась быстрее, нужно, чтобы к инициативе присоединилось как можно больше компаний, помогающих в развитии экосистемы решений для RISC-V HPC. Меня зовут Андрей Соколов, я инженер-программист в компании YADRO. В R&D-команде мы поставили перед собой задачу: изучить, как можно поддержать архитектуру RISC-V со стороны библиотек линейной алгебры BLAS и LAPACK. Тестирование одной из open source-библиотек привело нас к интересным открытиям, о которых я расскажу под катом. Результаты тестов

    habr.com/ru/companies/yadro/ar

    #openblas #blas #lapack #линейная_алгебра #библиотеки #оптимизация #riscv

  12. No fail, no gain: как мы исправили более миллиона тестов, проверяя оптимизацию библиотеки OpenBLAS под RISC-V

    Открытая архитектура RISC-V активно развивается: в стандарт добавляются новые расширения и инструкции, разрабатываются новые ядра и SoC. Поскольку многие компании видят перспективы архитектуры и готовы использовать ее в продакшене, создается программный стек для высокопроизводительных вычислений — RISC-V HPC (High Performance Computing). Прогресс сопровождает формирование нового тренда — OpenHPC. Он заключается в технологической независимости от решений коммерческих компаний. Причем это относится не только к ПО, но и к железу. Чтобы концепция OpenHPC реализовывалась быстрее, нужно, чтобы к инициативе присоединилось как можно больше компаний, помогающих в развитии экосистемы решений для RISC-V HPC. Меня зовут Андрей Соколов, я инженер-программист в компании YADRO. В R&D-команде мы поставили перед собой задачу: изучить, как можно поддержать архитектуру RISC-V со стороны библиотек линейной алгебры BLAS и LAPACK. Тестирование одной из open source-библиотек привело нас к интересным открытиям, о которых я расскажу под катом. Результаты тестов

    habr.com/ru/companies/yadro/ar

    #openblas #blas #lapack #линейная_алгебра #библиотеки #оптимизация #riscv

  13. Первый взгляд на производительность CPU реализации floating-point GEMM на языке Mojo

    Сравниваем производительность реализаций floating-point GEMM из OpenBLAS, Eigen и MKl с реализацией на новом языке программирования Mojo.

    habr.com/ru/articles/783138/

    #mojo #gemm #modular #openblas #eigen #mkl

  14. Первый взгляд на производительность CPU реализации floating-point GEMM на языке Mojo

    Сравниваем производительность реализаций floating-point GEMM из OpenBLAS, Eigen и MKl с реализацией на новом языке программирования Mojo.

    habr.com/ru/articles/783138/

    #mojo #gemm #modular #openblas #eigen #mkl

  15. Первый взгляд на производительность CPU реализации floating-point GEMM на языке Mojo

    Сравниваем производительность реализаций floating-point GEMM из OpenBLAS, Eigen и MKl с реализацией на новом языке программирования Mojo.

    habr.com/ru/articles/783138/

    #mojo #gemm #modular #openblas #eigen #mkl

  16. At what point does setting more threads for OpenBLAS actually help?

    For example, I have an SVD operation in #RStats on largish matrices (6000 rows and 6000 columns; doing an inverse), where default BLAS on Ubuntu is ~ 20 min.

    OpenBLAS with 1 or 4 threads takes ~ 2 min (10X speedup!). With 4 threads, I can see the additional usage of cores, but overall time is the same as 1 thread.

    Is there some magic size where using more threads for SVD will actually help?

    #MultiThreading #OpenBLAS

  17. We're excited to announce our investment in #OpenBLAS, the highly optimized library for linear algebra calculations used in Python, R, and Julia. Our support will focus on sustainable improvements to the development, integration, and testing of the library, as well as providing additional support to the maintainers of OpenBLAS and of SciPy as a key dependent project.

    Learn more here: sovereigntechfund.de/en/projec

  18. Actually it is the package that should provide LAPACK support. For some reason this is not included. And this package takes forever to build.

  19. Time for an #introduction!
    I'm a young Canuck with interests/experience in #HPC, #Linux, #BLAS, #SYCL, #C, #AVX512, #Rust, heterogeneous compute & other such things.

    Currently my personal projects are bringing #FP16 to the #OpenBLAS library, working to standardize what Complex domain BLAS FP16 kernels/implementations should look like, and making sure #SYCL is available everywhere.

    I also write every now and again. Here's the tail of AVX512 FP16 on Alderlake
    gist.github.com/FCLC/56e4b3f4a

  20. It seems that Chris Zimmerman is unstoppable.
    Now he started porting @[email protected]'s draw2d to #CrystalLang:

    github.com/crystal-data/draw.c

    RT @[email protected]

    Wow, Chris Zimmerman from Knowledge Based Systems (#KBSI) created some alternatives for #numpy / scientific computing libraries in @[email protected]:

    github.com/crystal-data/

    i.e. bindings for @[email protected] / @[email protected] & calculations with #OpenBLAS or #LAPACK.

    🐦🔗: twitter.com/alexanderadam__/st