home.social

#blas — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #blas, aggregated by home.social.

  1. #Copilot and I are about 30% away from creating a #Pascal version of #LAPACK using #BLAS. We are about two days away from achieving 80% of LAPACK. Then we will tweak it using some GPU acceleration to make its speed comparable to some python libraries like Numpy.

    It is important to note that one must be very disciplined in keeping clean documentations, a thorough and tight testing cycle, a rigid workflow pattern, or an AI will tend to skip tests, become sloppy and lose focus.

    #AI #LLM

  2. #AI illiteracy is real. While still arguing with a bunch of AI haters, #Copilot and I just finished our #Pascal #BLAS level 1-3 Implementation plus eigenvalue, cholesky, and sparse #matrix, so we will never need #python, #C, C#, #Rust, ... for our Small Language Project. We will expand our Pascal Numeric Library (PNL) v1.0 to something like #Numpy and #Pytorch, but with static arrays, deterministic data structure, no referencing, no pointer arithmetic.

    #LLM #programming #computer

  3. #AI illiteracy is real. While still arguing with a bunch of AI haters, #Copilot and I just finished our #Pascal #BLAS level 1-3 Implementation plus eigenvalue, cholesky, and sparse #matrix, so we will never need #python, #C, C#, #Rust, ... for our Small Language Project. We will expand our Pascal Numeric Library (PNL) v1.0 to something like #Numpy and #Pytorch, but with static arrays, deterministic data structure, no referencing, no pointer arithmetic.

    #LLM #programming #computer

  4. #AI illiteracy is real. While still arguing with a bunch of AI haters, #Copilot and I just finished our #Pascal #BLAS level 1-3 Implementation plus eigenvalue, cholesky, and sparse #matrix, so we will never need #python, #C, C#, #Rust, ... for our Small Language Project. We will expand our Pascal Numeric Library (PNL) v1.0 to something like #Numpy and #Pytorch, but with static arrays, deterministic data structure, no referencing, no pointer arithmetic.

    #LLM #programming #computer

  5. #AI illiteracy is real. While still arguing with a bunch of AI haters, #Copilot and I just finished our #Pascal #BLAS level 1-3 Implementation plus eigenvalue, cholesky, and sparse #matrix, so we will never need #python, #C, C#, #Rust, ... for our Small Language Project. We will expand our Pascal Numeric Library (PNL) v1.0 to something like #Numpy and #Pytorch, but with static arrays, deterministic data structure, no referencing, no pointer arithmetic.

    #LLM #programming #computer

  6. While arguing with some AI haters, #Copilot and I created this Pure #Pascal #BLAS (Level 1,2,3 Core) Implementation in less than 1 day. We encountered many serious problems, including drifting of workflow pattern, getting stuck in a Delphi error loop, overhauling our original design... But as long as you understand AI, keep good documentations, maintain the core structure of the problem,.. you will be able to work with AI successfully. Don't hesitate to use more than one #AI at a time.

    #LLM

  7. What is #BLAS?

    BLAS is a set of fast matrix routines originally written in #Fortran.
    If you’re tired of dynamic types, hidden references, ownership rules, and endless “stream” abstractions, Free #Pascal + BLAS gives you old‑school, deterministic HPC #programming with none of the modern noise.

    #Copilot and I will be using Free Pascal and BLAS for our Small Language Model project #SLM. No more #C, #python, #Rust, or C#

    #AI #LLM #computer

  8. Why do people use #python, a glue language, which is so slow? The only reason is the AI ecosystem.

    #Copilot and I just tested Free Pascal and BLAS for its speed without using #numpy or #pytorch. The result is amazing. It took less than a second to do a 1024x1024 #matrix multiplication.

    We will be using Free #Pascal and #BLAS to write our Small Language Model #SLM using #NNUE.

    #AI #LLM

  9. Why do people use #python, a glue language, which is so slow? The only reason is the AI ecosystem.

    #Copilot and I just tested Free Pascal and BLAS for its speed without using #numpy or #pytorch. The result is amazing. It took less than a second to do a 1024x1024 #matrix multiplication.

    We will be using Free #Pascal and #BLAS to write our Small Language Model #SLM using #NNUE.

    #AI #LLM

  10. Why do people use #python, a glue language, which is so slow? The only reason is the AI ecosystem.

    #Copilot and I just tested Free Pascal and BLAS for its speed without using #numpy or #pytorch. The result is amazing. It took less than a second to do a 1024x1024 #matrix multiplication.

    We will be using Free #Pascal and #BLAS to write our Small Language Model #SLM using #NNUE.

    #AI #LLM

  11. Why do people use #python, a glue language, which is so slow? The only reason is the AI ecosystem.

    #Copilot and I just tested Free Pascal and BLAS for its speed without using #numpy or #pytorch. The result is amazing. It took less than a second to do a 1024x1024 #matrix multiplication.

    We will be using Free #Pascal and #BLAS to write our Small Language Model #SLM using #NNUE.

    #AI #LLM

  12. The plot thickens #BLAS #rstats #lapack
    (When one is about to rip through 10s of millions of medical records, one must profile the tools if the project is to finish before one's retirement)
    FlexiBLAS makes this benchmarks a breeze

  13. The plot thickens #BLAS #rstats #lapack (When one is about to rip through 10s of millions of medical records, one must profile the tools if the project is to finish before one's retirement) FlexiBLAS makes this benchmarks a breeze

  14. I wonder if the #lapack that comes with #AOCL is being picked up by flexiblas in #rstats. The things I have to do for the love of electronic health records analytics #bigdata #blas

  15. I wonder if the #lapack that comes with #AOCL is being picked up by flexiblas in #rstats.
    The things I have to do for the love of electronic health records analytics #bigdata #blas

  16. Another post on #Quansight PBC blog: "BLAS/LAPACK #packaging"

    labs.quansight.org/blog/blas-l

    """
    #BLAS and #LAPACK are the standard libraries for linear algebra. The original implementation, often called Netlib LAPACK, developed since the 1980s, nowadays serves primarily as the origin of the standard interface, the reference implementation and a conformance test suite. The end users usually use optimized implementations of the same interfaces. The choice ranges from generically tuned libraries such as OpenBLAS and BLIS, through libraries focused on specific hardware such as Intel® oneMKL, Arm Performance Libraries or the Accelerate framework on macOS, to ATLAS that aims to automatically optimize for a specific system.

    The diversity of available libraries, developed in parallel with the standard interfaces, along with vendor-specific extensions and further downstream changes, adds quite a bit of complexity around using these libraries in software, and distributing such software afterwards. This problem entangles implementation authors, consumer software authors, build system maintainers and distribution maintainers. Software authors generally wish to distribute their packages built against a generically optimized BLAS/LAPACK implementation. Advanced users often wish to be able to use a different implementation, more suited to their particular needs. Distributions wish to be able to consistently build software against their system libraries, and ideally provide users the ability to switch between different implementations. Then, build systems need to provide the scaffolding for all of that.

    I have recently taken up the work to provide such a scaffolding for the Meson build system; to add support for BLAS and LAPACK dependencies to Meson. While working on it, I had to learn a lot about BLAS/LAPACK packaging: not only how the different implementations differ from one another, but also what is changed by their respective downstream packaging. In this blog post, I would like to organize and share what I have learned.
    """

    #CondaForge #Debian #Fedora #Gentoo

  17. Wspominałem już może, że pracuję nad przejściem #Gentoo z na wpół zepsutego eselect-ldso dla #BLAS / #LAPACK, na #FlexiBLAS. Oznacza to również, że czeka nas okres przejściowy, w czasie którego obydwa rozwiązania będą wspierane.

    Plus jest taki, że stan "po" jest kompatybilny pod względem ABI ze stanem "przed" (a przynajmniej powinien być — pracujemy z autorami, by poprawić ostatnie niedociągnięcia). Zastępujemy libblas.so, liblapack.so i inne biblitoteki dowiązaniami symbolicznymi, więc programy skompilowane przed zmianą po prostu zaczną używać FlexiBLAS.

    Minus jest taki, że w drugą stronę nie jest tak łatwo. Po zastąpieniu biblitotek dowiązaniami, nowoskompilowane programy będą odczytywać SONAME z biblioteki docelowej, a więc zaczną się wiązać bezpośrednio z FlexiBLAS. Co za tym idzie, powrót do stanu poprzedniego będzie wymagał ich ponownej kompilacji.

    Aby tego uniknąć, musielibyśmy zamiast dowiązań symbolicznych zastosować jakieś biblioteki pośredniczące, które miałyby "stare" SONAME, a korzystąły z funkcji FlexiBLAS. Niestety, nic prostego tu nie zadziała — musiałbym jakoś "wyeksportować" symbole z FlexiBLAS, i najlepiej podzielić je na odpowiednie biblioteki, żeby `-Wl,--as-needed` nic nie wycięło. Tylko jak to zrobić?

    Cóż, eselect-ldso tworzy jakieś biblioteki, więc może uda się coś wykorzystać. No i szukam w źródłach, i nic nie mogę znaleźć. W końcu do mnie dociera, że cała logika dodana jest przez łatki Gentoo. A te łatki są po prostu paskudne. W OpenBLAS tworzymy dodatkowe biblioteki libblas.so, itp., które zawierają kopie obiektów z OpenBLAS i wiążą się z libopenblas, żeby pobrać brakujące zależności. Nawet nie wiążą się jedna z drugą, więc każda duplikuje sporo kodu niezależnie. Łatki dla BLIS są jeszcze gorsze — tu libblas.so i libcblas.so to praktycznie kopie libblis.so, z poszczególnymi "niepotrzebnymi" symbolami ukrytymi przy pomocy "visibility".

    No cóż, można się było tego spodziewać po projekcie z #GSoC.

  18. 1. Zdobądź trochę wiedzy o paczkach #BLAS / #LAPACK w ramach bejmopracy.
    2. Odkryj, że paczki #MKL w #Gentoo są mocno nieaktualne i ciut zepsute. Przejmij je, zaktualizuj, ulepsz.
    3. Zainteresuj się #FlexiBLAS. Zacznij eksperymentować. Wrzuć paczkę do Gentoo.
    4. Odkryj, że mechanizm dynamicznego przełączania BLAS / LAPACK niezbyt dobrze działa. Zaproponuj migrację do FlexiBLAS i przygotuj próbne zmiany.
    5. Zauważ niespójności we wsparciu ILP64. Zaproponuj poprawki.
    6. Odkryj, że wszystkie paczki BLAS / LAPACK w Gentoo są praktycznie bez opiekuna.

    No więc wygląda na to, że jestem nowym opiekunem całego kompletu. Pracuję nad poprawkamj dla ILP64, a następnie będę musiał zaktualizować łatki dla migracji do FlexiBLAS.

  19. 1. Zdobądź trochę wiedzy o paczkach #BLAS / #LAPACK w ramach bejmopracy.
    2. Odkryj, że paczki #MKL w #Gentoo są mocno nieaktualne i ciut zepsute. Przejmij je, zaktualizuj, ulepsz.
    3. Zainteresuj się #FlexiBLAS. Zacznij eksperymentować. Wrzuć paczkę do Gentoo.
    4. Odkryj, że mechanizm dynamicznego przełączania BLAS / LAPACK niezbyt dobrze działa. Zaproponuj migrację do FlexiBLAS i przygotuj próbne zmiany.
    5. Zauważ niespójności we wsparciu ILP64. Zaproponuj poprawki.
    6. Odkryj, że wszystkie paczki BLAS / LAPACK w Gentoo są praktycznie bez opiekuna.

    No więc wygląda na to, że jestem nowym opiekunem całego kompletu. Pracuję nad poprawkamj dla ILP64, a następnie będę musiał zaktualizować łatki dla migracji do FlexiBLAS.

  20. 1. Zdobądź trochę wiedzy o paczkach #BLAS / #LAPACK w ramach bejmopracy.
    2. Odkryj, że paczki #MKL w #Gentoo są mocno nieaktualne i ciut zepsute. Przejmij je, zaktualizuj, ulepsz.
    3. Zainteresuj się #FlexiBLAS. Zacznij eksperymentować. Wrzuć paczkę do Gentoo.
    4. Odkryj, że mechanizm dynamicznego przełączania BLAS / LAPACK niezbyt dobrze działa. Zaproponuj migrację do FlexiBLAS i przygotuj próbne zmiany.
    5. Zauważ niespójności we wsparciu ILP64. Zaproponuj poprawki.
    6. Odkryj, że wszystkie paczki BLAS / LAPACK w Gentoo są praktycznie bez opiekuna.

    No więc wygląda na to, że jestem nowym opiekunem całego kompletu. Pracuję nad poprawkamj dla ILP64, a następnie będę musiał zaktualizować łatki dla migracji do FlexiBLAS.

  21. 1. Zdobądź trochę wiedzy o paczkach #BLAS / #LAPACK w ramach bejmopracy.
    2. Odkryj, że paczki #MKL w #Gentoo są mocno nieaktualne i ciut zepsute. Przejmij je, zaktualizuj, ulepsz.
    3. Zainteresuj się #FlexiBLAS. Zacznij eksperymentować. Wrzuć paczkę do Gentoo.
    4. Odkryj, że mechanizm dynamicznego przełączania BLAS / LAPACK niezbyt dobrze działa. Zaproponuj migrację do FlexiBLAS i przygotuj próbne zmiany.
    5. Zauważ niespójności we wsparciu ILP64. Zaproponuj poprawki.
    6. Odkryj, że wszystkie paczki BLAS / LAPACK w Gentoo są praktycznie bez opiekuna.

    No więc wygląda na to, że jestem nowym opiekunem całego kompletu. Pracuję nad poprawkamj dla ILP64, a następnie będę musiał zaktualizować łatki dla migracji do FlexiBLAS.

  22. 1. Zdobądź trochę wiedzy o paczkach #BLAS / #LAPACK w ramach bejmopracy.
    2. Odkryj, że paczki #MKL w #Gentoo są mocno nieaktualne i ciut zepsute. Przejmij je, zaktualizuj, ulepsz.
    3. Zainteresuj się #FlexiBLAS. Zacznij eksperymentować. Wrzuć paczkę do Gentoo.
    4. Odkryj, że mechanizm dynamicznego przełączania BLAS / LAPACK niezbyt dobrze działa. Zaproponuj migrację do FlexiBLAS i przygotuj próbne zmiany.
    5. Zauważ niespójności we wsparciu ILP64. Zaproponuj poprawki.
    6. Odkryj, że wszystkie paczki BLAS / LAPACK w Gentoo są praktycznie bez opiekuna.

    No więc wygląda na to, że jestem nowym opiekunem całego kompletu. Pracuję nad poprawkamj dla ILP64, a następnie będę musiał zaktualizować łatki dla migracji do FlexiBLAS.

  23. 1. Learn a bit about #BLAS / #LAPACK packaging for dayjob.
    2. Learn that #MKL in #Gentoo is quite outdated. Take it over, bump it and improve the packaging.
    3. Get curious about #FlexiBLAS. Start playing with it. Package it for #Gentoo.
    4. Learn that runtime BLAS / LAPACK switching is quite broken. Come up with a FlexiBLAS transition plan and a proof-of-concept.
    5. Notice inconsistency in ILP64 support flags. Propose unifying the behavior.
    6. Learn that BLAS / LAPACK packages in Gentoo are pretty much unmaintained.

    Well, looks like I'm the new maintainer of the whole stack, I'm working on consistent ILP64 support now, and then I'll have to rebase the FlexiBLAS transition bits.

  24. 1. Learn a bit about #BLAS / #LAPACK packaging for dayjob.
    2. Learn that #MKL in #Gentoo is quite outdated. Take it over, bump it and improve the packaging.
    3. Get curious about #FlexiBLAS. Start playing with it. Package it for #Gentoo.
    4. Learn that runtime BLAS / LAPACK switching is quite broken. Come up with a FlexiBLAS transition plan and a proof-of-concept.
    5. Notice inconsistency in ILP64 support flags. Propose unifying the behavior.
    6. Learn that BLAS / LAPACK packages in Gentoo are pretty much unmaintained.

    Well, looks like I'm the new maintainer of the whole stack, I'm working on consistent ILP64 support now, and then I'll have to rebase the FlexiBLAS transition bits.

  25. 1. Learn a bit about #BLAS / #LAPACK packaging for dayjob.
    2. Learn that #MKL in #Gentoo is quite outdated. Take it over, bump it and improve the packaging.
    3. Get curious about #FlexiBLAS. Start playing with it. Package it for #Gentoo.
    4. Learn that runtime BLAS / LAPACK switching is quite broken. Come up with a FlexiBLAS transition plan and a proof-of-concept.
    5. Notice inconsistency in ILP64 support flags. Propose unifying the behavior.
    6. Learn that BLAS / LAPACK packages in Gentoo are pretty much unmaintained.

    Well, looks like I'm the new maintainer of the whole stack, I'm working on consistent ILP64 support now, and then I'll have to rebase the FlexiBLAS transition bits.

  26. 1. Learn a bit about #BLAS / #LAPACK packaging for dayjob.
    2. Learn that #MKL in #Gentoo is quite outdated. Take it over, bump it and improve the packaging.
    3. Get curious about #FlexiBLAS. Start playing with it. Package it for #Gentoo.
    4. Learn that runtime BLAS / LAPACK switching is quite broken. Come up with a FlexiBLAS transition plan and a proof-of-concept.
    5. Notice inconsistency in ILP64 support flags. Propose unifying the behavior.
    6. Learn that BLAS / LAPACK packages in Gentoo are pretty much unmaintained.

    Well, looks like I'm the new maintainer of the whole stack, I'm working on consistent ILP64 support now, and then I'll have to rebase the FlexiBLAS transition bits.

  27. 1. Learn a bit about #BLAS / #LAPACK packaging for dayjob.
    2. Learn that #MKL in #Gentoo is quite outdated. Take it over, bump it and improve the packaging.
    3. Get curious about #FlexiBLAS. Start playing with it. Package it for #Gentoo.
    4. Learn that runtime BLAS / LAPACK switching is quite broken. Come up with a FlexiBLAS transition plan and a proof-of-concept.
    5. Notice inconsistency in ILP64 support flags. Propose unifying the behavior.
    6. Learn that BLAS / LAPACK packages in Gentoo are pretty much unmaintained.

    Well, looks like I'm the new maintainer of the whole stack, I'm working on consistent ILP64 support now, and then I'll have to rebase the FlexiBLAS transition bits.

  28. Widzisz, że osoba z adresem e-mail #Debian .org opiekuje się paczkami #BLAS w #Gentoo, i myślisz sobie: "jak fajnie, że dystrybucje współpracują…"

    A potem uświadamiasz sobie, że ta osoba wzięła tylko kasę z #GSoC w 2019, i zniknęła od razu po fakcie…

    #WolneOprogramowanie

  29. So, do all #BLAS functions scale linearly only up to 4-6 threads? This seems to be the case when multithreaded BLAS is used for glm(m) modeling in #Rstats #HPC

  30. Even now, Thrust as a dependency is one of the main reason why we have a #CUDA backend, a #HIP / #ROCm backend and a pure #CPU backend in #GPUSPH, but not a #SYCL or #OneAPI backend (which would allow us to extend hardware support to #Intel GPUs). <doi.org/10.1002/cpe.8313>

    This is also one of the reason why we implemented our own #BLAS routines when we introduced the semi-implicit integrator. A side-effect of this choice is that it allowed us to develop the improved #BiCGSTAB that I've had the opportunity to mention before <doi.org/10.1016/j.jcp.2022.111>. Sometimes I do wonder if it would be appropriate to “excorporate” it into its own library for general use, since it's something that would benefit others. OTOH, this one was developed specifically for GPUSPH and it's tightly integrated with the rest of it (including its support for multi-GPU), and refactoring to turn it into a library like cuBLAS is

    a. too much effort
    b. probably not worth it.

    Again, following @eniko's original thread, it's really not that hard to roll your own, and probably less time consuming than trying to wrangle your way through an API that may or may not fit your needs.

    6/

  31. Question for the #rstats crowd. Do you disable hyperthreads when you run analyses in R with a multithreaded version of #blas e.g. #openblas #mkl etc ?

  32. Question for the #rstats crowd. Do you disable hyperthreads when you run analyses in R with a multithreaded version of #blas e.g. #openblas #mkl etc ?

  33. Question for the #rstats crowd. Do you disable hyperthreads when you run analyses in R with a multithreaded version of #blas e.g. #openblas #mkl etc ?

  34. Question for the #rstats crowd. Do you disable hyperthreads when you run analyses in R with a multithreaded version of #blas e.g. #openblas #mkl etc ?

  35. Question for the #rstats crowd. Do you disable hyperthreads when you run analyses in R with a multithreaded version of #blas e.g. #openblas #mkl etc ?

  36. If you had to do a lot of dense linear algebra (QR eigenvalues, SVD, linear least squares, etc.) on modern AMD *CPUs*, which library would you choose for maximum performance? #HPC #BLAS #LAPACK #linearalgebra #NumericalSimulation #amd

  37. No fail, no gain: как мы исправили более миллиона тестов, проверяя оптимизацию библиотеки OpenBLAS под RISC-V

    Открытая архитектура RISC-V активно развивается: в стандарт добавляются новые расширения и инструкции, разрабатываются новые ядра и SoC. Поскольку многие компании видят перспективы архитектуры и готовы использовать ее в продакшене, создается программный стек для высокопроизводительных вычислений — RISC-V HPC (High Performance Computing). Прогресс сопровождает формирование нового тренда — OpenHPC. Он заключается в технологической независимости от решений коммерческих компаний. Причем это относится не только к ПО, но и к железу. Чтобы концепция OpenHPC реализовывалась быстрее, нужно, чтобы к инициативе присоединилось как можно больше компаний, помогающих в развитии экосистемы решений для RISC-V HPC. Меня зовут Андрей Соколов, я инженер-программист в компании YADRO. В R&D-команде мы поставили перед собой задачу: изучить, как можно поддержать архитектуру RISC-V со стороны библиотек линейной алгебры BLAS и LAPACK. Тестирование одной из open source-библиотек привело нас к интересным открытиям, о которых я расскажу под катом. Результаты тестов

    habr.com/ru/companies/yadro/ar

    #openblas #blas #lapack #линейная_алгебра #библиотеки #оптимизация #riscv

  38. C++26 — прогресс и новинки от ISO C++

    Работа в комитете по стандартизации языка C++ активно кипит. Недавно состоялось очередное заседание. Как один из участников, поделюсь сегодня с Хабром свежими новостями и описанием изменений, которые планируются в С++26. До нового стандарта C++ остаётся чуть больше года, и вот некоторые новинки, которые попали в черновик стандарта за последние две встречи: запрет возврата из функции ссылок на временное значение, [[indeterminate]] и уменьшение количества Undefined Behavior, диагностика при =delete; , арифметика насыщения, линейная алгебра (да-да! BLAS и немного LAPACK), индексирование variadic-параметров и шаблонов ...[42] , вменяемый assert(...) , и другие приятные мелочи. Помимо этого, вас ждут планы и прогресс комитета по большим фичам и многое другое. Рассмотрим новинки на примерах

    habr.com/ru/companies/yandex/a

    #c++ #с++ #constexpr #c++26 #с++26 #numeric #floating_point #float #double #iso #программирование #span #functions #function #blas #lapack #atomic #linear_algebra #variadic_templates

  39. Time for an #introduction!
    I'm a young Canuck with interests/experience in #HPC, #Linux, #BLAS, #SYCL, #C, #AVX512, #Rust, heterogeneous compute & other such things.

    Currently my personal projects are bringing #FP16 to the #OpenBLAS library, working to standardize what Complex domain BLAS FP16 kernels/implementations should look like, and making sure #SYCL is available everywhere.

    I also write every now and again. Here's the tail of AVX512 FP16 on Alderlake
    gist.github.com/FCLC/56e4b3f4a