#gpgpu — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-12 · 06:42 UTC

GPU Compute Engine для 1С: как перестать ждать часами и начать считать на видеокарте

Массовые расчёты в 1С — авансы, себестоимость, MRP — традиционно узкое место при больших объёмах данных. Последовательная обработка на CPU занимает минуты и часы, и ни индексы, ни мощный сервер проблему не решают. В этой статье я показываю, как перенести такие вычисления на видеокарту через Vulkan Compute Shaders. Разбираю три реальных кейса — от простого расчёта авансов до MRP с Монте-Карло симуляциями — с цифрами, фрагментами шейдеров и архитектурными схемами. Ускорение: от 300 до 2500 раз. Движок с открытым исходным кодом, тестовые базы и полный инструментарий прилагаются.

https://habr.com/ru/articles/1034018/

#GPU_Compute_Engine #1С #Vulkan #параллельные_вычисления #вычислительные_шейдеры #MRP #себестоимость #авансы #МонтеКарло #GPGPU

#gpgpu #монтекарло #авансы #себестоимость #mrp #вычислительные_шейдеры

Habr @[email protected] · 2026-05-12 · 06:42 UTC

GPU Compute Engine для 1С: как перестать ждать часами и начать считать на видеокарте

Массовые расчёты в 1С — авансы, себестоимость, MRP — традиционно узкое место при больших объёмах данных. Последовательная обработка на CPU занимает минуты и часы, и ни индексы, ни мощный сервер проблему не решают. В этой статье я показываю, как перенести такие вычисления на видеокарту через Vulkan Compute Shaders. Разбираю три реальных кейса — от простого расчёта авансов до MRP с Монте-Карло симуляциями — с цифрами, фрагментами шейдеров и архитектурными схемами. Ускорение: от 300 до 2500 раз. Движок с открытым исходным кодом, тестовые базы и полный инструментарий прилагаются.

https://habr.com/ru/articles/1034018/

#GPU_Compute_Engine #1С #Vulkan #параллельные_вычисления #вычислительные_шейдеры #MRP #себестоимость #авансы #МонтеКарло #GPGPU

#gpgpu #монтекарло #авансы #себестоимость #mrp #вычислительные_шейдеры

Habr @[email protected] · 2026-05-12 · 06:42 UTC

GPU Compute Engine для 1С: как перестать ждать часами и начать считать на видеокарте

Массовые расчёты в 1С — авансы, себестоимость, MRP — традиционно узкое место при больших объёмах данных. Последовательная обработка на CPU занимает минуты и часы, и ни индексы, ни мощный сервер проблему не решают. В этой статье я показываю, как перенести такие вычисления на видеокарту через Vulkan Compute Shaders. Разбираю три реальных кейса — от простого расчёта авансов до MRP с Монте-Карло симуляциями — с цифрами, фрагментами шейдеров и архитектурными схемами. Ускорение: от 300 до 2500 раз. Движок с открытым исходным кодом, тестовые базы и полный инструментарий прилагаются.

https://habr.com/ru/articles/1034018/

#GPU_Compute_Engine #1С #Vulkan #параллельные_вычисления #вычислительные_шейдеры #MRP #себестоимость #авансы #МонтеКарло #GPGPU

#gpgpu #монтекарло #авансы #себестоимость #mrp #вычислительные_шейдеры

Habr @[email protected] · 2026-05-12 · 06:42 UTC

GPU Compute Engine для 1С: как перестать ждать часами и начать считать на видеокарте

Массовые расчёты в 1С — авансы, себестоимость, MRP — традиционно узкое место при больших объёмах данных. Последовательная обработка на CPU занимает минуты и часы, и ни индексы, ни мощный сервер проблему не решают. В этой статье я показываю, как перенести такие вычисления на видеокарту через Vulkan Compute Shaders. Разбираю три реальных кейса — от простого расчёта авансов до MRP с Монте-Карло симуляциями — с цифрами, фрагментами шейдеров и архитектурными схемами. Ускорение: от 300 до 2500 раз. Движок с открытым исходным кодом, тестовые базы и полный инструментарий прилагаются.

https://habr.com/ru/articles/1034018/

#GPU_Compute_Engine #1С #Vulkan #параллельные_вычисления #вычислительные_шейдеры #MRP #себестоимость #авансы #МонтеКарло #GPGPU

#gpu_compute_engine #1с #vulkan #параллельные_вычисления #вычислительные_шейдеры #mrp

Giuseppe Bilotta @[email protected] · 2026-04-15 · 13:16 UTC

Obviously when I teach #GPGPU I point out that the main point is performance, and “how to measure” is a topic we address. Obviously, the primary metric is kernel runtime. I then introduce the effective bandwidth metric (bytes read + bytes written, divided by time taken by the kernel) which is a good way to compare some similar kernels AND to discuss hardware limits and how close we are to them (I don't always discuss the roofline model though, maybe I should).

When we start to look into more advanced things, we hit the “snag” that sometimes a kernel using a more efficient technique may be _less_ effective at using a particular resource, e.g. by having having a _lower_ effective bandwidth —I do this on purpose to show how kernel runtime remains the ultimate “tell” on how good a kernel is compared to another (regardless of the additional information the effective bandwidth may tell us).

At this point I introduce a metric for which I don't actually know if there is a name: number of elements processed per seconds, which is just the number of elements, divided by the kernel runtime.

I call this effective throughput, but sometimes I get the nagging feeling that this may not be the correct term?

#gpgpu

Habr @[email protected] · 2026-03-30 · 13:52 UTC

Стена данных: почему ИИ упирается не в GPU, а в реальность

В новой статье наш эксперт Антон Пчелинцев размышляет о причинах дефицита качественных данных, следующем прорыве в области развития ИИ и о том, что делать для получения преимущества.

https://habr.com/ru/articles/1016998/

#искусственный_интеллект #машинное+обучение #bigdata #стена_данных #gpu #gpgpu #данные #качество_данных #synthetic_data #синтетические_данные

#синтетические_данные #synthetic_data #качество_данных #данные #gpgpu #gpu

Habr @[email protected] · 2026-03-30 · 13:52 UTC

Стена данных: почему ИИ упирается не в GPU, а в реальность

В новой статье наш эксперт Антон Пчелинцев размышляет о причинах дефицита качественных данных, следующем прорыве в области развития ИИ и о том, что делать для получения преимущества.

https://habr.com/ru/articles/1016998/

#искусственный_интеллект #машинное+обучение #bigdata #стена_данных #gpu #gpgpu #данные #качество_данных #synthetic_data #синтетические_данные

#синтетические_данные #synthetic_data #качество_данных #данные #gpgpu #gpu

Habr @[email protected] · 2026-03-30 · 13:52 UTC

Стена данных: почему ИИ упирается не в GPU, а в реальность

В новой статье наш эксперт Антон Пчелинцев размышляет о причинах дефицита качественных данных, следующем прорыве в области развития ИИ и о том, что делать для получения преимущества.

https://habr.com/ru/articles/1016998/

#искусственный_интеллект #машинное+обучение #bigdata #стена_данных #gpu #gpgpu #данные #качество_данных #synthetic_data #синтетические_данные

#синтетические_данные #synthetic_data #качество_данных #данные #gpgpu #gpu

Habr @[email protected] · 2026-03-30 · 13:52 UTC

Стена данных: почему ИИ упирается не в GPU, а в реальность

В новой статье наш эксперт Антон Пчелинцев размышляет о причинах дефицита качественных данных, следующем прорыве в области развития ИИ и о том, что делать для получения преимущества.

https://habr.com/ru/articles/1016998/

#искусственный_интеллект #машинное+обучение #bigdata #стена_данных #gpu #gpgpu #данные #качество_данных #synthetic_data #синтетические_данные

#искусственный_интеллект #машинное #bigdata #стена_данных #gpu #gpgpu

Siebencorgie @[email protected] · 2026-03-10 · 11:39 UTC

Sooo, I want to sample mipmaps in a compute shader via "sampleGrad".

Does anyone know what the state-of-the-art is for deriving ddx and ddy for uv-coords in a compute shader?

I don't want to store the UV's derivatives in a G-buffer if possible.

#rendering #glsl #slang #hlsl #shader #gpgpu #vulkan #opengl

#rendering #glsl #slang #hlsl #shader #gpgpu

Siebencorgie @[email protected] · 2026-03-10 · 11:39 UTC

Sooo, I want to sample mipmaps in a compute shader via "sampleGrad".

Does anyone know what the state-of-the-art is for deriving ddx and ddy for uv-coords in a compute shader?

I don't want to store the UV's derivatives in a G-buffer if possible.

#rendering #glsl #slang #hlsl #shader #gpgpu #vulkan #opengl

#rendering #glsl #slang #hlsl #shader #gpgpu

Siebencorgie @[email protected] · 2026-03-10 · 11:39 UTC

Sooo, I want to sample mipmaps in a compute shader via "sampleGrad".

Does anyone know what the state-of-the-art is for deriving ddx and ddy for uv-coords in a compute shader?

I don't want to store the UV's derivatives in a G-buffer if possible.

#rendering #glsl #slang #hlsl #shader #gpgpu #vulkan #opengl

#rendering #glsl #slang #hlsl #shader #gpgpu

Siebencorgie @[email protected] · 2026-03-10 · 11:39 UTC

Sooo, I want to sample mipmaps in a compute shader via "sampleGrad".

Does anyone know what the state-of-the-art is for deriving ddx and ddy for uv-coords in a compute shader?

I don't want to store the UV's derivatives in a G-buffer if possible.

#rendering #glsl #slang #hlsl #shader #gpgpu #vulkan #opengl

#opengl #vulkan #gpgpu #shader #hlsl #slang

Siebencorgie @[email protected] · 2026-03-10 · 11:39 UTC

Sooo, I want to sample mipmaps in a compute shader via "sampleGrad".

Does anyone know what the state-of-the-art is for deriving ddx and ddy for uv-coords in a compute shader?

I don't want to store the UV's derivatives in a G-buffer if possible.

#rendering #glsl #slang #hlsl #shader #gpgpu #vulkan #opengl

#rendering #glsl #slang #hlsl #shader #gpgpu

Habr @[email protected] · 2026-02-20 · 15:52 UTC

От MNIST к Transformer. Часть 2. Основы работы с памятью

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Это вторая статья из цикла От MNIST к Transformer , цель которого пошагово пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. В этой статье разберем основы работы с памятью и две простые математические операции с точки зрения математики, но не такие простые с точки зрения CUDA ядер. Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

https://habr.com/ru/articles/1001886/

#ml #cuda #c++ #gpgpu

#gpgpu #c #cuda #ml

Habr @[email protected] · 2026-02-16 · 14:12 UTC

От MNIST к Transformer. Hello CUDA. Основы, Setup и наше первое ядро

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Я хочу запустить большой цикл статей От MNIST к Transformer , цель которого пошагаво пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

https://habr.com/ru/articles/996610/

#cuda #c++ #gpgpu #ml #lowlevel_programming

#lowlevel_programming #ml #gpgpu #c #cuda

Habr @[email protected] · 2026-02-16 · 14:12 UTC

От MNIST к Transformer. Hello CUDA. Основы, Setup и наше первое ядро

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Я хочу запустить большой цикл статей От MNIST к Transformer , цель которого пошагаво пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

https://habr.com/ru/articles/996610/

#cuda #c++ #gpgpu #ml #lowlevel_programming

#lowlevel_programming #ml #gpgpu #c #cuda

Habr @[email protected] · 2026-02-16 · 14:12 UTC

От MNIST к Transformer. Hello CUDA. Основы, Setup и наше первое ядро

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Я хочу запустить большой цикл статей От MNIST к Transformer , цель которого пошагаво пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

https://habr.com/ru/articles/996610/

#cuda #c++ #gpgpu #ml #lowlevel_programming

#lowlevel_programming #ml #gpgpu #c #cuda

Habr @[email protected] · 2026-02-16 · 14:12 UTC

От MNIST к Transformer. Hello CUDA. Основы, Setup и наше первое ядро

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Я хочу запустить большой цикл статей От MNIST к Transformer , цель которого пошагаво пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

https://habr.com/ru/articles/996610/

#cuda #c++ #gpgpu #ml #lowlevel_programming

#cuda #c #gpgpu #ml #lowlevel_programming

Giuseppe Bilotta @[email protected] · 2026-02-12 · 10:59 UTC

I'm double-checking I have everything ready for my #GPGPU lessons (course starts in March) and of course a recent upgrade seems to have busted #rusticl on my machine, with a #segfault somewhere in kernel compilation stage. Not happy about it, but I guess it's par of the course when running somewhat bleeding edge OSes (Debian unstable + some weird stuff). Let's see if this issue is fixed wth the version of Mesa in experimental, or if I can report the bug.

#gpgpu #rusticl #segfault

Habr @[email protected] · 2026-02-11 · 22:52 UTC

OpenCL, SYCL и матрицы

В данной статье я описываю свой опыт разработки приложений с OpenCL/SYCL. Вычисления на видеокартах ассоциируются преимущественно с графикой, научными вычислениями и с недавних пор с нейросетями. Но чаще всего с графикой. Тем не менее, графические процессоры обладают свойствами, за счёт которых их очень удобно использовать в задачах, напрямую не связанных с перечисленным выше. И главное из этих свойств – массовый параллелизм. Самый краткий ввод в гетерогенное программирование: у нас есть две роли — хост и девайс , задача хоста – формировать задачи и отдавать их на девайс, в то время как задача девайса обработать их и вернуть результат. При этом хост и девайс могут быть одним вычислительным устройством (это не обязательно CPU + GPU, так как CPU может отдавать задачи сам себе).

https://habr.com/ru/articles/994986/

#gpgpu #opencl #sycl #gpu_computing

#gpu_computing #sycl #opencl #gpgpu

Habr @[email protected] · 2026-02-11 · 22:52 UTC

OpenCL, SYCL и матрицы

В данной статье я описываю свой опыт разработки приложений с OpenCL/SYCL. Вычисления на видеокартах ассоциируются преимущественно с графикой, научными вычислениями и с недавних пор с нейросетями. Но чаще всего с графикой. Тем не менее, графические процессоры обладают свойствами, за счёт которых их очень удобно использовать в задачах, напрямую не связанных с перечисленным выше. И главное из этих свойств – массовый параллелизм. Самый краткий ввод в гетерогенное программирование: у нас есть две роли — хост и девайс , задача хоста – формировать задачи и отдавать их на девайс, в то время как задача девайса обработать их и вернуть результат. При этом хост и девайс могут быть одним вычислительным устройством (это не обязательно CPU + GPU, так как CPU может отдавать задачи сам себе).

https://habr.com/ru/articles/994986/

#gpgpu #opencl #sycl #gpu_computing

#gpu_computing #sycl #opencl #gpgpu

Habr @[email protected] · 2026-02-11 · 22:52 UTC

OpenCL, SYCL и матрицы

В данной статье я описываю свой опыт разработки приложений с OpenCL/SYCL. Вычисления на видеокартах ассоциируются преимущественно с графикой, научными вычислениями и с недавних пор с нейросетями. Но чаще всего с графикой. Тем не менее, графические процессоры обладают свойствами, за счёт которых их очень удобно использовать в задачах, напрямую не связанных с перечисленным выше. И главное из этих свойств – массовый параллелизм. Самый краткий ввод в гетерогенное программирование: у нас есть две роли — хост и девайс , задача хоста – формировать задачи и отдавать их на девайс, в то время как задача девайса обработать их и вернуть результат. При этом хост и девайс могут быть одним вычислительным устройством (это не обязательно CPU + GPU, так как CPU может отдавать задачи сам себе).

https://habr.com/ru/articles/994986/

#gpgpu #opencl #sycl #gpu_computing

#gpu_computing #sycl #opencl #gpgpu

Habr @[email protected] · 2026-02-11 · 22:52 UTC

OpenCL, SYCL и матрицы

В данной статье я описываю свой опыт разработки приложений с OpenCL/SYCL. Вычисления на видеокартах ассоциируются преимущественно с графикой, научными вычислениями и с недавних пор с нейросетями. Но чаще всего с графикой. Тем не менее, графические процессоры обладают свойствами, за счёт которых их очень удобно использовать в задачах, напрямую не связанных с перечисленным выше. И главное из этих свойств – массовый параллелизм. Самый краткий ввод в гетерогенное программирование: у нас есть две роли — хост и девайс , задача хоста – формировать задачи и отдавать их на девайс, в то время как задача девайса обработать их и вернуть результат. При этом хост и девайс могут быть одним вычислительным устройством (это не обязательно CPU + GPU, так как CPU может отдавать задачи сам себе).

https://habr.com/ru/articles/994986/

#gpgpu #opencl #sycl #gpu_computing

Giuseppe Bilotta @[email protected] · 2025-10-29 · 19:25 UTC

Today I introduced a much-needed feature to #GPUSPH.

Our code supports multi-GPU and even multi-node, so in general if you have a large simulation you'll want to distribute it over all your GPUs using our internal support for it.

However, in some cases, you need to run a battery of simulations and your problem size isn't large enough to justify the use of more than a couple of GPUs for each simulation.

In this case, rather than running the simulations in your set serially (one after the other) using all GPUs for each, you'll want to run them in parallel, potentially even each on a single GPUs.

The idea is to find the next avaialble (set of) GPU(s) and launch a simulation on them while there are still available sets, then wait until a “slot” frees up and start the new one(s) as slots get freed.

Until now, we've been doing this manually by partitioning the set of simulations to do and start them in different shells.

There is actually a very powerful tool to achieve this on the command, line, GNU Parallel. As with all powerful tools, however, this is somewhat cumbersome to configure to get the intended result. And after Doing It Right™ one must remember the invocation magic …

So today I found some time to write a wrapper around GNU Parallel that basically (1) enumerates the available GPUs and (2) appends the appropriate --device command-line option to the invocation of GPUSPH, based on the slot number.

#GPGPU #ParallelComputing #DistributedComputing #GNUParallel

#gpusph #gpgpu #parallelcomputing #distributedcomputing #gnuparallel

Giuseppe Bilotta @[email protected] · 2025-10-29 · 19:25 UTC

Today I introduced a much-needed feature to #GPUSPH.

Our code supports multi-GPU and even multi-node, so in general if you have a large simulation you'll want to distribute it over all your GPUs using our internal support for it.

However, in some cases, you need to run a battery of simulations and your problem size isn't large enough to justify the use of more than a couple of GPUs for each simulation.

In this case, rather than running the simulations in your set serially (one after the other) using all GPUs for each, you'll want to run them in parallel, potentially even each on a single GPUs.

The idea is to find the next avaialble (set of) GPU(s) and launch a simulation on them while there are still available sets, then wait until a “slot” frees up and start the new one(s) as slots get freed.

Until now, we've been doing this manually by partitioning the set of simulations to do and start them in different shells.

There is actually a very powerful tool to achieve this on the command, line, GNU Parallel. As with all powerful tools, however, this is somewhat cumbersome to configure to get the intended result. And after Doing It Right™ one must remember the invocation magic …

So today I found some time to write a wrapper around GNU Parallel that basically (1) enumerates the available GPUs and (2) appends the appropriate --device command-line option to the invocation of GPUSPH, based on the slot number.

#GPGPU #ParallelComputing #DistributedComputing #GNUParallel

#gpusph #gpgpu #parallelcomputing #distributedcomputing #gnuparallel

Giuseppe Bilotta @[email protected] · 2025-10-29 · 19:25 UTC

Today I introduced a much-needed feature to #GPUSPH.

Our code supports multi-GPU and even multi-node, so in general if you have a large simulation you'll want to distribute it over all your GPUs using our internal support for it.

However, in some cases, you need to run a battery of simulations and your problem size isn't large enough to justify the use of more than a couple of GPUs for each simulation.

In this case, rather than running the simulations in your set serially (one after the other) using all GPUs for each, you'll want to run them in parallel, potentially even each on a single GPUs.

The idea is to find the next avaialble (set of) GPU(s) and launch a simulation on them while there are still available sets, then wait until a “slot” frees up and start the new one(s) as slots get freed.

Until now, we've been doing this manually by partitioning the set of simulations to do and start them in different shells.

There is actually a very powerful tool to achieve this on the command, line, GNU Parallel. As with all powerful tools, however, this is somewhat cumbersome to configure to get the intended result. And after Doing It Right™ one must remember the invocation magic …

So today I found some time to write a wrapper around GNU Parallel that basically (1) enumerates the available GPUs and (2) appends the appropriate --device command-line option to the invocation of GPUSPH, based on the slot number.

#GPGPU #ParallelComputing #DistributedComputing #GNUParallel

#gpusph #gpgpu #parallelcomputing #distributedcomputing #gnuparallel

Giuseppe Bilotta @[email protected] · 2025-10-29 · 19:25 UTC

Today I introduced a much-needed feature to #GPUSPH.

Our code supports multi-GPU and even multi-node, so in general if you have a large simulation you'll want to distribute it over all your GPUs using our internal support for it.

However, in some cases, you need to run a battery of simulations and your problem size isn't large enough to justify the use of more than a couple of GPUs for each simulation.

In this case, rather than running the simulations in your set serially (one after the other) using all GPUs for each, you'll want to run them in parallel, potentially even each on a single GPUs.

The idea is to find the next avaialble (set of) GPU(s) and launch a simulation on them while there are still available sets, then wait until a “slot” frees up and start the new one(s) as slots get freed.

Until now, we've been doing this manually by partitioning the set of simulations to do and start them in different shells.

There is actually a very powerful tool to achieve this on the command, line, GNU Parallel. As with all powerful tools, however, this is somewhat cumbersome to configure to get the intended result. And after Doing It Right™ one must remember the invocation magic …

So today I found some time to write a wrapper around GNU Parallel that basically (1) enumerates the available GPUs and (2) appends the appropriate --device command-line option to the invocation of GPUSPH, based on the slot number.

#GPGPU #ParallelComputing #DistributedComputing #GNUParallel

#gnuparallel #distributedcomputing #parallelcomputing #gpgpu #gpusph

Giuseppe Bilotta @[email protected] · 2025-10-29 · 19:25 UTC

Today I introduced a much-needed feature to #GPUSPH.

Our code supports multi-GPU and even multi-node, so in general if you have a large simulation you'll want to distribute it over all your GPUs using our internal support for it.

However, in some cases, you need to run a battery of simulations and your problem size isn't large enough to justify the use of more than a couple of GPUs for each simulation.

In this case, rather than running the simulations in your set serially (one after the other) using all GPUs for each, you'll want to run them in parallel, potentially even each on a single GPUs.

The idea is to find the next avaialble (set of) GPU(s) and launch a simulation on them while there are still available sets, then wait until a “slot” frees up and start the new one(s) as slots get freed.

Until now, we've been doing this manually by partitioning the set of simulations to do and start them in different shells.

There is actually a very powerful tool to achieve this on the command, line, GNU Parallel. As with all powerful tools, however, this is somewhat cumbersome to configure to get the intended result. And after Doing It Right™ one must remember the invocation magic …

So today I found some time to write a wrapper around GNU Parallel that basically (1) enumerates the available GPUs and (2) appends the appropriate --device command-line option to the invocation of GPUSPH, based on the slot number.

#GPGPU #ParallelComputing #DistributedComputing #GNUParallel

#gpusph #gpgpu #parallelcomputing #distributedcomputing #gnuparallel

रञ्जित (Ranjit Mathew) @[email protected] · 2025-08-26 · 13:21 UTC

Cool overview:

“Democratizing AI Compute”, Modular (https://www.modular.com/democratizing-ai-compute).

#Modular #Mojo #GPU #AI #ML #MachineLearning #ArtificialIntelligence #GPGPU #CUDA #HPC #Programming

#modular #mojo #gpu #ai #ml #machinelearning

Habr @[email protected] · 2025-06-23 · 10:12 UTC

Как мы разрабатываем отечественный AI-процессор. Часть 2. Секреты GPGPU

Итак, анализ возможных вариантов архитектуры AI-процессора и мотивация выбора GPGPU были изложены в Части 1 . Но в чём секрет такого успеха GPGPU в техническом разрезе? Давайте попробуем немного углубиться в данную тему. Теория Для начала зададимся вопросом – а каков вообще теоретический предел идеального AI-вычислителя? Допустим, мы магическим образом определили оптимальную микроархитектуру и идеально её спроектировали. Можно ли определить, какова будет производительность такого решения? Хорошая новость заключается в том, что это возможно, но при соблюдении следующих условий:

https://habr.com/ru/companies/baikalelectron/articles/920816/

#gpgpu #ai #hardware

Habr @[email protected] · 2025-06-03 · 16:32 UTC

Как мы разрабатываем отечественный AI-процессор. Часть 1. Почему GPGPU?

« We have a phrase inside Intel. We are supposed to be a data driven company and the phrase is, "Don't argue with the emotions, argue with the data." » Andrew S. Grove, Chairman of the Board, Intel Corporation, August 9, 1998 В июле 2023-го года в «Байкал Электроникс» стартовал проект по разработке собственного AI-процессора. В данной публикации мы хотим рассказать, почему мы выбрали именно архитектуру GPGPU, какими данными при решении мы руководствовались, а во второй части немного рассказать о ходе разработки и поделиться полученным опытом. Почему именно GPGPU? 2023-ий год Россия встретила в достаточно странной ситуации, когда с одной стороны, всем была понятна необходимость и перспективность развития аппаратных решений для ИИ, с другой – этих решений, можно сказать, не было. Актуальная на тот момент времени ситуация была описана в данной статье . Более того, из 4-х перечисленных решений, по большому счёту, только одно (IVA TPU) можно считать действительно специализированным индустриальным AI-процессором. Нейроморфные процессоры (коим является Altai от Мотив НТ) на данный момент являются скорее предметом научных изысканий и не в состоянии конкурировать с промышленными AI-процессорами на более классических архитектурах. Приведённые же решения от Элвис и Модуль являются просто DSP-процессорами, прилаженными для задач ИИ. Неудивительно, что они проигрывают специализированным AI-процессорам на порядки . Ситуация выглядела достаточно удручающе, что и побудило нас стартовать проект по разработке собственного AI-ядра. Вариантов того, какой архитектурный подход выбрать, было несколько. Вооружившись научным подходом и руководствуясь заветами титанов индустрии микроэлектроники, таких как легендарный Энди Гроув, мы провели анализ существующих подходов к разработке AI-процессоров. Вот, что у нас получилось в итоге:

https://habr.com/ru/companies/baikalelectron/articles/915346/

#gpgpu #ai #hardware #tensor_processing_units

#tensor_processing_units #hardware #ai #gpgpu

Troels @[email protected] · 2025-05-15 · 08:49 UTC

Preprint of the longest paper I ever contributed to: https://arxiv.org/abs/2505.08906 - it is a qualitative and quantitative comparison of various #functional #array languages, with a significant #gpgpu element.

#functional #array #gpgpu

रञ्जित (Ranjit Mathew) @[email protected] · 2025-04-26 · 15:50 UTC

"Understanding PTX, The Assembly Language Of CUDA GPU Computing", Nvidia (https://developer.nvidia.com/blog/understanding-ptx-the-assembly-language-of-cuda-gpu-computing/).

#Nvidia #GPU #CUDA #PTX #AssemblyLanguage #IntermediateLanguage #IR #HPC #GPGPU

#nvidia #gpu #cuda #ptx #assemblylanguage #intermediatelanguage

रञ्जित (Ranjit Mathew) @[email protected] · 2025-04-26 · 15:50 UTC

"Understanding PTX, The Assembly Language Of CUDA GPU Computing", Nvidia (https://developer.nvidia.com/blog/understanding-ptx-the-assembly-language-of-cuda-gpu-computing/).

#Nvidia #GPU #CUDA #PTX #AssemblyLanguage #IntermediateLanguage #IR #HPC #GPGPU

#nvidia #gpu #cuda #ptx #assemblylanguage #intermediatelanguage

रञ्जित (Ranjit Mathew) @[email protected] · 2025-04-26 · 15:50 UTC

"Understanding PTX, The Assembly Language Of CUDA GPU Computing", Nvidia (https://developer.nvidia.com/blog/understanding-ptx-the-assembly-language-of-cuda-gpu-computing/).

#Nvidia #GPU #CUDA #PTX #AssemblyLanguage #IntermediateLanguage #IR #HPC #GPGPU

#nvidia #gpu #cuda #ptx #assemblylanguage #intermediatelanguage

रञ्जित (Ranjit Mathew) @[email protected] · 2025-04-26 · 15:50 UTC

"Understanding PTX, The Assembly Language Of CUDA GPU Computing", Nvidia (https://developer.nvidia.com/blog/understanding-ptx-the-assembly-language-of-cuda-gpu-computing/).

#Nvidia #GPU #CUDA #PTX #AssemblyLanguage #IntermediateLanguage #IR #HPC #GPGPU

#nvidia #gpu #cuda #ptx #assemblylanguage #intermediatelanguage

ashwinvis @[email protected] · 2025-04-23 · 13:24 UTC

it is kind of wild to learn that #FluidMechanics played an integral role in the creation of #CUDA and in turn ushering in an era of #GPGPU and #AI

https://www.youtube.com/watch?v=K9anz4aB0S0

@fluidmechanics

#fluidmechanics #cuda #gpgpu #ai

Habr @[email protected] · 2025-04-07 · 09:12 UTC

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»). Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.

https://habr.com/ru/companies/ruvds/articles/892646/

#Илья_Суцкевер #Ilya_Sutskever #OpenAI #10x_engineer #AlexNet #Safe_Superintelligence #ImageNet #неокогнитрон #GPU #GPGPU #CUDA #компьютерное_зрение #LeNet #Nvidia_GTX 580 #DNNResearch #Google_Brain #Алекс_Крижевски #Джеффри_Хинтон #Seq2seq #TensorFlow #AlphaGo #Томаш_Миколов #Word2vec #fewshot_learning #машина_Больцмана #сверхинтеллект #GPT #ChatGPT #ruvds_статьи

#илья_суцкевер #ilya_sutskever #openai #10x_engineer #alexnet #safe_superintelligence

Habr @[email protected] · 2025-04-07 · 09:12 UTC

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»). Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.

https://habr.com/ru/companies/ruvds/articles/892646/

#Илья_Суцкевер #Ilya_Sutskever #OpenAI #10x_engineer #AlexNet #Safe_Superintelligence #ImageNet #неокогнитрон #GPU #GPGPU #CUDA #компьютерное_зрение #LeNet #Nvidia_GTX 580 #DNNResearch #Google_Brain #Алекс_Крижевски #Джеффри_Хинтон #Seq2seq #TensorFlow #AlphaGo #Томаш_Миколов #Word2vec #fewshot_learning #машина_Больцмана #сверхинтеллект #GPT #ChatGPT #ruvds_статьи

#илья_суцкевер #ilya_sutskever #openai #10x_engineer #alexnet #safe_superintelligence

Habr @[email protected] · 2025-04-07 · 09:12 UTC

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»). Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.

https://habr.com/ru/companies/ruvds/articles/892646/

#Илья_Суцкевер #Ilya_Sutskever #OpenAI #10x_engineer #AlexNet #Safe_Superintelligence #ImageNet #неокогнитрон #GPU #GPGPU #CUDA #компьютерное_зрение #LeNet #Nvidia_GTX 580 #DNNResearch #Google_Brain #Алекс_Крижевски #Джеффри_Хинтон #Seq2seq #TensorFlow #AlphaGo #Томаш_Миколов #Word2vec #fewshot_learning #машина_Больцмана #сверхинтеллект #GPT #ChatGPT #ruvds_статьи

#илья_суцкевер #ilya_sutskever #openai #10x_engineer #alexnet #safe_superintelligence

Habr @[email protected] · 2025-04-07 · 09:12 UTC

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»). Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.

https://habr.com/ru/companies/ruvds/articles/892646/

#Илья_Суцкевер #Ilya_Sutskever #OpenAI #10x_engineer #AlexNet #Safe_Superintelligence #ImageNet #неокогнитрон #GPU #GPGPU #CUDA #компьютерное_зрение #LeNet #Nvidia_GTX 580 #DNNResearch #Google_Brain #Алекс_Крижевски #Джеффри_Хинтон #Seq2seq #TensorFlow #AlphaGo #Томаш_Миколов #Word2vec #fewshot_learning #машина_Больцмана #сверхинтеллект #GPT #ChatGPT #ruvds_статьи

#ruvds_статьи #chatgpt #gpt #сверхинтеллект #машина_больцмана #fewshot_learning

Dr. Moritz Lehmann @[email protected] · 2025-03-03 · 22:19 UTC

Hot Aisle's 8x AMD #MI300X server is the fastest computer I've ever tested in #FluidX3D #CFD, achieving a peak #LBM performance of 205 GLUPs/s, and a combined VRAM bandwidth of 23 TB/s. 🖖🤯
The #RTX 5090 looks like a toy in comparison.

MI300X beats even Nvidia's GH200 94GB. This marks a very fascinating inflection point in #GPGPU: #CUDA is not the performance leader anymore. 🖖😛
You need a cross-vendor language like #OpenCL to leverage its power.

FluidX3D on #GitHub: https://github.com/ProjectPhysX/FluidX3D

#mi300x #fluidx3d #cfd #lbm #rtx #gpgpu

Giuseppe Bilotta @[email protected] · 2025-03-03 · 18:57 UTC

First day of the #GPGPU course at #UniCT. Class is small, but students seem curious, gave me the opportunity to discuss in more details some things that usually go unmentioned. Hopefully it'll hold.

Only negative side, I had to take a longer route home because the park between my house and the university was closed 8-(

#gpgpu #unict

Giuseppe Bilotta @[email protected] · 2025-03-03 · 18:57 UTC

First day of the #GPGPU course at #UniCT. Class is small, but students seem curious, gave me the opportunity to discuss in more details some things that usually go unmentioned. Hopefully it'll hold.

Only negative side, I had to take a longer route home because the park between my house and the university was closed 8-(

#gpgpu #unict

Giuseppe Bilotta @[email protected] · 2025-03-03 · 18:57 UTC

First day of the #GPGPU course at #UniCT. Class is small, but students seem curious, gave me the opportunity to discuss in more details some things that usually go unmentioned. Hopefully it'll hold.

Only negative side, I had to take a longer route home because the park between my house and the university was closed 8-(

#gpgpu #unict

Giuseppe Bilotta @[email protected] · 2025-03-03 · 18:57 UTC

First day of the #GPGPU course at #UniCT. Class is small, but students seem curious, gave me the opportunity to discuss in more details some things that usually go unmentioned. Hopefully it'll hold.

Only negative side, I had to take a longer route home because the park between my house and the university was closed 8-(

#unict #gpgpu

Giuseppe Bilotta @[email protected] · 2025-03-03 · 18:57 UTC

First day of the #GPGPU course at #UniCT. Class is small, but students seem curious, gave me the opportunity to discuss in more details some things that usually go unmentioned. Hopefully it'll hold.

Only negative side, I had to take a longer route home because the park between my house and the university was closed 8-(

#gpgpu #unict

Giuseppe Bilotta @[email protected] · 2025-02-18 · 11:42 UTC

I'm getting the material ready for my upcoming #GPGPU course that starts on March. Even though I most probably won't get to it,I also checked my trivial #SYCL programs. Apparently the 2025.0 version of the #Intel #OneAPI #DPCPP runtime doesn't like any #OpenCL platform except Intel's own (I have two other platforms that support #SPIRV, so why aren't they showing up? From the documentation I can find online this should be sufficient, but apparently it's not …)

#gpgpu #sycl #intel #oneapi #dpcpp #opencl

Giuseppe Bilotta @[email protected] · 2025-02-18 · 11:42 UTC

I'm getting the material ready for my upcoming #GPGPU course that starts on March. Even though I most probably won't get to it,I also checked my trivial #SYCL programs. Apparently the 2025.0 version of the #Intel #OneAPI #DPCPP runtime doesn't like any #OpenCL platform except Intel's own (I have two other platforms that support #SPIRV, so why aren't they showing up? From the documentation I can find online this should be sufficient, but apparently it's not …)

#gpgpu #sycl #intel #oneapi #dpcpp #opencl