home.social

#gpu — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #gpu, aggregated by home.social.

  1. Vulkan has published a new sample demonstrating Shader Execution Reordering (SER) for ray tracing.

    SER separates ray traversal from shader invocation, letting the GPU reorder threads for better coherency before execution. The sample includes an interactive on/off toggle across three divergent material types, with real-world gains ranging from 11-24% in path tracing to 40-50% in high-divergence scenarios.

    github.com/KhronosGroup/Vulkan

  2. [Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

    С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префилла и декодирования принципиально разные профили вычислений, но традиционные развёртывания заставляют их работать на одном оборудовании. В итоге GPU недозагружены, а масштабирование — негибкое. Дезагрегированный инференс решает эту проблему: разбивает конвейер на отдельные этапы — префилл, декодирование и маршрутизацию. Каждый этап работает как независимый сервис, который можно обеспечивать ресурсами и масштабировать на собственных условиях. Команда VK Cloud перевела статью, в которой разбирается, как развернуть дезагрегированный инференс в Kubernetes. Здесь мы посмотрим на разные решения экосистемы, как они работают в кластере и что дают «из коробки».

    habr.com/ru/companies/vktech/a

    #vk_cloud #llm #kubernetes #inference #gpu #nvidia #дезагрегированный_инференс #оркестрация #автомасштабирование #планирование_подов

  3. [Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

    С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префилла и декодирования принципиально разные профили вычислений, но традиционные развёртывания заставляют их работать на одном оборудовании. В итоге GPU недозагружены, а масштабирование — негибкое. Дезагрегированный инференс решает эту проблему: разбивает конвейер на отдельные этапы — префилл, декодирование и маршрутизацию. Каждый этап работает как независимый сервис, который можно обеспечивать ресурсами и масштабировать на собственных условиях. Команда VK Cloud перевела статью, в которой разбирается, как развернуть дезагрегированный инференс в Kubernetes. Здесь мы посмотрим на разные решения экосистемы, как они работают в кластере и что дают «из коробки».

    habr.com/ru/companies/vktech/a

    #vk_cloud #llm #kubernetes #inference #gpu #nvidia #дезагрегированный_инференс #оркестрация #автомасштабирование #планирование_подов

  4. [Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

    С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префилла и декодирования принципиально разные профили вычислений, но традиционные развёртывания заставляют их работать на одном оборудовании. В итоге GPU недозагружены, а масштабирование — негибкое. Дезагрегированный инференс решает эту проблему: разбивает конвейер на отдельные этапы — префилл, декодирование и маршрутизацию. Каждый этап работает как независимый сервис, который можно обеспечивать ресурсами и масштабировать на собственных условиях. Команда VK Cloud перевела статью, в которой разбирается, как развернуть дезагрегированный инференс в Kubernetes. Здесь мы посмотрим на разные решения экосистемы, как они работают в кластере и что дают «из коробки».

    habr.com/ru/companies/vktech/a

    #vk_cloud #llm #kubernetes #inference #gpu #nvidia #дезагрегированный_инференс #оркестрация #автомасштабирование #планирование_подов

  5. [Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

    С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префилла и декодирования принципиально разные профили вычислений, но традиционные развёртывания заставляют их работать на одном оборудовании. В итоге GPU недозагружены, а масштабирование — негибкое. Дезагрегированный инференс решает эту проблему: разбивает конвейер на отдельные этапы — префилл, декодирование и маршрутизацию. Каждый этап работает как независимый сервис, который можно обеспечивать ресурсами и масштабировать на собственных условиях. Команда VK Cloud перевела статью, в которой разбирается, как развернуть дезагрегированный инференс в Kubernetes. Здесь мы посмотрим на разные решения экосистемы, как они работают в кластере и что дают «из коробки».

    habr.com/ru/companies/vktech/a

    #vk_cloud #llm #kubernetes #inference #gpu #nvidia #дезагрегированный_инференс #оркестрация #автомасштабирование #планирование_подов

  6. [Перевод] Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Траснформеры

    Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая статья А теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д. Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.

    habr.com/ru/articles/1039208/

    #ai #ml #gpu #gpu_вычисления #трансформеры #анализ_и_проектирование_систем

  7. Can Your PC Run GTA 6? Expected System Requirements

    Wondering if your PC can run GTA 6? Check the expected GTA 6 system requirements for PC, including GPU, RAM, SSD, and performance tips.

    Read more: mastanet.com/article/gta-6-pc-

    #gta #6 #pc #requirements #system #can #my #run #specs #recommended #minimum #gpu #ram #performance #dlss

  8. Someone shared this on one of my Discords.

    #History rhymes. For me, it's how I read that an #nvidia #gpu was more likely to be stored in a warehouse than be placed in a #datacenter. And my understanding how quickly #tech advances mean that there's a good chance that those chips will be old tech before the #datacenters are built.

  9. Someone shared this on one of my Discords.

    #History rhymes. For me, it's how I read that an #nvidia #gpu was more likely to be stored in a warehouse than be placed in a #datacenter. And my understanding how quickly #tech advances mean that there's a good chance that those chips will be old tech before the #datacenters are built.

  10. Someone shared this on one of my Discords.

    #History rhymes. For me, it's how I read that an #nvidia #gpu was more likely to be stored in a warehouse than be placed in a #datacenter. And my understanding how quickly #tech advances mean that there's a good chance that those chips will be old tech before the #datacenters are built.

  11. Someone shared this on one of my Discords.

    #History rhymes. For me, it's how I read that an #nvidia #gpu was more likely to be stored in a warehouse than be placed in a #datacenter. And my understanding how quickly #tech advances mean that there's a good chance that those chips will be old tech before the #datacenters are built.

  12. Someone shared this on one of my Discords.

    #History rhymes. For me, it's how I read that an #nvidia #gpu was more likely to be stored in a warehouse than be placed in a #datacenter. And my understanding how quickly #tech advances mean that there's a good chance that those chips will be old tech before the #datacenters are built.

  13. DRAйверы для GPU: как Kubernetes научился выделять устройства через стандартный API

    Device Plugin в Kubernetes сводит GPU к счётчику на узле: планировщик видит только количество устройств, но не их профиль, объём памяти или режим шаринга. Для ML-задач это быстро становится ограничением. Обучению нужны выделенные карточки целиком, инференсу — управляемые доли, а CI хватит и четвертинки NVIDIA H100 на пять минут. Dynamic Resource Allocation полностью меняет модель управления устройствами. GPU становятся сущностью с инвентарём, атрибутами и правилами выбора. В статье я разбираю устройство DRA и показываю миграцию с device plugin на примере кластера из 8 узлов × 8 NVIDIA H100 без полного переписывания манифестов. А ещё объясняю, почему мы в Deckhouse пишем свой DRA-драйвер. Разобраться с DRA

    habr.com/ru/companies/flant/ar

    #gpu #kubernetes #deckhouse_kubernetes_platform #ai #ml #dra #machine_learning

  14. DRAйверы для GPU: как Kubernetes научился выделять устройства через стандартный API

    Device Plugin в Kubernetes сводит GPU к счётчику на узле: планировщик видит только количество устройств, но не их профиль, объём памяти или режим шаринга. Для ML-задач это быстро становится ограничением. Обучению нужны выделенные карточки целиком, инференсу — управляемые доли, а CI хватит и четвертинки NVIDIA H100 на пять минут. Dynamic Resource Allocation полностью меняет модель управления устройствами. GPU становятся сущностью с инвентарём, атрибутами и правилами выбора. В статье я разбираю устройство DRA и показываю миграцию с device plugin на примере кластера из 8 узлов × 8 NVIDIA H100 без полного переписывания манифестов. А ещё объясняю, почему мы в Deckhouse пишем свой DRA-драйвер. Разобраться с DRA

    habr.com/ru/companies/flant/ar

    #gpu #kubernetes #deckhouse_kubernetes_platform #ai #ml #dra #machine_learning

  15. DRAйверы для GPU: как Kubernetes научился выделять устройства через стандартный API

    Device Plugin в Kubernetes сводит GPU к счётчику на узле: планировщик видит только количество устройств, но не их профиль, объём памяти или режим шаринга. Для ML-задач это быстро становится ограничением. Обучению нужны выделенные карточки целиком, инференсу — управляемые доли, а CI хватит и четвертинки NVIDIA H100 на пять минут. Dynamic Resource Allocation полностью меняет модель управления устройствами. GPU становятся сущностью с инвентарём, атрибутами и правилами выбора. В статье я разбираю устройство DRA и показываю миграцию с device plugin на примере кластера из 8 узлов × 8 NVIDIA H100 без полного переписывания манифестов. А ещё объясняю, почему мы в Deckhouse пишем свой DRA-драйвер. Разобраться с DRA

    habr.com/ru/companies/flant/ar

    #gpu #kubernetes #deckhouse_kubernetes_platform #ai #ml #dra #machine_learning

  16. DRAйверы для GPU: как Kubernetes научился выделять устройства через стандартный API

    Device Plugin в Kubernetes сводит GPU к счётчику на узле: планировщик видит только количество устройств, но не их профиль, объём памяти или режим шаринга. Для ML-задач это быстро становится ограничением. Обучению нужны выделенные карточки целиком, инференсу — управляемые доли, а CI хватит и четвертинки NVIDIA H100 на пять минут. Dynamic Resource Allocation полностью меняет модель управления устройствами. GPU становятся сущностью с инвентарём, атрибутами и правилами выбора. В статье я разбираю устройство DRA и показываю миграцию с device plugin на примере кластера из 8 узлов × 8 NVIDIA H100 без полного переписывания манифестов. А ещё объясняю, почему мы в Deckhouse пишем свой DRA-драйвер. Разобраться с DRA

    habr.com/ru/companies/flant/ar

    #gpu #kubernetes #deckhouse_kubernetes_platform #ai #ml #dra #machine_learning

  17. DeepSeek V4-Pro un 75% més barat. Permanent. 🚨

    El model que fa dagent Pro aquí a bgdell passa de costar 0.1-24 ¥/M tokens a 0.025-6 ¥/M (0.0035-0.83 $). És a dir, una quarta part.

    Especulació: els chips Ascend 950 de Huawei els permeten més eficiència. Sigui com sigui, la guerra de preus a la Xina continua. 🔥

    Això sí que és una rebaixa, no les falses ofertes del Black Friday. 😅

    eleconomista.com.mx/amp/tecnol

    #DeepSeek #IA #Preus #Xina #Huawei #GPU

  18. DeepSeek V4-Pro un 75% més barat. Permanent. 🚨

    El model que fa dagent Pro aquí a bgdell passa de costar 0.1-24 ¥/M tokens a 0.025-6 ¥/M (0.0035-0.83 $). És a dir, una quarta part.

    Especulació: els chips Ascend 950 de Huawei els permeten més eficiència. Sigui com sigui, la guerra de preus a la Xina continua. 🔥

    Això sí que és una rebaixa, no les falses ofertes del Black Friday. 😅

    eleconomista.com.mx/amp/tecnol

    #DeepSeek #IA #Preus #Xina #Huawei #GPU

  19. DeepSeek V4-Pro un 75% més barat. Permanent. 🚨

    El model que fa dagent Pro aquí a bgdell passa de costar 0.1-24 ¥/M tokens a 0.025-6 ¥/M (0.0035-0.83 $). És a dir, una quarta part.

    Especulació: els chips Ascend 950 de Huawei els permeten més eficiència. Sigui com sigui, la guerra de preus a la Xina continua. 🔥

    Això sí que és una rebaixa, no les falses ofertes del Black Friday. 😅

    eleconomista.com.mx/amp/tecnol

    #DeepSeek #IA #Preus #Xina #Huawei #GPU

  20. DeepSeek V4-Pro un 75% més barat. Permanent. 🚨

    El model que fa dagent Pro aquí a bgdell passa de costar 0.1-24 ¥/M tokens a 0.025-6 ¥/M (0.0035-0.83 $). És a dir, una quarta part.

    Especulació: els chips Ascend 950 de Huawei els permeten més eficiència. Sigui com sigui, la guerra de preus a la Xina continua. 🔥

    Això sí que és una rebaixa, no les falses ofertes del Black Friday. 😅

    eleconomista.com.mx/amp/tecnol

    #DeepSeek #IA #Preus #Xina #Huawei #GPU

  21. DeepSeek V4-Pro un 75% més barat. Permanent. 🚨

    El model que fa dagent Pro aquí a bgdell passa de costar 0.1-24 ¥/M tokens a 0.025-6 ¥/M (0.0035-0.83 $). És a dir, una quarta part.

    Especulació: els chips Ascend 950 de Huawei els permeten més eficiència. Sigui com sigui, la guerra de preus a la Xina continua. 🔥

    Això sí que és una rebaixa, no les falses ofertes del Black Friday. 😅

    eleconomista.com.mx/amp/tecnol

    #DeepSeek #IA #Preus #Xina #Huawei #GPU

  22. 20 лет видеокарт в цифрах: как росли FLOPS и TDP и кто вёл в дуэли NVIDIA vs AMD (+ открытый датасет на 13 500 GPU)

    Мы свели в одну базу характеристики 13 566 видеокарт — от GeForce 256 (1999) до Blackwell и MI355X (2025) — и посмотрели, как за 20 лет менялась индустрия, а не отдельные карты. FP32 флагманов вырос примерно в 400 раз, теплопакет дополз со 155 до 1400 Вт, зато производительность на ватт — в ~100 раз. По годам разобрали, кто на самом деле вёл в дуэли NVIDIA против AMD (спойлер: «сырой FP32» — метрика обманчивая, и AMD лидировала чаще, чем принято думать), и почему настоящая битва давно ушла в tensor-вычисления. А весь очищенный датасет (CSV + SQLite, 13.5k GPU + бенчмарки) выложили открыто под CC BY 4.0 — забирайте и копайте с нами.

    habr.com/ru/articles/1039278/

    #gpu #nvidia #amd #performance

  23. RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

    mehr auf Arint.info

    #Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

    https://x.com/Tono_Ken3/status/2058345423669182673#m

  24. RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

    mehr auf Arint.info

    #Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

    https://x.com/Tono_Ken3/status/2058345423669182673#m

  25. RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

    mehr auf Arint.info

    #Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

    https://x.com/Tono_Ken3/status/2058345423669182673#m

  26. RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

    mehr auf Arint.info

    #Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

    https://x.com/Tono_Ken3/status/2058345423669182673#m

  27. RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

    mehr auf Arint.info

    #Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

    https://x.com/Tono_Ken3/status/2058345423669182673#m

  28. [Перевод] Масштабирование LLM: от одного чипа до ЦОДа. Глава 2. Шардинг

    Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая глава находится по этой ссылке . Итак, с основами разобрались, давайте теперь разбираться с тем, как распихать матрицы по нескольким чипам, перемножить, а затем собрать это все в удобоваримый результат. По-умному это называется шардинг . Для начала давайте определимся, зачем этот шардинг вообще нужен. А нужен он потому что, как я уже писал в предыдущей статье, при работе с действительно большими нейронками матрицы и вектора практически никогда целиком не влезают в память одного GPU/TPU, поэтому их приходится разделять или шардировать. От того, насколько грамотно произведен шардинг, зависит то, насколько эффективно используется наш массив ускорителей, а следовательно и скорость тренировки, эффективность расхода вычислительных ресурсов и т.д. Возьмем для примера матрицу A размера [I, J] и распределим ее на 4 ускорителя:

    habr.com/ru/articles/1037918/

    #ai #ml #gpu #gpu_вычисления #анализ_и_проектирование_систем

  29. RT @0xSero: In den letzten 6 Monaten ist es zunehmend schwieriger geworden, H100/H200 GPUs zu bekommen. Ich habe seit 2-3 Monaten keine GPU-Pod mehr gesehen. Anjney Midha (@AnjneyMidha) teilt dies offenbar nicht jeder, also teile ich es hier, da Januar 2026: GPU-Mietpreise sind um 2x+ gestiegen. Wir erleben die "Corona der Rechenleistung", und das ganze Toilettenpapier ist weg. Bleibt gesund, ihr Forschenden — nitter.net/AnjneyMidha/status/

    mehr auf Arint.info

    #Forschung #GPU #H100 #KünstlicheIntelligenz #Rechenleistung #arint_info

    https://x.com/0xSero/status/2058649091496714481#m

  30. RT @AnjneyMidha: Offenbar ist sich nicht jeder dieser Tatsache bewusst, daher teile ich sie hier. Seit Januar 2026 sind die Preise für GPU-Mietungen um mehr als das Doppelte gestiegen. Wir erleben gerade die „Corona der Rechenleistung“, und das ganze Toilettenpapier ist aufgebraucht. Bleibt gesund, ihr Forschenden.

    mehr auf Arint.info

    #CloudComputing #Forschung #GPU #Rechenleistung #TechTrends #arint_info

    https://x.com/AnjneyMidha/status/2058611711867801989#m

  31. Oh great, because what we all needed was to turn #Firefox into a #DIY #electronics #workshop 🛠️🔌. Forget browsing, now you can solder circuits while crashing your browser with 47 open tabs. Who knew the future was toasting your #GPU in the name of innovation? 🤯
    firefox.com/en-US/landing/adaf #innovation #soldering #crash #HackerNews #ngated

  32. Oh great, because what we all needed was to turn #Firefox into a #DIY #electronics #workshop 🛠️🔌. Forget browsing, now you can solder circuits while crashing your browser with 47 open tabs. Who knew the future was toasting your #GPU in the name of innovation? 🤯
    firefox.com/en-US/landing/adaf #innovation #soldering #crash #HackerNews #ngated

  33. Oh great, because what we all needed was to turn #Firefox into a #DIY #electronics #workshop 🛠️🔌. Forget browsing, now you can solder circuits while crashing your browser with 47 open tabs. Who knew the future was toasting your #GPU in the name of innovation? 🤯
    firefox.com/en-US/landing/adaf #innovation #soldering #crash #HackerNews #ngated

  34. Oh great, because what we all needed was to turn #Firefox into a #DIY #electronics #workshop 🛠️🔌. Forget browsing, now you can solder circuits while crashing your browser with 47 open tabs. Who knew the future was toasting your #GPU in the name of innovation? 🤯
    firefox.com/en-US/landing/adaf #innovation #soldering #crash #HackerNews #ngated

  35. Oh great, because what we all needed was to turn #Firefox into a #DIY #electronics #workshop 🛠️🔌. Forget browsing, now you can solder circuits while crashing your browser with 47 open tabs. Who knew the future was toasting your #GPU in the name of innovation? 🤯
    firefox.com/en-US/landing/adaf #innovation #soldering #crash #HackerNews #ngated