home.social

#infiniband — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #infiniband, aggregated by home.social.

  1. Как мы внедряли QoS InfiniBand для приоритизации ML-обучений с точки зрения сети

    В статье расскажем, как мы командой Yandex Infrastructure внедрили QoS в сетях InfiniBand при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+.

    habr.com/ru/companies/yandex_c

    #infiniband #qos #ml #mlops #gpu #dragonfly+

  2. Нейро сети для самых маленьких

    Нейро сети для самых маленьких Каждый раз, когда вы говорите нейросети « Спасибо », вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная лампа за несколько секунд. Это первая статья из небольшого цикла, посвящённого сетям для AI/ML-кластеров и HPC. В этой серии мы коснёмся принципов работы и обучения моделей, параллелизации, технологий DMA и RDMA, сетевых топологий, InfiniBand и RoCE, а ещё пофилософствуем на тему общих и специальных решений. Конкретно в этой статье мы разберёмся, что представляет из себя нейросеть, как она работает, как происходит её обучение, а самое главное, почему для неё нужны сотни дорогущих GPU-карточек и какая-то особенная сеть. Рефрен сегодняшней истории: в нейросетях нет никакой магии — это просто множество простых операций над числами, которые выполняются на компьютерах со специальными чипами. Магии нет ни в том, как они работают, ни в той инфраструктуре, на которой они запускаются. Ныряем!

    habr.com/ru/articles/982820/

    #ai #ml #roce #infiniband #трансформеры #нейросети #llm #mlp #backpropagation

  3. Нейро сети для самых маленьких

    Нейро сети для самых маленьких Каждый раз, когда вы говорите нейросети « Спасибо », вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная лампа за несколько секунд. Это первая статья из небольшого цикла, посвящённого сетям для AI/ML-кластеров и HPC. В этой серии мы коснёмся принципов работы и обучения моделей, параллелизации, технологий DMA и RDMA, сетевых топологий, InfiniBand и RoCE, а ещё пофилософствуем на тему общих и специальных решений. Конкретно в этой статье мы разберёмся, что представляет из себя нейросеть, как она работает, как происходит её обучение, а самое главное, почему для неё нужны сотни дорогущих GPU-карточек и какая-то особенная сеть. Рефрен сегодняшней истории: в нейросетях нет никакой магии — это просто множество простых операций над числами, которые выполняются на компьютерах со специальными чипами. Магии нет ни в том, как они работают, ни в той инфраструктуре, на которой они запускаются. Ныряем!

    habr.com/ru/articles/982820/

    #ai #ml #roce #infiniband #трансформеры #нейросети #llm #mlp #backpropagation

  4. RE: mastodon.social/@h4ckernews/11

    This is technically impressive. I didn't expect to see RDMA support on macOS, let alone running over Thunderbolt. They seem to provide a standard InfiniBand Verbs API but I couldn't find the sources of their driver (rdma_en5) and libraries yet. I guess they won't release the sources.

    #RDMA #InfiniBand #macOS

  5. Five years after Intel spun off its #Omni-Path #interconnect tech into Cornelis Networks, its 400Gbps CN5000 line of switches and NICs is finally ready to do battle with its long-time rival, Nvidia's #InfiniBand www.theregister.com/2025/06/09/o... #HPC #AI via @theregister.com

    Omni-Path is back to take on I...

  6. Apparently if you push a wookie, you can expect to get a cookie in response.

    I'm not sure I'll be trying this one myself.

    #rdma #infiniband

  7. What If #OmniPath Morphs Into The Best #UltraEthernet?
    Many #HPC centers in #US – importantly #Sandia and #LawrenceLivermore as well as the Texas Advanced Computing Center (#TACC) – wanted an alternative to #InfiniBand or proprietary interconnects like #HPE/#Cray’s Slingshot, and they have been funding the redevelopment of Omni-Path. And now, #CornelisNetworks is going to be intersecting its roadmap with Omni-Path switches and adapters with the #UEC roadmap.
    nextplatform.com/2024/06/26/wh

  8. What If #OmniPath Morphs Into The Best #UltraEthernet?
    Many #HPC centers in #US – importantly #Sandia and #LawrenceLivermore as well as the Texas Advanced Computing Center (#TACC) – wanted an alternative to #InfiniBand or proprietary interconnects like #HPE/#Cray’s Slingshot, and they have been funding the redevelopment of Omni-Path. And now, #CornelisNetworks is going to be intersecting its roadmap with Omni-Path switches and adapters with the #UEC roadmap.
    nextplatform.com/2024/06/26/wh

  9. What If Morphs Into The Best ?
    Many centers in – importantly and as well as the Texas Advanced Computing Center () – wanted an alternative to or proprietary interconnects like /#Cray’s Slingshot, and they have been funding the redevelopment of Omni-Path. And now, is going to be intersecting its roadmap with Omni-Path switches and adapters with the roadmap.
    nextplatform.com/2024/06/26/wh

  10. What If #OmniPath Morphs Into The Best #UltraEthernet?
    Many #HPC centers in #US – importantly #Sandia and #LawrenceLivermore as well as the Texas Advanced Computing Center (#TACC) – wanted an alternative to #InfiniBand or proprietary interconnects like #HPE/#Cray’s Slingshot, and they have been funding the redevelopment of Omni-Path. And now, #CornelisNetworks is going to be intersecting its roadmap with Omni-Path switches and adapters with the #UEC roadmap.
    nextplatform.com/2024/06/26/wh

  11. What If #OmniPath Morphs Into The Best #UltraEthernet?
    Many #HPC centers in #US – importantly #Sandia and #LawrenceLivermore as well as the Texas Advanced Computing Center (#TACC) – wanted an alternative to #InfiniBand or proprietary interconnects like #HPE/#Cray’s Slingshot, and they have been funding the redevelopment of Omni-Path. And now, #CornelisNetworks is going to be intersecting its roadmap with Omni-Path switches and adapters with the #UEC roadmap.
    nextplatform.com/2024/06/26/wh

  12. Eleven years ago I volunteered to add native / support to . At the time I was working on high-performance networking and I thought it was a nice challenge... but shortly afterwards I landed my job at @mozilla and never finished it.

    Since then I've been contacted multiple times by people who wished to finish my work but none succeeded. Last time was yesterday. Maybe I should give it a spin again: zeromq-dev.zeromq.narkive.com/