#vliw — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #vliw, aggregated by home.social.
-
Hello XDNA!
We're documenting how to program AMD's NPUs in Ryzen AI chips.
Our website covers the ISA, register files, operation latencies, and hand-optimized assembly kernels for tensor contractions.
Measured single-compute-tile throughput:
• XDNA1 (Ryzen 7 8700G): 398 BF16 GFLOPS (86% of peak)
• XDNA2 (Ryzen AI Max PRO 390): 1760 BFP16 GFLOPS (95% of peak) -
Может ли устареть инкремент: обзор выполнения оператора на современных вычислительных платформах
Привет, Хабр! В ходе своей работы я часто изучаю сам и обучаю других писать и оптимизировать код. Однако когда я рекомендую в своих материалах «делайте так», я не всегда уверен, что тиражирую актуальную и достоверную информацию. Для подтверждения своих слов я изучаю и цитирую авторитетные источники, рекомендуемые в подборках книг, материалах конференций и курсах по C и C++. Тем не менее этого оказывается недостаточно. Скачав и углубившись в руководства по архитектуре, системам команд и оптимизации с официальных сайтов производителей вычислительных устройств, я обнаруживаю, что информация расходится. Возникает проблема: я перестаю чувствовать уверенность в своём опыте и в материале, который хотел тиражировать другим. В этой статье мы разберём один из таких примеров. Возьмём небольшой пример кода, сформируем рекомендации по его эффективному написанию и оценим, насколько сложно (и возможно ли вообще) обосновать их применение. Для этого мы проанализируем рекомендации учебников по программированию, оценим их качество и актуальность. Если они окажутся недостаточными, то обратимся к руководствам производителей «железа». Рассмотрим «простой» пример цикла, выполняющего сложение двух массивов. Слово «простой» взято в кавычки не случайно. Даже тезисное обсуждение эффективных методов сложения массивов на GPU (NVIDIA или AMD) с коллегами занимает несколько часов. Полноценно раскрыть эту тему в одной статье невозможно. Поэтому сосредоточимся лишь на части примера – операции инкремента «i++» в управляющей части цикла. Для анализа обратимся к книгам, рекомендованным на профильных it-ресурсах: Хабр, Яндекс.Практикум, Proglib и др. Чтобы уточнить информацию, рассмотрим официальные руководства следующих производителей вычислительных устройств: CISC (Intel, AMD), VLIW (МЦСТ, Texas Instruments), RISC (Apple, Qualcomm, MediaTek и др.) и GPU (NVIDIA, AMD).
-
Моё знакомство с процессором Эльбрус-8СВ. Оптимизирую сложение массива байтов
Месяц назад мне в телеграм написал человек и предложил доступ к системе с процессором Эльбрус-8СВ. И конечно же я согласился. Так как мне интересно. Не каждый день неизвестные люди предлагают доступ к удалённым хостам. Разве может что-то пойти не так?
https://habr.com/ru/articles/978730/
#эльбрус8св #эльбрус #e2k #vliw #simd #интринсики #ассемблер #си #оптимизация_кода
-
@rl_dane @mdc I wonder how #uxn opcodes compare to what F18 chips from #GreenArrays have.
Only 32 opcodes, 8 of them special (can be used in th last 3 bits of a kind of 18-bit #VLIW word) versus 256 opcodes of #uxn
#varvara offers much more high level i/o, F18A has 4 interchip ports, GPIO, A/D interface and SERDES, which can be used to build things like Ethernet for example.
varvara-fpga does not implement most varvara I/O features at all.https://www.greenarraychips.com/home/documents/greg/DB001-221113-F18A.pdf
https://www.greenarraychips.com/home/documents/greg/PB004-110412-F18A-IO.pdf
-
Эльбрус-2 в сравнении с основными суперкомпьютерами 1960–1980-х годов
Многопроцессорный вычислительный комплекс (МВК) «Эльбрус-2», созданный в СССР в 1984–1985 годах, является выдающимся достижением советской вычислительной техники и заслуживает высокой оценки по ряду ключевых параметров — числу процессоров, архитектуре и производительности, существенно опережающим многие зарубежные аналоги своего времени.
-
@DosFox it’s Solo, a cancelled Transmeta SoC, which paired a Crusoe with peripherals including a graphics adapter. Alas, before we got it back Microsoft raised the Windows graphics requirements rendering it nonviable. A pair of energetic souls did bring it up to a Windows desktop, but that was the end of Solo. So tragic. (A check from Donald Knuth is photo bombing the corner)
-
First time I supervised a master thesis, man I am getting old.
It was extremely fun though to see someone explore #DSP applications and mapping them to a #NPU with great success.
While perhaps no surprise as both use streaming processing, dataflow architectures and #VLIW microarchitectures. It is great to have the NPUs available in modern processors effectively allowing for accelerated #SDR or #DSP on mobile devices.
You can find the work here: https://repository.tudelft.nl/record/uuid:8dc57766-6205-4eb6-a8b2-48550198a9ee
-
TIL that the very inventor of #VLIW, Joseph A. Fisher, has the definitive text on it: Embedded Computing: A VLIW Approach to #Architecture, #Compilers and Tools.
It seem to describe a nop compression scheme that can be seem as doing the same thing the modern GPU is doing.
-
У VLIW длиннее x86: Itanium в шаге от величества, Эльбрус — подержите моё пиво, тайны PS2
Разбираем архитектуру VLIW (Very Long Instruction Word). Поговорим о предтечах, погрузимся в дух 1980-1990-х, узнаем, как Itanium стал Itanic’ом, как архитектура жила, живёт и будет жить. Ах да, будет про Эльбрус и даже PlayStation 2. Осторожно: текст большой, интересный и может заставить вас пересмотреть взгляды на процессорные архитектуры. Дропдаун
https://habr.com/ru/companies/servermall/articles/885310/
#Itanium #vliw #архитектура_процессоров #cpu_architecture #intel #эльбрус #архитектура #ps2
-
Thinking about selling my Sun TAAC-1 VLIW board. Introduced in 1987, it was a coprocessor for VME Sun-3 systems, and the world's first "Board Level General-Purpose Graphics Processing Unit", according to some.
Approximately 400 were made.
Photogenic little beastie, among other things.
If you're interested, please email: [email protected]
-
[Перевод] Суперкомпьютер Эльбрус-3
История Эльбрус-3 В период с 1984 по 1985 год, когда завершалась разработка первых процессоров «Эльбрус-2», команда Эльбруса под руководством Бориса Арташесовича Бабаяна приступила к предварительным работам над машинами следующего поколения. В 1985 году ИТМиВТ получил государственный заказ на проектирование и создание машины с теоретической максимальной производительностью в 10 ГФлопс. Основные требования к «Эльбрусу-3» оставались такими же, как и к «Эльбрусу-1» и «Эльбрусу-2». Особое внимание уделялось высокой производительности как в научных, так и в универсальных вычислениях, надёжности и совместимости программного обеспечения с ранними моделями «Эльбруса». В конструкции «Эльбруса-1» и «Эльбруса-2» присутствовал ряд недостатков, которые делали их неподходящими в качестве основной машины с требуемой производительностью, необходимой в государственном применении. Помимо архитектурных ограничений в производительности, требовалось получать больше информации о выполнении программного кода и зависимостях команд и данных в момент исполнения, которая не была доступна динамическому планировщику в момент исполнения. Планировщик мог учитывать в лучшем случае до 32 инструкции наперёд (общее количество буферных станций, содержащих инструкции и операнды или адреса операндов в каждом функциональном блоке). Часто этого было недостаточно, особенно в случае передачи условного управления (ветвления кода). Более того, динамическое планирование существенно затрудняло отладку. Невозможно было статически определить точный порядок исполнения инструкций. Вариативность в планировании одного исполнения к другому также влияли на показатели производительности. Бабаян отмечает, что ему было крайне трудно демонстрировать работу системы приёмной комиссии по причине того, что не удавалось добиться повторяемости результатов измерения производительности. По этим причинам было решено использовать конвейерные функциональные блоки и сосредоточиться на статическом планировании исполнения команд.
-
Микропроцессоры и Инопланетяне
3 июля в ТАСС состоялась пресс-конференция , посвященная открытию исходных кодов некоторой части системного ПО для микропроцессоров Эльбрус. Само по себе событие сложно не воспринимать положительно, вне зависимости от цели и полезности того, что было выложено на публику. Но вот выступления некоторых участников пресс-конференции, носили, не побоюсь этого слова, инопланетный характер. И если представитель Минпромторга и исполнительный директор ассоциации разработчиков программных продуктов «Отечественный софт» не выходили за рамки присущего такого рода мероприятиям дежурных заявлений в духе «за всё хорошее, против всего плохого, углубить и расширить», то люди, очень похожие на представителя МЦСТ Константина Трушкина и главу ассоциации АРПЭ Ивана Покровского, безусловно, заинтересовали бы агентов K и J. Но т.к. в эпоху санкций и ограничений люди в чёрном не смогут прилететь в Москву, придётся разоблачать пришельцев самостоятельно.
-
@m20k Ha, I got triggered by the #VLIW keyword. I never intended that "it couldn't pan out today", merely that there were some issues with our approach. I've progressed down the VLIW.
Regarding the SW JIT: it works (behold Rosetta 2), but you need to address the cold code problem and that requires *some kind* of hardware solution until you have enough data to kick in the SW JIT. That could be a simple in-order core, hardware assisted translation, ... anything better than an interpreter.
-
@m20k @moonchild (Of course, it depends a little on what you considered the "fundamental idea").
If you take "SW #JIT and in-order #VLIW" as core, then, sure, that might not have scaled so well, but if the core idea is "amortize #translation into a different #ISA", then a lot of #µOp caches can considered to already be there.
#NVIDIA significantly improved the cold code performance in Denver though.