Telegram Web Link
You gave ChatGPT the following prompt to help with your lab report: A Verilog module that simulates
a character's movement on a 2D-plane. The module takes four inputs for four directions (direction inputs) the character can move to. The module outputs x and y coordinates. The character stays in the same coordinate if none of the direction inputs are set. Initial coordinates (set on reset) are 0, 0. Stride determines how many units the character moves in one step.
👍15
Ответ👆
6👍2
SIMD Instructions Considered Harmful
Пост Дэвида Паттерсона и Эндрю Уотермана, 2017

Классная статья о развитии векторных архитектур и проблемах, с которыми столкнулись SIMD-расширения от Intel и MIPS, а также о концепции Scalable Vector, лёгшей в основу ARM SVE и RISC-V Vector.
👍168
How Google Lies About the Power of Its Latest Chips, Compared to El Capitan

А что тут у нас? Опять манипуляции с термином FLOPS?🐱

В статье подробно разбирается, как Google в своём пресс-релизе утверждает, что их кластер Ironwood мощностью 42,5 Exaflops (в FP8) в 24 раза превосходит суперкомпьютер El Capitan, производительность которого составляет 1,7 Exaflops (в FP64, по LINPACK). На деле это сравнение некорректно, поскольку Google использует пиковое значение в формате FP8, применимое для AI-задач, тогда как для El Capitan приводится стандартизированная производительность в формате FP64, применимая к научным вычислениям.

Картинка к посту прекрасно описывает мое отношение к маркетингу вокруг термина FLOPS 😈

Перес-релиз от Google - Ironwood: The first Google TPU for the age of inference

p.s. и другой "прекрасный" термин от Nvidia - AI TOPS
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20😁7👍44
В продолжении темы Vector Length Agnostic хочу поделиться интересными видеолекциями из серии Arm software developers

Эти видеолекции посвящены особенностям и возможностям нового векторного расширения Arm Scalable Vector Extension (SVE).
Рассматриваются ключевые преимущества SVE, включая аппаратно-независимую длину векторов, расширенные инструкции управления памятью и векторами (gather/scatter), механизмы предикации и спекулятивного исполнения, а также особенности программирования векторного сопроцессора.

1) Leveraging SVE Vectorization for HPC Workloads
2) Introduction to Arm SVE
👍943👀1
Думаю, многие из вас уже знакомы с проектом pulp-platform, в котором представлены различные готовые IP-блоки: от простейших FIFO и LZC до сложных процессорных систем, таких как Snitch Cluster.

Сегодня хочу поделиться с вами GitHub-аккаунтом лаборатории открытых компьютерных архитектур, LOCA из Барселонского суперкомпьютерного центра BSC.

На GitHub-аккаунте BSC LOCA можно найти множество интересных проектов на любой вкус и цвет. Вот несколько примеров:

1. Sargantana — in-order RISC-V процессор, способный загрузить Linux.
2. SAURIA — тензорный ускоритель на основе систолического массива (Systolic Array) с поддержкой формата FP16.
3. Memory Management Unit (MMU) — базовый строительный блок для разработки процессорных ядер с поддержкой Linux. Реализована поддержка формата виртуальной адресации SV39.
4. L1 Instruction Cache — кеш инструкций первого уровня.

Подробнее c портфолио проектов ознакомиться можно здесь: https://github.com/bsc-loca

Помимо GitHub-репозиториев, у BSC также есть официальный каталог, в котором собраны ключевые проекты и инициативы в области RISC-V и полупроводниковых технологий:
BSC RISC-V Technologies Catalogue — посмотреть PDF
18🔥139👍99
70% Size, 100% Accuracy:
Lossless LLM Compression for Efficient GPU
Inference via Dynamic-Length Float


Новый день - новый формат флота. В этот раз с динамической экспонентой.

В статье представлен метод Dynamic-Length Float (DFloat11) — фреймворк сжатия весов больших языковых моделей без потери точности, который позволяет снизить объём памяти и при этом сохраняет совместимость с эффективным выполнением инференса на GPU.
Эксперименты на популярных моделях, таких как Llama-3.1, Qwen-2.5 и Gemma-3, подтвердили эффективность подхода, который значительно повышает пропускную способность и окно контекста.

Что-то похоже было у Tesla Dojo Technology - Configurable Float8 (CFloat8) пару лет назад.

CFloat:
Делит фиксированные 8 бит между мантиссой и экспонентой, а также использует настраиваемый сдвиг экспоненты, но не использует энтропийное кодирование.

DFloat11:
Сжимает данные за счёт энтропийного кодирования экспоненты, что позволяет уменьшить общий размер хранения без потери точности - не изменяет ширину поля мантиссы.

https://arxiv.org/pdf/2504.11651

p.s. А мой любимый Posit всё так и не находит и скорее всего не найдет применения в современных задачах для AI/ML👋
Please open Telegram to view this post
VIEW IN TELEGRAM
👀13👍6😁2
16, 8, and 4-bit Floating Point Formats – How Does it Work?

Классная статейка про работу с low-precision флотами.
Также упоминаются более продвинутые методы, применяемые в больших моделях, вплоть до 2-битного и тернарного представления весов.
👍21
Понедельник день тяжелый 😠
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16👍4
An alternative design would have been to first convert from FP32 to BF16, rounding to odd, then use the instructions defined in the previous section to convert to OFP8. However, FP32 to OFP8 conversion is common enough to justify the direct conversion.


Интересный программный хак упомянули в сабсете векторных RISC-V инструкций для поддержки BF16 и операций преобразования для типов данных OFP8.

Чтобы избежать необходимости аппаратной реализации quad‑narrowing при конверсии FP32 в OFP8, можно использовать следующую последовательность из двух шагов, при этом сохраняя высокую точность операций конверсии:

1) FP32 → BF16 с обязательным режимом округления rounding to odd.

2) BF16 → OFP8 с требуемым режимом округления.

Дополнительные материалы по теме:

Черновик спецификации Zvfbfa доступен на GitHub.

Arm A64 Instruction Set Architecture: FCVTXN, FCVTXN2.
👍83
Открытое RISC-V ядро Sargantana, разработанное инженерами из группы Laboratory for Open Computer Architecture (LOCA) при Barcelona Supercomputing Center (BSC), получило масштабное обновление:

🎉 RISC-V Vector Extension (RVV) версии 1.0 (пока без поддержки инструкций с конфигурации длины вектора, для LMUL > 1 и без векторных инструкций для работы с плавающей точкой).

Подробнее ознакомиться с обновлением можно в исходниках проекта:

Исходный код ядра Sargantana
Исходный код VPU
👍163🔥1
Basilisk: A 34 mm² End-to-End Open-Source
64-bit Linux-Capable RISC-V SoC in 130nm BiCMOS


Linux-Capable процессор полностью спроектированный при помощи открытых EDA инструментов.

Для верификации, вероятно, всё ещё применялись коммерческие инструменты, однако маршрут от RTL до GDSII полностью построен на инструментах с открытым исходным кодом.

Результаты синтеза, техпроцесс IHP130:
At the nominal 1.2 V
voltage, Basilisk reaches a clock frequency of up to 62 MHz.
At 1.64 V, we reach Basilisk’s peak frequency of 102 MHz.


Из интересного — можно посмотреть ASIC-оптимизированную имплементацию Fused multiply-add модуля, написанного не через "+" и "*", а через CSA tree. Так что если есть желание покопаться в low-level bit-hacking и посмотреть, что же такое Wallace tree, Booth encoding, Sklansky parallel-prefix adder — welcome.
21🔥129👍2
Сложно переоценить влияние компании Intel на современную полупроводниковую индустрию и подходы, которые сегодня применяются в дизайн-центрах по всему миру. Многие из этих подходов были впервые внедрены именно в Intel. Одной из таких важных концепций является «War Room».

Цена ошибки при выпуске микросхем крайне высока, но не менее критичен и срыв сроков. Очерёдность tape-out (финальной передачи дизайна микросхемы на производство) планируется не только условиями контракта, но и загруженностью фабрики. Поэтому перенести дату производства, если не невозможно, то крайне сложно.

В процессе подготовки микросхемы задействованы команды логического проектирования, верификации и физического дизайна. И чем ближе дата того самого RTL freeze (момента, после которого описание аппаратуры нельзя изменять), тем выше накал страстей при взаимодействии этих команд. В определённый момент уже нет возможности вносить исправления в чип, так как команде физического дизайнга необходимо иметь стабильное и неизменяемое описание аппаратуры.

Именно на этом этапе возникают критически важные вопросы: какой баг является действительно важным и требует немедленного исправления, и как его устранение повлияет на график подготовки продукта к выпуску? Для быстрого анализа таких ситуаций и оперативного принятия решений вводится понятие War Room.

Специалисты в полупроводниковой отрасли, знакомые с терминами tape-out и RTL freeze, отлично понимают важность и необходимость такого подхода.

Подробнее о применении концепции War Room и других интересных аспектах разработки процессоров можно прочитать в книге «The Pentium Chronicles».
19👍13👀8🔥2😁1
мы?
😁5👍3
Please open Telegram to view this post
VIEW IN TELEGRAM
61
В канале теперь работает функция личных сообщений админу каналу то есть мне, так что если у вас есть какие-либо вопросы/предложения, которые вы хотите задать не в комментариях, а в личных сообщениях - welcome

p.s. работает только на последней версии телеграма, на телефоне у меня апдейт уже появился, а на ПК еще не завезли😑
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍4🎉3👀1
А чтобы не скучали, вот вам пейпер на 40 страниц с исчерпывающим обзором современных подходов к проектированию систолических массивов.

A Survey of Design and Optimization for Systolic Array-based DNN Accelerators
👍2712👀8🔥1😁1
Если всё ещё не поняли, что такое чиплеты, почему о них все говорят и зачем они нужны, — вот классная статья на эту тему👀

Chiplets and the Future of System Design
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20125🔥4
2025/10/23 02:58:51
Back to Top
HTML Embed Code: