Сиолошная 3001

Я отупел от прочтения Hierarchical Reasoning Model [2025]

На бумаге идея следующая - делаем такую модель, которая состоит из 2 компонент - "медленной" и "быстрой". Медленная будет применяться реже и отвечать за более "глобальное" планирование, а вот быстрая будет дорабатывать детали. Как обычно, приводится неуместная аналогия с человеческим мозгом, который как бы умеет оперировать на разных частотах одновременно. Работает примерно так:

Есть 2 скрытых состояния, который обновляются двумя разными трансформерами. То, что авторы называют forward pass, состоит из N * T шагов. На каждом из них "быстрая сеть" берёт быстрое состояние, медленное состояние, эмбеддинг входа, и выдаёт обновлённое быстрое состояние. Раз в T шагов просыпается медленная сеть, берёт быстрое и медленное состояние, и выдаёт новое медленное состояние. Спустя N * T шагов применяется модель, которая превращает медленное состояние в выходное предсказание.

Авторы говорят - пробрасывать градиенты сквозь всю эту схему - скукотища и занимает кучу памяти. Решение нашли интересное - забить. Градиенты текут только во время последнего шага, для которого все предыдущие состояния считаются константой.

На вопрос "Схуяли?" авторы отвечают "Consider an idealized HRM behavior", приводят пачку невыполняющихся в данной ситуации формул и вуаля - 1-step gradient approximation готов. Unbiased, мамой клянусь.

На самом деле, то, что авторы называют forward pass, это в реальности только 1 шаг применения, и настоящий forward pass это несколько вот этих циклов по N*T шагов, вплоть до 16. Там ещё есть обучаемый на основе Q-learning модуль, который может сказать моделям "Астанавитесь" и тем самым сэкономить ресурсы, если модель нашла решение быстрее.

Вот этот самый 1-step approximation применяется на каждом шаге внешнего цикла, то есть получается, градиенты сквозь время всё-таки пробрасываются, но делается это раз в N*T шагов. По мнению авторов, это уже не так скучно.

Схема вроде работает и показывает неплохой результат, несмотря на подозрительную схему аппроксимации градиентов. Но пока вам рассказывали про сложную схему, фокусник утаил главную деталь. Знаете, какое значение N и T используется во всех экспериментах? Знаете, во сколько раз так называемая быстрая модель применяется чаще, чем медленная? Знаете, сколько памяти экономит one-step gradient approximation?

Ответ убил: N=2, T=2.

Вся эта мишура с "иерархичностью" не имеет большого смысла. Один шаг применения HRM - это суммарно 6 вызовов трансформера. Там в коде есть for-loop размером в 4 строки, который суммарно вызывает выполняет 4 вызова модели. Посмотрите на картинку поста - там есть многоточия между применениями L Module, которых в реальности нет! На иллюстрации буквально весь граф.

Думаете, в статье есть Ablation о том, как разные значения N и T влияют на результат? Нет, интересно почему? Может быть, от очень честной one-step аппроксимации у модели разболелась голова? Вместо этого авторы оформили куда более интересный подгон - анализ того, как мозг мыши можно представить в виде HRM.

Авторы ARC-бенчмарка, на котором был зарепорчен основной результат, провели анализ модели, и ключевые факты следующие:

- Если вместо HRM применить обычный трансформер такое же количество раз, результат получается почти такой же.
- Буст в качестве достигается засчёт того, что модель применяют много раз. Скор между 1 применением и 16 отличается примерно в 2 раза.

Очередная почти ничем не отличающаяся от бейзлайна поделка от великих учёных, которая не имеет никакого практического смысла, зато в сотый раз похоронившая трансформеры, согласно экспертам в телеграм-канале и в твиттере (в момент выхода). Вкуснота.

@knowledge_accumulator

👍129🌚45🤣3825🔥12🤡10😈3❤‍🔥22👎1👨‍💻1

17K views11:40

Сиолошная

Вижу некоторое количество сравнений текущего бума инвестиций в AI-инфраструктуру и инвестиций в железные дороги в США в 19-м веке. Так как я историей никогда не интересовался, то ничего не знаю про последнее, и иду читать материал / отправлять DeepResearch писать отчёты, чтобы лучше разобраться и понять. Может быть по результатам этого накатаю какой-то пост.

Но поделюсь тем, на что наткнулся тут — график размера американской железнодорожной сети по годам. В 1873-м году наступил кризис (читать в Википедии тут), тесно связанный с инвестициями в железные дороги. TLDR как и всегда: выпускали бонды, строили дороги, что-то произошло (государство решило уйти от серебряного стандарта) и не смогли расплатиться.

Однако на графике видно, что несмотря на кризис, спустя какое-то время, темпы не то что вернулись к прежним, а даже превзошли их. Все ринулись строить железную дорогу с ещё большей силой.

«рыночный крах» != «хайп / скам / технология с низким потенциалом»

👍79🤔62❤‍🔥237🤡6🌚4🎉3💩1👨‍💻1

18.9K viewsedited 12:33

Сиолошная

[сначала прочитайте пост ниже, так работает репост в телеге 🤷‍♂️]
«Еще раз это не мошенничество - это типичная схема экосистемного кросс-субсидирования. Но для она может маскировать реальный рыночный спрос, особенно если такие внутренние потоки велики»

В случае этой картинки:
— у OpenAI весь спрос внешний; есть маленькая доля продажи в Microsoft, но последние достаточно плохо реализуют потенциал.
— на чипы Nvidia есть спрос от других AI-игроков вне схемы (Google, META, Anthropic, пока что китайские компании)
— Microsoft, Oracle, Intel и AMD делают огромные бизнесы, которые до недавнего времени не были связаны с AI (я понимаю что речь в оригинальном посте про рост ценности из-за AI, поэтому честно брать только прирост за последнее время, и мб он как раз может быть раздут).

Так что самый главный вопрос в том, продолжится ли прямая линия развития моделей и спроса на них, как нам рисуют OpenAI. Поживём — узнаем!

244👍30🤔12🤡3🌚3👎1

17.7K viewsedited 19:34

Сиолошная

Forwarded from Strategic move: стратегия, продукт и AI (Julia Bilinkis)

В прошлых постах мы посмотрели, как работают цепочки создания ценности. В этом я напишу про интересный феномен, достойный научной статьи: пример того, как цепочки создания ценности могут «сворачиваться в петлю», и почему анализ стратегических позиций в цепочке критически важен.

В классической цепочке создания ценности капитал и добавленная ценность движутся по линии:
инвесторы → производители → посредники → конечные пользователи.

Но есть феномен, который называют круговым финансированием, и именно это мы сейчас видим на рынке AI: капитал ходит по кругу между крупными игроками, которые одновременно инвестируют друг в друга и являются друг другу клиентами. Ну или короче компании покупают у себя самих, создавая видимость бурного роста.

Когда Microsoft одновременно крупнейший клиент, инвестор и облачный оператор для OpenAI, невозможно чётко определить, где в цепочке создаётся ценность, а где просто перераспределяются инвестиции. Или Nvidia - не просто поставщик. Она инвестирует в OpenAI, продаёт OpenAI чипы.

Что мы в итоге имеем: когда стратегические позиции выстраиваются на внутреннем контуре, а не на внешнем рынке, цепочка становится хрупкой: любое падение реального спроса разрушает весь круг финансирования. Дальше возможны два сценария:
1. реальный спрос догоняет инвестиции - экосистема устаканивается;
2. или пузырь лопается, как в 2000-м, когда обнаруживается, что «внешнего» рынка недостаточно, чтобы поддерживать такую архитектуру.

Еще раз это не мошенничество - это типичная схема экосистемного кросс-субсидирования. Но для она может маскировать реальный рыночный спрос, особенно если такие внутренние потоки велики. Наши любимые экосистемы зачастую так и работают, раздувая свои финансовые показатели.

👍78🤡24❤‍🔥8🔥8👎4🤔1💩1

17K views19:34

Сиолошная

Forwarded from Техасский Вестник

Кадры вчерашней посадки Starship S38 в Индийском океане. Видно прогар обоих баков, утечку метана и кислорода, слой оксидации на теплозащите и пожар из грузового отсека — все места, где сняли плитки перед полётом

1🔥184🤯39❤‍🔥2010🌚3💩1👨‍💻1

19.5K views19:46

Сиолошная

Уже пару недель думаю над следующим лонгом про мою точку зрения на беспрецедентные инвестиции в OpenAI и инфраструктуру. Если делать TLDR идеи, то это звучит как «всё норм если модели продолжат расти в качестве, а Sama продолжит прогибать людей под себя». Однако важно, чтобы «расти в качестве» перерастало в выручку (не обязательно прибыль) — чтобы продолжать растить инфраструктуру датацентров.

У OpenAI очень амбициозный план роста выручки в ближайшие 5 лет. Epoch.AI в свежей рассылке постарались сравнить текущее положение и план с уже состоявшимися успешными компаниями.

Выручка OpenAI впервые превысила $1 млрд в 2023 году и превысит $10 млрд в 2025 году. Это впечатляющий, хотя и не беспрецедентный рост — несколько других компаний в истории демонстрировали сопоставимые темпы роста, см. картинку 1. Всего таких компаний было 4 за последние 50 лет истории рынка США, и OpenAI стали пятой.

Из этих четырёх компаний только Google смогла затем достичь уровня выручки в $100 млрд, в который целится OpenAI уже в 2028м году. Остальные даже не превысили порог в $40 млрд (каждая, не в сумме).

Сейчас, если делать оценку по буквально 3 точкам, OpenAI растёт в 3 раза в год, в то время как рост Google был около x2 в год в тот период, когда её выручка впервые превысила $10 млрд. Таким образом (если не учитывать Moderna и ковид) OpenAI может назвать самой быстрорастущей компанией, достигшей выручки в $10 млрд.

План OpenAI продолжить рост выручки в 2,3 раза в 2026 году, в 2 раза в 2027 году и в 1,6 раза в 2028 году. В истории пока не было примеров столь стремительного роста компаний с уже существенной выручкой.

На американском рынке есть 7 компаний, которые за последние 50 лет выросли до 100 миллиардов годовой выручки, и 6 из них сделали это в последние 15 лет (см. картинку). Самыми быстрыми компаниями, пересёкшими эту границу, были Tesla и Meta — за семь лет, за ними идут Nvidia, Apple и Amazon — за восемь лет, Walmart — за девять и Google — за десять лет. Среднегодовой коэффициент роста доходов этих компаний в период бурного роста составил x1,3.

В этом смысле цели OpenAI означают беспрецедентно высокие темпы роста.

Единственный пример более быстрого роста, который удалось найти автору — это ByteDance, материнская компания TikTok (привет, Sora 2 😱). В долларовом выражении её выручка впервые превысила $10 млрд в 2019 году и достигла $100 млрд уже в 2024 году, то есть всего за пять лет.

Кажется, что это не аргументы в пользу OpenAI, которые хотят совершить квантовый скачок 10 -> 100 за 3 года. Один из доводов в их поддержку заключается в том, что в экономике может существовать тенденция к ускорению таких достижений. По мере роста ВВП подобные результаты становятся всё более достижимыми. С 2015-го года ВВП вырос на 61% (охренел когда посчитал, но с учётом инфляции 25%).

Так что возможно, что если OpenAI достигнет «всего лишь» уровня в $50 млрд в 2028-м году — что само по себе впечатляющий результат — ей просто придётся замедлить темпы строительства дата-центров, а в остальном компания останется финансово здоровой. А может быть даже и этого не придётся делать, если часть подрядчиков не смогут выполнить свои обещания в срок и сдать датацентры.

Но главное запомнить сейчас, насколько невероятным кажется план OpenAI, чтобы с удивлением смотреть, когда в 2028-м году Васян будет говорить «ну так очевидно что они и 150 миллиардов сделают, с такой-то технологией любой дурак сможет, чё там».

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍132🔥33🤡1412🤯119🌚7❤‍🔥2🤔2🎉1👨‍💻1

20.1K views20:22

Сиолошная

Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM. Dylan Patel, основатель SemiAnalysis, в недавнем подкасте отвечал на вопрос: насколько он верит, что кто-то сможет составить серьёзную конкуренцию Nvidia? Он…

Недавно писал про то, что видеокарты Nvidia становятся лучше буквально с каждой неделей, так как команда инженеров дописывает ПО и улучшает производительность у карт нового поколения. Цитирую свой прошлый пост: «Если сравнивать перформанс на начало и конец периода, то MFU (model flops utilization, доля утилизации от пиковой для GPU) вырос с 34% до 54% — относительный рост на целых 57%!».

SemiAnalysis делает техническое саммари того, какие изменения произошли недавно. С начала июля по 31 августа производительность декодирования (генерции) выходных токенов для модели DeepSeek (в FP4 на стойке GB200 NVL72 (72 фактически лучших видеокарты) улучшилась на 10–15% на всех уровнях скорости генерации, измеряемой на уровне сесии (токенов-в-секунду-на-пользователя).

— Одна из оптимизаций включает в себя объединение нескольких кернелов (маленьких программ на CUDA для выполнения на GPU) AllToAll — объединение активаций каждого токена с его метаданными, такими как коэффициенты масштабирования при квантизации или выбранный роутером эксперт. Специальный кернел AllToAll использует LL128, где теперь для каждых 128 байт требуется только 8 байтов флагов для определения куда отправлять эмбеддинг и взвешенного суммирования результатов (combine-and-dispatch). Такой подход обеспечивает меньшие накладные расходы, чем стандартный протокол.

— Другая оптимизация решает проблему, из-за которой копирование и объединения в eager-режиме PyTorch выполнялись слишком медленно. При размере батча 1 (один запрос в LLM за раз) и 8 тысячах токенов контекста это занимало 306 µs на GB200, что в 3,8 раза медленнее теоретического предела, рассчитанного на основе скорости света. В результате оптимизации стало всего в 1,3 медленнее теории. Операции копирования и конкатенации используются в MLA, DeepSeek'овском варианте аттеншена.

— Реализована оптимизация PDL, которая позволяет зависимым кернелам запускаться до завершения работы родительского кернела. Это позволяет выполнять настройку и подготовку к запуску в параллель, а не замедлять процесс потом в момент вызова.

Результаты на картинке: при увеличении скорости генерации на каждого пользователя с 77 до 83 токенов в секунду общая пропускная способность в токенах на карту выросла с 951 до 1105. В одной стойке 72 видеокарты, то есть теперь вместо обслуживания 890 пользователей одновременно можно обслуживать 958 (без просадки по скорости генерации). И это за два месяца оптимизаций!

🔥127👍37🤯17👨‍💻4❤‍🔥1💩1

16.5K viewsedited 08:47

Сиолошная