Telegram Web Link
Forwarded from Knowledge Accumulator
Я отупел от прочтения Hierarchical Reasoning Model [2025]

На бумаге идея следующая - делаем такую модель, которая состоит из 2 компонент - "медленной" и "быстрой". Медленная будет применяться реже и отвечать за более "глобальное" планирование, а вот быстрая будет дорабатывать детали. Как обычно, приводится неуместная аналогия с человеческим мозгом, который как бы умеет оперировать на разных частотах одновременно. Работает примерно так:

Есть 2 скрытых состояния, который обновляются двумя разными трансформерами. То, что авторы называют forward pass, состоит из N * T шагов. На каждом из них "быстрая сеть" берёт быстрое состояние, медленное состояние, эмбеддинг входа, и выдаёт обновлённое быстрое состояние. Раз в T шагов просыпается медленная сеть, берёт быстрое и медленное состояние, и выдаёт новое медленное состояние. Спустя N * T шагов применяется модель, которая превращает медленное состояние в выходное предсказание.

Авторы говорят - пробрасывать градиенты сквозь всю эту схему - скукотища и занимает кучу памяти. Решение нашли интересное - забить. Градиенты текут только во время последнего шага, для которого все предыдущие состояния считаются константой.

На вопрос "Схуяли?" авторы отвечают "Consider an idealized HRM behavior", приводят пачку невыполняющихся в данной ситуации формул и вуаля - 1-step gradient approximation готов. Unbiased, мамой клянусь.

На самом деле, то, что авторы называют forward pass, это в реальности только 1 шаг применения, и настоящий forward pass это несколько вот этих циклов по N*T шагов, вплоть до 16. Там ещё есть обучаемый на основе Q-learning модуль, который может сказать моделям "Астанавитесь" и тем самым сэкономить ресурсы, если модель нашла решение быстрее.

Вот этот самый 1-step approximation применяется на каждом шаге внешнего цикла, то есть получается, градиенты сквозь время всё-таки пробрасываются, но делается это раз в N*T шагов. По мнению авторов, это уже не так скучно.

Схема вроде работает и показывает неплохой результат, несмотря на подозрительную схему аппроксимации градиентов. Но пока вам рассказывали про сложную схему, фокусник утаил главную деталь. Знаете, какое значение N и T используется во всех экспериментах? Знаете, во сколько раз так называемая быстрая модель применяется чаще, чем медленная? Знаете, сколько памяти экономит one-step gradient approximation?

Ответ убил: N=2, T=2.

Вся эта мишура с "иерархичностью" не имеет большого смысла. Один шаг применения HRM - это суммарно 6 вызовов трансформера. Там в коде есть for-loop размером в 4 строки, который суммарно вызывает выполняет 4 вызова модели. Посмотрите на картинку поста - там есть многоточия между применениями L Module, которых в реальности нет! На иллюстрации буквально весь граф.

Думаете, в статье есть Ablation о том, как разные значения N и T влияют на результат? Нет, интересно почему? Может быть, от очень честной one-step аппроксимации у модели разболелась голова? Вместо этого авторы оформили куда более интересный подгон - анализ того, как мозг мыши можно представить в виде HRM.

Авторы ARC-бенчмарка, на котором был зарепорчен основной результат, провели анализ модели, и ключевые факты следующие:

- Если вместо HRM применить обычный трансформер такое же количество раз, результат получается почти такой же.
- Буст в качестве достигается засчёт того, что модель применяют много раз. Скор между 1 применением и 16 отличается примерно в 2 раза.

Очередная почти ничем не отличающаяся от бейзлайна поделка от великих учёных, которая не имеет никакого практического смысла, зато в сотый раз похоронившая трансформеры, согласно экспертам в телеграм-канале и в твиттере (в момент выхода). Вкуснота.

@knowledge_accumulator
👍129🌚45🤣3825🔥12🤡10😈3❤‍🔥22👎1👨‍💻1
Вижу некоторое количество сравнений текущего бума инвестиций в AI-инфраструктуру и инвестиций в железные дороги в США в 19-м веке. Так как я историей никогда не интересовался, то ничего не знаю про последнее, и иду читать материал / отправлять DeepResearch писать отчёты, чтобы лучше разобраться и понять. Может быть по результатам этого накатаю какой-то пост.

Но поделюсь тем, на что наткнулся тут — график размера американской железнодорожной сети по годам. В 1873-м году наступил кризис (читать в Википедии тут), тесно связанный с инвестициями в железные дороги. TLDR как и всегда: выпускали бонды, строили дороги, что-то произошло (государство решило уйти от серебряного стандарта) и не смогли расплатиться.

Однако на графике видно, что несмотря на кризис, спустя какое-то время, темпы не то что вернулись к прежним, а даже превзошли их. Все ринулись строить железную дорогу с ещё большей силой.

«рыночный крах» != «хайп / скам / технология с низким потенциалом»
👍79🤔62❤‍🔥237🤡6🌚4🎉3💩1👨‍💻1
[сначала прочитайте пост ниже, так работает репост в телеге 🤷‍♂️]
«Еще раз это не мошенничество - это типичная схема экосистемного кросс-субсидирования. Но для она может маскировать реальный рыночный спрос, особенно если такие внутренние потоки велики»

В случае этой картинки:
— у OpenAI весь спрос внешний; есть маленькая доля продажи в Microsoft, но последние достаточно плохо реализуют потенциал.
— на чипы Nvidia есть спрос от других AI-игроков вне схемы (Google, META, Anthropic, пока что китайские компании)
— Microsoft, Oracle, Intel и AMD делают огромные бизнесы, которые до недавнего времени не были связаны с AI (я понимаю что речь в оригинальном посте про рост ценности из-за AI, поэтому честно брать только прирост за последнее время, и мб он как раз может быть раздут).

Так что самый главный вопрос в том, продолжится ли прямая линия развития моделей и спроса на них, как нам рисуют OpenAI. Поживём — узнаем!
244👍30🤔12🤡3🌚3👎1
В прошлых постах мы посмотрели, как работают цепочки создания ценности. В этом я напишу про интересный феномен, достойный научной статьи: пример того, как цепочки создания ценности могут «сворачиваться в петлю», и почему анализ стратегических позиций в цепочке критически важен.

В классической цепочке создания ценности капитал и добавленная ценность движутся по линии:
инвесторы → производители → посредники → конечные пользователи.

Но есть феномен, который называют круговым финансированием, и именно это мы сейчас видим на рынке AI: капитал ходит по кругу между крупными игроками, которые одновременно инвестируют друг в друга и являются друг другу клиентами. Ну или короче компании покупают у себя самих, создавая видимость бурного роста.

Когда Microsoft одновременно крупнейший клиент, инвестор и облачный оператор для OpenAI, невозможно чётко определить, где в цепочке создаётся ценность, а где просто перераспределяются инвестиции. Или Nvidia - не просто поставщик. Она инвестирует в OpenAI, продаёт OpenAI чипы.

Что мы в итоге имеем: когда стратегические позиции выстраиваются на внутреннем контуре, а не на внешнем рынке, цепочка становится хрупкой: любое падение реального спроса разрушает весь круг финансирования. Дальше возможны два сценария:
1. реальный спрос догоняет инвестиции - экосистема устаканивается;
2. или пузырь лопается, как в 2000-м, когда обнаруживается, что «внешнего» рынка недостаточно, чтобы поддерживать такую архитектуру.

Еще раз это не мошенничество - это типичная схема экосистемного кросс-субсидирования. Но для она может маскировать реальный рыночный спрос, особенно если такие внутренние потоки велики. Наши любимые экосистемы зачастую так и работают, раздувая свои финансовые показатели.
👍78🤡24❤‍🔥8🔥8👎4🤔1💩1
Кадры вчерашней посадки Starship S38 в Индийском океане. Видно прогар обоих баков, утечку метана и кислорода, слой оксидации на теплозащите и пожар из грузового отсека — все места, где сняли плитки перед полётом
1🔥184🤯39❤‍🔥2010🌚3💩1👨‍💻1
Уже пару недель думаю над следующим лонгом про мою точку зрения на беспрецедентные инвестиции в OpenAI и инфраструктуру. Если делать TLDR идеи, то это звучит как «всё норм если модели продолжат расти в качестве, а Sama продолжит прогибать людей под себя». Однако важно, чтобы «расти в качестве» перерастало в выручку (не обязательно прибыль) — чтобы продолжать растить инфраструктуру датацентров.

У OpenAI очень амбициозный план роста выручки в ближайшие 5 лет. Epoch.AI в свежей рассылке постарались сравнить текущее положение и план с уже состоявшимися успешными компаниями.

Выручка OpenAI впервые превысила $1 млрд в 2023 году и превысит $10 млрд в 2025 году. Это впечатляющий, хотя и не беспрецедентный рост — несколько других компаний в истории демонстрировали сопоставимые темпы роста, см. картинку 1. Всего таких компаний было 4 за последние 50 лет истории рынка США, и OpenAI стали пятой.

Из этих четырёх компаний только Google смогла затем достичь уровня выручки в $100 млрд, в который целится OpenAI уже в 2028м году. Остальные даже не превысили порог в $40 млрд (каждая, не в сумме).

Сейчас, если делать оценку по буквально 3 точкам, OpenAI растёт в 3 раза в год, в то время как рост Google был около x2 в год в тот период, когда её выручка впервые превысила $10 млрд. Таким образом (если не учитывать Moderna и ковид) OpenAI может назвать самой быстрорастущей компанией, достигшей выручки в $10 млрд.

План OpenAI продолжить рост выручки в 2,3 раза в 2026 году, в 2 раза в 2027 году и в 1,6 раза в 2028 году. В истории пока не было примеров столь стремительного роста компаний с уже существенной выручкой.

На американском рынке есть 7 компаний, которые за последние 50 лет выросли до 100 миллиардов годовой выручки, и 6 из них сделали это в последние 15 лет (см. картинку). Самыми быстрыми компаниями, пересёкшими эту границу, были Tesla и Meta — за семь лет, за ними идут Nvidia, Apple и Amazon — за восемь лет, Walmart — за девять и Google — за десять лет. Среднегодовой коэффициент роста доходов этих компаний в период бурного роста составил x1,3.

В этом смысле цели OpenAI означают беспрецедентно высокие темпы роста.

Единственный пример более быстрого роста, который удалось найти автору — это ByteDance, материнская компания TikTok (привет, Sora 2 😱). В долларовом выражении её выручка впервые превысила $10 млрд в 2019 году и достигла $100 млрд уже в 2024 году, то есть всего за пять лет.

Кажется, что это не аргументы в пользу OpenAI, которые хотят совершить квантовый скачок 10 -> 100 за 3 года. Один из доводов в их поддержку заключается в том, что в экономике может существовать тенденция к ускорению таких достижений. По мере роста ВВП подобные результаты становятся всё более достижимыми. С 2015-го года ВВП вырос на 61% (охренел когда посчитал, но с учётом инфляции 25%).

Так что возможно, что если OpenAI достигнет «всего лишь» уровня в $50 млрд в 2028-м году — что само по себе впечатляющий результат — ей просто придётся замедлить темпы строительства дата-центров, а в остальном компания останется финансово здоровой. А может быть даже и этого не придётся делать, если часть подрядчиков не смогут выполнить свои обещания в срок и сдать датацентры.

Но главное запомнить сейчас, насколько невероятным кажется план OpenAI, чтобы с удивлением смотреть, когда в 2028-м году Васян будет говорить «ну так очевидно что они и 150 миллиардов сделают, с такой-то технологией любой дурак сможет, чё там».
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍132🔥33🤡1412🤯119🌚7❤‍🔥2🤔2🎉1👨‍💻1
Сиолошная
Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM. Dylan Patel, основатель SemiAnalysis, в недавнем подкасте отвечал на вопрос: насколько он верит, что кто-то сможет составить серьёзную конкуренцию Nvidia? Он…
Недавно писал про то, что видеокарты Nvidia становятся лучше буквально с каждой неделей, так как команда инженеров дописывает ПО и улучшает производительность у карт нового поколения. Цитирую свой прошлый пост: «Если сравнивать перформанс на начало и конец периода, то MFU (model flops utilization, доля утилизации от пиковой для GPU) вырос с 34% до 54% — относительный рост на целых 57%!».

SemiAnalysis делает техническое саммари того, какие изменения произошли недавно. С начала июля по 31 августа производительность декодирования (генерции) выходных токенов для модели DeepSeek (в FP4 на стойке GB200 NVL72 (72 фактически лучших видеокарты) улучшилась на 10–15% на всех уровнях скорости генерации, измеряемой на уровне сесии (токенов-в-секунду-на-пользователя).

— Одна из оптимизаций включает в себя объединение нескольких кернелов (маленьких программ на CUDA для выполнения на GPU) AllToAll — объединение активаций каждого токена с его метаданными, такими как коэффициенты масштабирования при квантизации или выбранный роутером эксперт. Специальный кернел ​​AllToAll использует LL128, где теперь для каждых 128 байт требуется только 8 байтов флагов для определения куда отправлять эмбеддинг и взвешенного суммирования результатов (combine-and-dispatch). Такой подход обеспечивает меньшие накладные расходы, чем стандартный протокол.

— Другая оптимизация решает проблему, из-за которой копирование и объединения в eager-режиме PyTorch выполнялись слишком медленно. При размере батча 1 (один запрос в LLM за раз) и 8 тысячах токенов контекста это занимало 306 µs на GB200, что в 3,8 раза медленнее теоретического предела, рассчитанного на основе скорости света. В результате оптимизации стало всего в 1,3 медленнее теории. Операции копирования и конкатенации используются в MLA, DeepSeek'овском варианте аттеншена.

— Реализована оптимизация PDL, которая позволяет зависимым кернелам запускаться до завершения работы родительского кернела. Это позволяет выполнять настройку и подготовку к запуску в параллель, а не замедлять процесс потом в момент вызова.

Результаты на картинке: при увеличении скорости генерации на каждого пользователя с 77 до 83 токенов в секунду общая пропускная способность в токенах на карту выросла с 951 до 1105. В одной стойке 72 видеокарты, то есть теперь вместо обслуживания 890 пользователей одновременно можно обслуживать 958 (без просадки по скорости генерации). И это за два месяца оптимизаций!
🔥127👍37🤯17👨‍💻4❤‍🔥1💩1
Gemini 3.0 маячит на горизонте, в твиттере всё больше слухов, на сайте в коде страницы появились первые упоминания, а пользователям AI Studio предлагает выбрать как ответ из двух лучше, где один из них явно выделяется по качеству.

Ответ гугла на недавние релизы OpenAI и Anthropic очень ждем. Для вас выцепил несколько примеров работы модели в режиме single-shot, то есть когда за раз генерируется весь ответ. В данном случае автор просил сгенерировать разные приложения и операционные системы — для приставок, компьютеров, айфона. И в каждом есть несколько мини-игр и/или функциональных приложений, хоть и самых простых.

В среднем в коде примерно 1000-1200 строк, включая все графические элементы. Я был удивлён, что так мало кода может давать столько контента, если честно.

Почему важно отметить, что генерации получены за раз? Потому что сейчас основной фокус фронтир-моделей направлен на увеличение горизонта работы, чтобы за множество шагов в режиме агента выполнять задачи на час-два-пять. Может быть так, что модель хороша в генерации сходу, но не улучшается при предоставлении большего количества времени, что плохо.

В чате посравнивали с генерациями GPT-5 и Claude, выглядит сильно лучше, и предоставляет больше рабочего функционала. Очень интересно через годик будет почитать в опенсурсе о том, как сделать подобное. Моя догадка — RL с наградой через оценку функциональности агентом. То есть модель пишет код, другая модель выступает в роли тестировщика, пишет себе отчёт о работоспособности, сама выделяя ключевые пункты, и затем это кормится как фидбек в обучаемую модель.
4🔥190🤯31👍21🎉13❤‍🔥4🤔3💩2👨‍💻1
В FT вышло две колонки (раз и два) про OpenAI, описывающие текущее состояние и ближайшее будущее компании. Выписал для вас несколько тезисов:

— по текущему плану, после конвертации некоммерческой организации в коммерческую НКО останется и получит примерно 20-25% компании, но не получит специальных акционерных прав в новой структуре. Вместо этого она получит право выдвигать директоров в коммерческой OpenAI — компания надеется, что эта мера удовлетворит генеральных прокуроров Калифорнии и Делавэра, которые могут заблокировать преобразование, если посчитают, что оно подрывает благотворительные цели OpenAI.

— По словам источников, знакомых с процессом, генеральный директор OpenAI Sam Altman получит долю в компании, однако обсуждение этого вопроса начнётся только после завершения преобразования. Один из источников добавил, что активных переговоров о выделении его доли на данный момент не ведётся. Напомню, что, согласно новостям, это требование инвесторов: дать долю CEO, чтобы у него был коммерческий интерес; сейчас он не владеет никакой частью OpenAI.

— В рамках пятилетнего плана OpenAI работает над новыми источниками дохода, партнёрствами по долговому финансированию и привлечением дополнительных инвестиций, чтобы оправдать обещанные затраты в размере более $1 трлн на создание массивных датацентров. OpenAI планирует заключать сделки с государствами и бизнесами, предлагая им специализированные продукты, увеличивать доходы за счёт новых инструментов для шопинга, а также продаж через сервис создания видео Sora и AI-агентов, сообщили сразу несколько источников.

— Регулярная аудитория ChatGPT превышает 800 млн пользователей, но лишь 5% из них — платные подписчики, и один из директоров заявил, что OpenAI планирует удвоить эту долю.

— Партнёры компании, такие как Oracle, взяли на себя предварительные расходы на инфраструктуру, и OpenAI надеется, что сможет вырасти и покрыть обязательства перед партнёрами за счёт выручки в будущем. Один из руководителей пояснил, что такой подход позволяет компании «использовать балансы других компаний», чтобы «выиграть время для развития бизнеса». Если OpenAI продолжит свой стремительный рост, руководство уверено, что сможет и дальше привлекать средства от инвесторов. Альтернативой может стать приоритет выхода на безубыточность, однако на прошлой неделе Sam Altman заявил, что сейчас выход на прибыльность «не входит даже в топ-10 моих приоритетов».

— В OpenAI также рассчитывают, что расходы на вычислительные мощности резко снизятся благодаря конкуренции между поставщиками [удобно, что они заключили сделки и с AMD, и с Nvidia, и с Broadcom] и техническому прогрессу.

— В будущем компания может залезать в кредиты, чтобы покрывать обязательства перед партнёрами. Заключенные недавно сделки с AMD и Nvidia помогут компании дать сигнал «нам можно доверять, дате деняк». «Мы сотрудничаем со всеми, чтобы разработать креативные стратегии финансирования». — говорят в компании.
3👍7363🤔12🌚4🤡2❤‍🔥1💩1
Сиолошная
Sama продолжит прогибать людей под себя
«CEO OpenAI Sam Altman оказывает давление на TSMC, чтобы та освободила больше производственных мощностей для выпуска ИИ-чипа стартапа, разработанного совместно с Broadcom» — TheInformation

Вспомнил новость годовой давности: «Руководители TSMC пренебрежительно назвали Sam Altman «podcasting bro» — глава OpenAI якобы делал абсурдные запросы на строительство 36 чиповых фабрик на сумму 7 триллионов долларов».

🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤣175🌚4336🔥15🤔9🤡4👍1
29👨‍💻7🌚4❤‍🔥2👍1🤡1💔1
2025/10/31 06:53:59
Back to Top
HTML Embed Code: