Forwarded from Knowledge Accumulator
  
Я отупел от прочтения Hierarchical Reasoning Model [2025]
На бумаге идея следующая - делаем такую модель, которая состоит из 2 компонент - "медленной" и "быстрой". Медленная будет применяться реже и отвечать за более "глобальное" планирование, а вот быстрая будет дорабатывать детали. Как обычно, приводится неуместная аналогия с человеческим мозгом, который как бы умеет оперировать на разных частотах одновременно. Работает примерно так:
Есть 2 скрытых состояния, который обновляются двумя разными трансформерами. То, что авторы называют forward pass, состоит из N * T шагов. На каждом из них "быстрая сеть" берёт быстрое состояние, медленное состояние, эмбеддинг входа, и выдаёт обновлённое быстрое состояние. Раз в T шагов просыпается медленная сеть, берёт быстрое и медленное состояние, и выдаёт новое медленное состояние. Спустя N * T шагов применяется модель, которая превращает медленное состояние в выходное предсказание.
Авторы говорят - пробрасывать градиенты сквозь всю эту схему - скукотища и занимает кучу памяти. Решение нашли интересное - забить. Градиенты текут только во время последнего шага, для которого все предыдущие состояния считаются константой.
На вопрос "Схуяли?" авторы отвечают "Consider an idealized HRM behavior", приводят пачку невыполняющихся в данной ситуации формул и вуаля - 1-step gradient approximation готов. Unbiased, мамой клянусь.
На самом деле, то, что авторы называют forward pass, это в реальности только 1 шаг применения, и настоящий forward pass это несколько вот этих циклов по N*T шагов, вплоть до 16. Там ещё есть обучаемый на основе Q-learning модуль, который может сказать моделям "Астанавитесь" и тем самым сэкономить ресурсы, если модель нашла решение быстрее.
Вот этот самый 1-step approximation применяется на каждом шаге внешнего цикла, то есть получается, градиенты сквозь время всё-таки пробрасываются, но делается это раз в N*T шагов. По мнению авторов, это уже не так скучно.
Схема вроде работает и показывает неплохой результат, несмотря на подозрительную схему аппроксимации градиентов. Но пока вам рассказывали про сложную схему, фокусник утаил главную деталь. Знаете, какое значение N и T используется во всех экспериментах? Знаете, во сколько раз так называемая быстрая модель применяется чаще, чем медленная? Знаете, сколько памяти экономит one-step gradient approximation?
Ответ убил:N=2, T=2 .
Вся эта мишура с "иерархичностью" не имеет большого смысла. Один шаг применения HRM - это суммарно 6 вызовов трансформера. Там в коде есть for-loop размером в 4 строки, который суммарно вызывает выполняет 4 вызова модели. Посмотрите на картинку поста - там есть многоточия между применениями L Module, которых в реальности нет! На иллюстрации буквально весь граф.
Думаете, в статье есть Ablation о том, как разные значения N и T влияют на результат? Нет, интересно почему? Может быть, от очень честной one-step аппроксимации у модели разболелась голова? Вместо этого авторы оформили куда более интересный подгон - анализ того, как мозг мыши можно представить в виде HRM.
Авторы ARC-бенчмарка, на котором был зарепорчен основной результат, провели анализ модели, и ключевые факты следующие:
- Если вместо HRM применить обычный трансформер такое же количество раз, результат получается почти такой же.
- Буст в качестве достигается засчёт того, что модель применяют много раз. Скор между 1 применением и 16 отличается примерно в 2 раза.
Очередная почти ничем не отличающаяся от бейзлайна поделка от великих учёных, которая не имеет никакого практического смысла, зато в сотый раз похоронившая трансформеры, согласно экспертам в телеграм-канале и в твиттере (в момент выхода). Вкуснота.
@knowledge_accumulator
На бумаге идея следующая - делаем такую модель, которая состоит из 2 компонент - "медленной" и "быстрой". Медленная будет применяться реже и отвечать за более "глобальное" планирование, а вот быстрая будет дорабатывать детали. Как обычно, приводится неуместная аналогия с человеческим мозгом, который как бы умеет оперировать на разных частотах одновременно. Работает примерно так:
Есть 2 скрытых состояния, который обновляются двумя разными трансформерами. То, что авторы называют forward pass, состоит из N * T шагов. На каждом из них "быстрая сеть" берёт быстрое состояние, медленное состояние, эмбеддинг входа, и выдаёт обновлённое быстрое состояние. Раз в T шагов просыпается медленная сеть, берёт быстрое и медленное состояние, и выдаёт новое медленное состояние. Спустя N * T шагов применяется модель, которая превращает медленное состояние в выходное предсказание.
Авторы говорят - пробрасывать градиенты сквозь всю эту схему - скукотища и занимает кучу памяти. Решение нашли интересное - забить. Градиенты текут только во время последнего шага, для которого все предыдущие состояния считаются константой.
На вопрос "Схуяли?" авторы отвечают "Consider an idealized HRM behavior", приводят пачку невыполняющихся в данной ситуации формул и вуаля - 1-step gradient approximation готов. Unbiased, мамой клянусь.
На самом деле, то, что авторы называют forward pass, это в реальности только 1 шаг применения, и настоящий forward pass это несколько вот этих циклов по N*T шагов, вплоть до 16. Там ещё есть обучаемый на основе Q-learning модуль, который может сказать моделям "Астанавитесь" и тем самым сэкономить ресурсы, если модель нашла решение быстрее.
Вот этот самый 1-step approximation применяется на каждом шаге внешнего цикла, то есть получается, градиенты сквозь время всё-таки пробрасываются, но делается это раз в N*T шагов. По мнению авторов, это уже не так скучно.
Схема вроде работает и показывает неплохой результат, несмотря на подозрительную схему аппроксимации градиентов. Но пока вам рассказывали про сложную схему, фокусник утаил главную деталь. Знаете, какое значение N и T используется во всех экспериментах? Знаете, во сколько раз так называемая быстрая модель применяется чаще, чем медленная? Знаете, сколько памяти экономит one-step gradient approximation?
Ответ убил:
Вся эта мишура с "иерархичностью" не имеет большого смысла. Один шаг применения HRM - это суммарно 6 вызовов трансформера. Там в коде есть for-loop размером в 4 строки, который суммарно вызывает выполняет 4 вызова модели. Посмотрите на картинку поста - там есть многоточия между применениями L Module, которых в реальности нет! На иллюстрации буквально весь граф.
Думаете, в статье есть Ablation о том, как разные значения N и T влияют на результат? Нет, интересно почему? Может быть, от очень честной one-step аппроксимации у модели разболелась голова? Вместо этого авторы оформили куда более интересный подгон - анализ того, как мозг мыши можно представить в виде HRM.
Авторы ARC-бенчмарка, на котором был зарепорчен основной результат, провели анализ модели, и ключевые факты следующие:
- Если вместо HRM применить обычный трансформер такое же количество раз, результат получается почти такой же.
- Буст в качестве достигается засчёт того, что модель применяют много раз. Скор между 1 применением и 16 отличается примерно в 2 раза.
Очередная почти ничем не отличающаяся от бейзлайна поделка от великих учёных, которая не имеет никакого практического смысла, зато в сотый раз похоронившая трансформеры, согласно экспертам в телеграм-канале и в твиттере (в момент выхода). Вкуснота.
@knowledge_accumulator
👍129🌚45🤣38
  Вижу некоторое количество сравнений текущего бума инвестиций в AI-инфраструктуру и инвестиций в железные дороги в США в 19-м веке. Так как я историей никогда не интересовался, то ничего не знаю про последнее, и иду читать материал / отправлять DeepResearch писать отчёты, чтобы лучше разобраться и понять. Может быть по результатам этого накатаю какой-то пост. 
Но поделюсь тем, на что наткнулся тут — график размера американской железнодорожной сети по годам. В 1873-м году наступил кризис (читать в Википедии тут), тесно связанный с инвестициями в железные дороги. TLDR как и всегда: выпускали бонды, строили дороги, что-то произошло (государство решило уйти от серебряного стандарта) и не смогли расплатиться.
Однако на графике видно, что несмотря на кризис, спустя какое-то время, темпы не то что вернулись к прежним, а даже превзошли их. Все ринулись строить железную дорогу с ещё большей силой.
«рыночный крах» != «хайп / скам / технология с низким потенциалом»
Но поделюсь тем, на что наткнулся тут — график размера американской железнодорожной сети по годам. В 1873-м году наступил кризис (читать в Википедии тут), тесно связанный с инвестициями в железные дороги. TLDR как и всегда: выпускали бонды, строили дороги, что-то произошло (государство решило уйти от серебряного стандарта) и не смогли расплатиться.
Однако на графике видно, что несмотря на кризис, спустя какое-то время, темпы не то что вернулись к прежним, а даже превзошли их. Все ринулись строить железную дорогу с ещё большей силой.
«рыночный крах» != «хайп / скам / технология с низким потенциалом»
👍79🤔62❤🔥23
  [сначала прочитайте пост ниже, так работает репост в телеге 🤷♂️]
«Еще раз это не мошенничество - это типичная схема экосистемного кросс-субсидирования. Но для она может маскировать реальный рыночный спрос, особенно если такие внутренние потоки велики»
В случае этой картинки:
— у OpenAI весь спрос внешний; есть маленькая доля продажи в Microsoft, но последние достаточно плохо реализуют потенциал.
— на чипы Nvidia есть спрос от других AI-игроков вне схемы (Google, META, Anthropic, пока что китайские компании)
— Microsoft, Oracle, Intel и AMD делают огромные бизнесы, которые до недавнего времени не были связаны с AI (я понимаю что речь в оригинальном посте про рост ценности из-за AI, поэтому честно брать только прирост за последнее время, и мб он как раз может быть раздут).
Так что самый главный вопрос в том, продолжится ли прямая линия развития моделей и спроса на них, как нам рисуют OpenAI. Поживём — узнаем!
«Еще раз это не мошенничество - это типичная схема экосистемного кросс-субсидирования. Но для она может маскировать реальный рыночный спрос, особенно если такие внутренние потоки велики»
В случае этой картинки:
— у OpenAI весь спрос внешний; есть маленькая доля продажи в Microsoft, но последние достаточно плохо реализуют потенциал.
— на чипы Nvidia есть спрос от других AI-игроков вне схемы (Google, META, Anthropic, пока что китайские компании)
— Microsoft, Oracle, Intel и AMD делают огромные бизнесы, которые до недавнего времени не были связаны с AI (я понимаю что речь в оригинальном посте про рост ценности из-за AI, поэтому честно брать только прирост за последнее время, и мб он как раз может быть раздут).
Так что самый главный вопрос в том, продолжится ли прямая линия развития моделей и спроса на них, как нам рисуют OpenAI. Поживём — узнаем!
2
  Forwarded from Strategic move: стратегия, продукт и AI (Julia Bilinkis)
  
В прошлых постах мы посмотрели, как работают цепочки создания ценности. В этом я напишу про интересный феномен, достойный научной статьи: пример того, как цепочки создания ценности могут «сворачиваться в петлю», и почему анализ стратегических позиций в цепочке критически важен.
В классической цепочке создания ценности капитал и добавленная ценность движутся по линии:
инвесторы → производители → посредники → конечные пользователи.
Но есть феномен, который называют круговым финансированием, и именно это мы сейчас видим на рынке AI: капитал ходит по кругу между крупными игроками, которые одновременно инвестируют друг в друга и являются друг другу клиентами. Ну или короче компании покупают у себя самих, создавая видимость бурного роста.
Когда Microsoft одновременно крупнейший клиент, инвестор и облачный оператор для OpenAI, невозможно чётко определить, где в цепочке создаётся ценность, а где просто перераспределяются инвестиции. Или Nvidia - не просто поставщик. Она инвестирует в OpenAI, продаёт OpenAI чипы.
Что мы в итоге имеем: когда стратегические позиции выстраиваются на внутреннем контуре, а не на внешнем рынке, цепочка становится хрупкой: любое падение реального спроса разрушает весь круг финансирования. Дальше возможны два сценария:
1. реальный спрос догоняет инвестиции - экосистема устаканивается;
2. или пузырь лопается, как в 2000-м, когда обнаруживается, что «внешнего» рынка недостаточно, чтобы поддерживать такую архитектуру.
Еще раз это не мошенничество - это типичная схема экосистемного кросс-субсидирования. Но для она может маскировать реальный рыночный спрос, особенно если такие внутренние потоки велики. Наши любимые экосистемы зачастую так и работают, раздувая свои финансовые показатели.
В классической цепочке создания ценности капитал и добавленная ценность движутся по линии:
инвесторы → производители → посредники → конечные пользователи.
Но есть феномен, который называют круговым финансированием, и именно это мы сейчас видим на рынке AI: капитал ходит по кругу между крупными игроками, которые одновременно инвестируют друг в друга и являются друг другу клиентами. Ну или короче компании покупают у себя самих, создавая видимость бурного роста.
Когда Microsoft одновременно крупнейший клиент, инвестор и облачный оператор для OpenAI, невозможно чётко определить, где в цепочке создаётся ценность, а где просто перераспределяются инвестиции. Или Nvidia - не просто поставщик. Она инвестирует в OpenAI, продаёт OpenAI чипы.
Что мы в итоге имеем: когда стратегические позиции выстраиваются на внутреннем контуре, а не на внешнем рынке, цепочка становится хрупкой: любое падение реального спроса разрушает весь круг финансирования. Дальше возможны два сценария:
1. реальный спрос догоняет инвестиции - экосистема устаканивается;
2. или пузырь лопается, как в 2000-м, когда обнаруживается, что «внешнего» рынка недостаточно, чтобы поддерживать такую архитектуру.
Еще раз это не мошенничество - это типичная схема экосистемного кросс-субсидирования. Но для она может маскировать реальный рыночный спрос, особенно если такие внутренние потоки велики. Наши любимые экосистемы зачастую так и работают, раздувая свои финансовые показатели.
👍78🤡24❤🔥8🔥8👎4🤔1💩1
  Forwarded from Техасский Вестник
Кадры вчерашней посадки Starship S38 в Индийском океане. Видно прогар обоих баков, утечку метана и кислорода, слой оксидации на теплозащите и пожар из грузового отсека — все места, где сняли плитки перед полётом
1🔥184🤯39❤🔥20
  Уже пару недель думаю над следующим лонгом про мою точку зрения на беспрецедентные инвестиции в OpenAI и инфраструктуру. Если делать TLDR идеи, то это звучит как «всё норм если модели продолжат расти в качестве, а Sama продолжит прогибать людей под себя». Однако важно, чтобы «расти в качестве» перерастало в выручку (не обязательно прибыль) — чтобы продолжать растить инфраструктуру датацентров.
У OpenAI очень амбициозный план роста выручки в ближайшие 5 лет. Epoch.AI в свежей рассылке постарались сравнить текущее положение и план с уже состоявшимися успешными компаниями.
Выручка OpenAI впервые превысила $1 млрд в 2023 году и превысит $10 млрд в 2025 году. Это впечатляющий, хотя и не беспрецедентный рост — несколько других компаний в истории демонстрировали сопоставимые темпы роста, см. картинку 1. Всего таких компаний было 4 за последние 50 лет истории рынка США, и OpenAI стали пятой.
Из этих четырёх компаний только Google смогла затем достичь уровня выручки в $100 млрд, в который целится OpenAI уже в 2028м году. Остальные даже не превысили порог в $40 млрд (каждая, не в сумме).
Сейчас, если делать оценку по буквально 3 точкам, OpenAI растёт в 3 раза в год, в то время как рост Google был около x2 в год в тот период, когда её выручка впервые превысила $10 млрд. Таким образом (если не учитывать Moderna и ковид) OpenAI может назвать самой быстрорастущей компанией, достигшей выручки в $10 млрд.
План OpenAI продолжить рост выручки в 2,3 раза в 2026 году, в 2 раза в 2027 году и в 1,6 раза в 2028 году. В истории пока не было примеров столь стремительного роста компаний с уже существенной выручкой.
На американском рынке есть 7 компаний, которые за последние 50 лет выросли до 100 миллиардов годовой выручки, и 6 из них сделали это в последние 15 лет (см. картинку). Самыми быстрыми компаниями, пересёкшими эту границу, были Tesla и Meta — за семь лет, за ними идут Nvidia, Apple и Amazon — за восемь лет, Walmart — за девять и Google — за десять лет. Среднегодовой коэффициент роста доходов этих компаний в период бурного роста составил x1,3.
В этом смысле цели OpenAI означают беспрецедентно высокие темпы роста.
Единственный пример более быстрого роста, который удалось найти автору — это ByteDance, материнская компания TikTok (привет, Sora 2😱 ). В долларовом выражении её выручка впервые превысила $10 млрд в 2019 году и достигла $100 млрд уже в 2024 году, то есть всего за пять лет.
Кажется, что это не аргументы в пользу OpenAI, которые хотят совершить квантовый скачок 10 -> 100 за 3 года. Один из доводов в их поддержку заключается в том, что в экономике может существовать тенденция к ускорению таких достижений. По мере роста ВВП подобные результаты становятся всё более достижимыми. С 2015-го года ВВП вырос на 61% (охренел когда посчитал, но с учётом инфляции 25%).
Так что возможно, что если OpenAI достигнет «всего лишь» уровня в $50 млрд в 2028-м году — что само по себе впечатляющий результат — ей просто придётся замедлить темпы строительства дата-центров, а в остальном компания останется финансово здоровой. А может быть даже и этого не придётся делать, если часть подрядчиков не смогут выполнить свои обещания в срок и сдать датацентры.
Но главное запомнить сейчас, насколько невероятным кажется план OpenAI, чтобы с удивлением смотреть, когда в 2028-м году Васян будет говорить «ну так очевидно что они и 150 миллиардов сделают, с такой-то технологией любой дурак сможет, чё там».
У OpenAI очень амбициозный план роста выручки в ближайшие 5 лет. Epoch.AI в свежей рассылке постарались сравнить текущее положение и план с уже состоявшимися успешными компаниями.
Выручка OpenAI впервые превысила $1 млрд в 2023 году и превысит $10 млрд в 2025 году. Это впечатляющий, хотя и не беспрецедентный рост — несколько других компаний в истории демонстрировали сопоставимые темпы роста, см. картинку 1. Всего таких компаний было 4 за последние 50 лет истории рынка США, и OpenAI стали пятой.
Из этих четырёх компаний только Google смогла затем достичь уровня выручки в $100 млрд, в который целится OpenAI уже в 2028м году. Остальные даже не превысили порог в $40 млрд (каждая, не в сумме).
Сейчас, если делать оценку по буквально 3 точкам, OpenAI растёт в 3 раза в год, в то время как рост Google был около x2 в год в тот период, когда её выручка впервые превысила $10 млрд. Таким образом (если не учитывать Moderna и ковид) OpenAI может назвать самой быстрорастущей компанией, достигшей выручки в $10 млрд.
План OpenAI продолжить рост выручки в 2,3 раза в 2026 году, в 2 раза в 2027 году и в 1,6 раза в 2028 году. В истории пока не было примеров столь стремительного роста компаний с уже существенной выручкой.
На американском рынке есть 7 компаний, которые за последние 50 лет выросли до 100 миллиардов годовой выручки, и 6 из них сделали это в последние 15 лет (см. картинку). Самыми быстрыми компаниями, пересёкшими эту границу, были Tesla и Meta — за семь лет, за ними идут Nvidia, Apple и Amazon — за восемь лет, Walmart — за девять и Google — за десять лет. Среднегодовой коэффициент роста доходов этих компаний в период бурного роста составил x1,3.
В этом смысле цели OpenAI означают беспрецедентно высокие темпы роста.
Единственный пример более быстрого роста, который удалось найти автору — это ByteDance, материнская компания TikTok (привет, Sora 2
Кажется, что это не аргументы в пользу OpenAI, которые хотят совершить квантовый скачок 10 -> 100 за 3 года. Один из доводов в их поддержку заключается в том, что в экономике может существовать тенденция к ускорению таких достижений. По мере роста ВВП подобные результаты становятся всё более достижимыми. С 2015-го года ВВП вырос на 61% (охренел когда посчитал, но с учётом инфляции 25%).
Так что возможно, что если OpenAI достигнет «всего лишь» уровня в $50 млрд в 2028-м году — что само по себе впечатляющий результат — ей просто придётся замедлить темпы строительства дата-центров, а в остальном компания останется финансово здоровой. А может быть даже и этого не придётся делать, если часть подрядчиков не смогут выполнить свои обещания в срок и сдать датацентры.
Но главное запомнить сейчас, насколько невероятным кажется план OpenAI, чтобы с удивлением смотреть, когда в 2028-м году Васян будет говорить «ну так очевидно что они и 150 миллиардов сделают, с такой-то технологией любой дурак сможет, чё там».
Please open Telegram to view this post
    VIEW IN TELEGRAM
  Please open Telegram to view this post
    VIEW IN TELEGRAM
  1👍132🔥33🤡14
  
  Сиолошная
Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM. Dylan Patel, основатель SemiAnalysis, в недавнем подкасте отвечал на вопрос: насколько он верит, что кто-то сможет составить серьёзную конкуренцию Nvidia? Он…
Недавно писал про то, что видеокарты Nvidia становятся лучше буквально с каждой неделей, так как команда инженеров дописывает ПО и улучшает производительность у карт нового поколения. Цитирую свой прошлый пост: «Если сравнивать перформанс на начало и конец периода, то MFU (model flops utilization, доля утилизации от пиковой для GPU) вырос с 34% до 54% — относительный рост на целых 57%!».
SemiAnalysis делает техническое саммари того, какие изменения произошли недавно. С начала июля по 31 августа производительность декодирования (генерции) выходных токенов для модели DeepSeek (в FP4 на стойке GB200 NVL72 (72 фактически лучших видеокарты) улучшилась на 10–15% на всех уровнях скорости генерации, измеряемой на уровне сесии (токенов-в-секунду-на-пользователя).
— Одна из оптимизаций включает в себя объединение нескольких кернелов (маленьких программ на CUDA для выполнения на GPU) AllToAll — объединение активаций каждого токена с его метаданными, такими как коэффициенты масштабирования при квантизации или выбранный роутером эксперт. Специальный кернел AllToAll использует LL128, где теперь для каждых 128 байт требуется только 8 байтов флагов для определения куда отправлять эмбеддинг и взвешенного суммирования результатов (combine-and-dispatch). Такой подход обеспечивает меньшие накладные расходы, чем стандартный протокол.
— Другая оптимизация решает проблему, из-за которой копирование и объединения в eager-режиме PyTorch выполнялись слишком медленно. При размере батча 1 (один запрос в LLM за раз) и 8 тысячах токенов контекста это занимало 306 µs на GB200, что в 3,8 раза медленнее теоретического предела, рассчитанного на основе скорости света. В результате оптимизации стало всего в 1,3 медленнее теории. Операции копирования и конкатенации используются в MLA, DeepSeek'овском варианте аттеншена.
— Реализована оптимизация PDL, которая позволяет зависимым кернелам запускаться до завершения работы родительского кернела. Это позволяет выполнять настройку и подготовку к запуску в параллель, а не замедлять процесс потом в момент вызова.
Результаты на картинке: при увеличении скорости генерации на каждого пользователя с 77 до 83 токенов в секунду общая пропускная способность в токенах на карту выросла с 951 до 1105. В одной стойке 72 видеокарты, то есть теперь вместо обслуживания 890 пользователей одновременно можно обслуживать 958 (без просадки по скорости генерации). И это за два месяца оптимизаций!
  
SemiAnalysis делает техническое саммари того, какие изменения произошли недавно. С начала июля по 31 августа производительность декодирования (генерции) выходных токенов для модели DeepSeek (в FP4 на стойке GB200 NVL72 (72 фактически лучших видеокарты) улучшилась на 10–15% на всех уровнях скорости генерации, измеряемой на уровне сесии (токенов-в-секунду-на-пользователя).
— Одна из оптимизаций включает в себя объединение нескольких кернелов (маленьких программ на CUDA для выполнения на GPU) AllToAll — объединение активаций каждого токена с его метаданными, такими как коэффициенты масштабирования при квантизации или выбранный роутером эксперт. Специальный кернел AllToAll использует LL128, где теперь для каждых 128 байт требуется только 8 байтов флагов для определения куда отправлять эмбеддинг и взвешенного суммирования результатов (combine-and-dispatch). Такой подход обеспечивает меньшие накладные расходы, чем стандартный протокол.
— Другая оптимизация решает проблему, из-за которой копирование и объединения в eager-режиме PyTorch выполнялись слишком медленно. При размере батча 1 (один запрос в LLM за раз) и 8 тысячах токенов контекста это занимало 306 µs на GB200, что в 3,8 раза медленнее теоретического предела, рассчитанного на основе скорости света. В результате оптимизации стало всего в 1,3 медленнее теории. Операции копирования и конкатенации используются в MLA, DeepSeek'овском варианте аттеншена.
— Реализована оптимизация PDL, которая позволяет зависимым кернелам запускаться до завершения работы родительского кернела. Это позволяет выполнять настройку и подготовку к запуску в параллель, а не замедлять процесс потом в момент вызова.
Результаты на картинке: при увеличении скорости генерации на каждого пользователя с 77 до 83 токенов в секунду общая пропускная способность в токенах на карту выросла с 951 до 1105. В одной стойке 72 видеокарты, то есть теперь вместо обслуживания 890 пользователей одновременно можно обслуживать 958 (без просадки по скорости генерации). И это за два месяца оптимизаций!
🔥127👍37🤯17👨💻4❤🔥1💩1
  This media is not supported in your browser
      VIEW IN TELEGRAM
    This media is not supported in your browser
      VIEW IN TELEGRAM
    This media is not supported in your browser
      VIEW IN TELEGRAM
    This media is not supported in your browser
      VIEW IN TELEGRAM
    This media is not supported in your browser
      VIEW IN TELEGRAM
    This media is not supported in your browser
      VIEW IN TELEGRAM
    This media is not supported in your browser
      VIEW IN TELEGRAM
    Gemini 3.0 маячит на горизонте, в твиттере всё больше слухов, на сайте в коде страницы появились первые упоминания, а пользователям AI Studio предлагает выбрать как ответ из двух лучше, где один из них явно выделяется по качеству.
Ответ гугла на недавние релизы OpenAI и Anthropic очень ждем. Для вас выцепил несколько примеров работы модели в режиме single-shot, то есть когда за раз генерируется весь ответ. В данном случае автор просил сгенерировать разные приложения и операционные системы — для приставок, компьютеров, айфона. И в каждом есть несколько мини-игр и/или функциональных приложений, хоть и самых простых.
В среднем в коде примерно 1000-1200 строк, включая все графические элементы. Я был удивлён, что так мало кода может давать столько контента, если честно.
Почему важно отметить, что генерации получены за раз? Потому что сейчас основной фокус фронтир-моделей направлен на увеличение горизонта работы, чтобы за множество шагов в режиме агента выполнять задачи на час-два-пять. Может быть так, что модель хороша в генерации сходу, но не улучшается при предоставлении большего количества времени, что плохо.
В чате посравнивали с генерациями GPT-5 и Claude, выглядит сильно лучше, и предоставляет больше рабочего функционала. Очень интересно через годик будет почитать в опенсурсе о том, как сделать подобное. Моя догадка — RL с наградой через оценку функциональности агентом. То есть модель пишет код, другая модель выступает в роли тестировщика, пишет себе отчёт о работоспособности, сама выделяя ключевые пункты, и затем это кормится как фидбек в обучаемую модель.
Ответ гугла на недавние релизы OpenAI и Anthropic очень ждем. Для вас выцепил несколько примеров работы модели в режиме single-shot, то есть когда за раз генерируется весь ответ. В данном случае автор просил сгенерировать разные приложения и операционные системы — для приставок, компьютеров, айфона. И в каждом есть несколько мини-игр и/или функциональных приложений, хоть и самых простых.
В среднем в коде примерно 1000-1200 строк, включая все графические элементы. Я был удивлён, что так мало кода может давать столько контента, если честно.
Почему важно отметить, что генерации получены за раз? Потому что сейчас основной фокус фронтир-моделей направлен на увеличение горизонта работы, чтобы за множество шагов в режиме агента выполнять задачи на час-два-пять. Может быть так, что модель хороша в генерации сходу, но не улучшается при предоставлении большего количества времени, что плохо.
В чате посравнивали с генерациями GPT-5 и Claude, выглядит сильно лучше, и предоставляет больше рабочего функционала. Очень интересно через годик будет почитать в опенсурсе о том, как сделать подобное. Моя догадка — RL с наградой через оценку функциональности агентом. То есть модель пишет код, другая модель выступает в роли тестировщика, пишет себе отчёт о работоспособности, сама выделяя ключевые пункты, и затем это кормится как фидбек в обучаемую модель.
4🔥190🤯31👍21🎉13❤🔥4🤔3💩2👨💻1
  В FT вышло две колонки (раз и два) про OpenAI, описывающие текущее состояние и ближайшее будущее компании. Выписал для вас несколько тезисов:
— по текущему плану, после конвертации некоммерческой организации в коммерческую НКО останется и получит примерно 20-25% компании, но не получит специальных акционерных прав в новой структуре. Вместо этого она получит право выдвигать директоров в коммерческой OpenAI — компания надеется, что эта мера удовлетворит генеральных прокуроров Калифорнии и Делавэра, которые могут заблокировать преобразование, если посчитают, что оно подрывает благотворительные цели OpenAI.
— По словам источников, знакомых с процессом, генеральный директор OpenAI Sam Altman получит долю в компании, однако обсуждение этого вопроса начнётся только после завершения преобразования. Один из источников добавил, что активных переговоров о выделении его доли на данный момент не ведётся. Напомню, что, согласно новостям, это требование инвесторов: дать долю CEO, чтобы у него был коммерческий интерес; сейчас он не владеет никакой частью OpenAI.
— В рамках пятилетнего плана OpenAI работает над новыми источниками дохода, партнёрствами по долговому финансированию и привлечением дополнительных инвестиций, чтобы оправдать обещанные затраты в размере более $1 трлн на создание массивных датацентров. OpenAI планирует заключать сделки с государствами и бизнесами, предлагая им специализированные продукты, увеличивать доходы за счёт новых инструментов для шопинга, а также продаж через сервис создания видео Sora и AI-агентов, сообщили сразу несколько источников.
— Регулярная аудитория ChatGPT превышает 800 млн пользователей, но лишь 5% из них — платные подписчики, и один из директоров заявил, что OpenAI планирует удвоить эту долю.
— Партнёры компании, такие как Oracle, взяли на себя предварительные расходы на инфраструктуру, и OpenAI надеется, что сможет вырасти и покрыть обязательства перед партнёрами за счёт выручки в будущем. Один из руководителей пояснил, что такой подход позволяет компании «использовать балансы других компаний», чтобы «выиграть время для развития бизнеса». Если OpenAI продолжит свой стремительный рост, руководство уверено, что сможет и дальше привлекать средства от инвесторов. Альтернативой может стать приоритет выхода на безубыточность, однако на прошлой неделе Sam Altman заявил, что сейчас выход на прибыльность «не входит даже в топ-10 моих приоритетов».
— В OpenAI также рассчитывают, что расходы на вычислительные мощности резко снизятся благодаря конкуренции между поставщиками [удобно, что они заключили сделки и с AMD, и с Nvidia, и с Broadcom] и техническому прогрессу.
— В будущем компания может залезать в кредиты, чтобы покрывать обязательства перед партнёрами. Заключенные недавно сделки с AMD и Nvidia помогут компании дать сигнал «нам можно доверять, дате деняк». «Мы сотрудничаем со всеми, чтобы разработать креативные стратегии финансирования». — говорят в компании.
— по текущему плану, после конвертации некоммерческой организации в коммерческую НКО останется и получит примерно 20-25% компании, но не получит специальных акционерных прав в новой структуре. Вместо этого она получит право выдвигать директоров в коммерческой OpenAI — компания надеется, что эта мера удовлетворит генеральных прокуроров Калифорнии и Делавэра, которые могут заблокировать преобразование, если посчитают, что оно подрывает благотворительные цели OpenAI.
— По словам источников, знакомых с процессом, генеральный директор OpenAI Sam Altman получит долю в компании, однако обсуждение этого вопроса начнётся только после завершения преобразования. Один из источников добавил, что активных переговоров о выделении его доли на данный момент не ведётся. Напомню, что, согласно новостям, это требование инвесторов: дать долю CEO, чтобы у него был коммерческий интерес; сейчас он не владеет никакой частью OpenAI.
— В рамках пятилетнего плана OpenAI работает над новыми источниками дохода, партнёрствами по долговому финансированию и привлечением дополнительных инвестиций, чтобы оправдать обещанные затраты в размере более $1 трлн на создание массивных датацентров. OpenAI планирует заключать сделки с государствами и бизнесами, предлагая им специализированные продукты, увеличивать доходы за счёт новых инструментов для шопинга, а также продаж через сервис создания видео Sora и AI-агентов, сообщили сразу несколько источников.
— Регулярная аудитория ChatGPT превышает 800 млн пользователей, но лишь 5% из них — платные подписчики, и один из директоров заявил, что OpenAI планирует удвоить эту долю.
— Партнёры компании, такие как Oracle, взяли на себя предварительные расходы на инфраструктуру, и OpenAI надеется, что сможет вырасти и покрыть обязательства перед партнёрами за счёт выручки в будущем. Один из руководителей пояснил, что такой подход позволяет компании «использовать балансы других компаний», чтобы «выиграть время для развития бизнеса». Если OpenAI продолжит свой стремительный рост, руководство уверено, что сможет и дальше привлекать средства от инвесторов. Альтернативой может стать приоритет выхода на безубыточность, однако на прошлой неделе Sam Altman заявил, что сейчас выход на прибыльность «не входит даже в топ-10 моих приоритетов».
— В OpenAI также рассчитывают, что расходы на вычислительные мощности резко снизятся благодаря конкуренции между поставщиками [удобно, что они заключили сделки и с AMD, и с Nvidia, и с Broadcom] и техническому прогрессу.
— В будущем компания может залезать в кредиты, чтобы покрывать обязательства перед партнёрами. Заключенные недавно сделки с AMD и Nvidia помогут компании дать сигнал «нам можно доверять, дате деняк». «Мы сотрудничаем со всеми, чтобы разработать креативные стратегии финансирования». — говорят в компании.
3👍73
  
  Сиолошная
Sama продолжит прогибать людей под себя
«CEO OpenAI Sam Altman оказывает давление на TSMC, чтобы та освободила больше производственных мощностей для выпуска ИИ-чипа стартапа, разработанного совместно с Broadcom» — TheInformation
Вспомнил новость годовой давности: «Руководители TSMC пренебрежительно назвали Sam Altman «podcasting bro» — глава OpenAI якобы делал абсурдные запросы на строительство 36 чиповых фабрик на сумму 7 триллионов долларов».
🤣 
Вспомнил новость годовой давности: «Руководители TSMC пренебрежительно назвали Sam Altman «podcasting bro» — глава OpenAI якобы делал абсурдные запросы на строительство 36 чиповых фабрик на сумму 7 триллионов долларов».
Please open Telegram to view this post
    VIEW IN TELEGRAM
  3🤣175🌚43
  