Сиолошная 2986

Сиолошная

Уже пару недель думаю над следующим лонгом про мою точку зрения на беспрецедентные инвестиции в OpenAI и инфраструктуру. Если делать TLDR идеи, то это звучит как «всё норм если модели продолжат расти в качестве, а Sama продолжит прогибать людей под себя». Однако важно, чтобы «расти в качестве» перерастало в выручку (не обязательно прибыль) — чтобы продолжать растить инфраструктуру датацентров.

У OpenAI очень амбициозный план роста выручки в ближайшие 5 лет. Epoch.AI в свежей рассылке постарались сравнить текущее положение и план с уже состоявшимися успешными компаниями.

Выручка OpenAI впервые превысила $1 млрд в 2023 году и превысит $10 млрд в 2025 году. Это впечатляющий, хотя и не беспрецедентный рост — несколько других компаний в истории демонстрировали сопоставимые темпы роста, см. картинку 1. Всего таких компаний было 4 за последние 50 лет истории рынка США, и OpenAI стали пятой.

Из этих четырёх компаний только Google смогла затем достичь уровня выручки в $100 млрд, в который целится OpenAI уже в 2028м году. Остальные даже не превысили порог в $40 млрд (каждая, не в сумме).

Сейчас, если делать оценку по буквально 3 точкам, OpenAI растёт в 3 раза в год, в то время как рост Google был около x2 в год в тот период, когда её выручка впервые превысила $10 млрд. Таким образом (если не учитывать Moderna и ковид) OpenAI может назвать самой быстрорастущей компанией, достигшей выручки в $10 млрд.

План OpenAI продолжить рост выручки в 2,3 раза в 2026 году, в 2 раза в 2027 году и в 1,6 раза в 2028 году. В истории пока не было примеров столь стремительного роста компаний с уже существенной выручкой.

На американском рынке есть 7 компаний, которые за последние 50 лет выросли до 100 миллиардов годовой выручки, и 6 из них сделали это в последние 15 лет (см. картинку). Самыми быстрыми компаниями, пересёкшими эту границу, были Tesla и Meta — за семь лет, за ними идут Nvidia, Apple и Amazon — за восемь лет, Walmart — за девять и Google — за десять лет. Среднегодовой коэффициент роста доходов этих компаний в период бурного роста составил x1,3.

В этом смысле цели OpenAI означают беспрецедентно высокие темпы роста.

Единственный пример более быстрого роста, который удалось найти автору — это ByteDance, материнская компания TikTok (привет, Sora 2 😱). В долларовом выражении её выручка впервые превысила $10 млрд в 2019 году и достигла $100 млрд уже в 2024 году, то есть всего за пять лет.

Кажется, что это не аргументы в пользу OpenAI, которые хотят совершить квантовый скачок 10 -> 100 за 3 года. Один из доводов в их поддержку заключается в том, что в экономике может существовать тенденция к ускорению таких достижений. По мере роста ВВП подобные результаты становятся всё более достижимыми. С 2015-го года ВВП вырос на 61% (охренел когда посчитал, но с учётом инфляции 25%).

Так что возможно, что если OpenAI достигнет «всего лишь» уровня в $50 млрд в 2028-м году — что само по себе впечатляющий результат — ей просто придётся замедлить темпы строительства дата-центров, а в остальном компания останется финансово здоровой. А может быть даже и этого не придётся делать, если часть подрядчиков не смогут выполнить свои обещания в срок и сдать датацентры.

Но главное запомнить сейчас, насколько невероятным кажется план OpenAI, чтобы с удивлением смотреть, когда в 2028-м году Васян будет говорить «ну так очевидно что они и 150 миллиардов сделают, с такой-то технологией любой дурак сможет, чё там».

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍123🔥32🤡12🤯11119🌚6❤‍🔥2🤔2🎉1👨‍💻1

17K views20:22

Сиолошная

Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM. Dylan Patel, основатель SemiAnalysis, в недавнем подкасте отвечал на вопрос: насколько он верит, что кто-то сможет составить серьёзную конкуренцию Nvidia? Он…

Недавно писал про то, что видеокарты Nvidia становятся лучше буквально с каждой неделей, так как команда инженеров дописывает ПО и улучшает производительность у карт нового поколения. Цитирую свой прошлый пост: «Если сравнивать перформанс на начало и конец периода, то MFU (model flops utilization, доля утилизации от пиковой для GPU) вырос с 34% до 54% — относительный рост на целых 57%!».

SemiAnalysis делает техническое саммари того, какие изменения произошли недавно. С начала июля по 31 августа производительность декодирования (генерции) выходных токенов для модели DeepSeek (в FP4 на стойке GB200 NVL72 (72 фактически лучших видеокарты) улучшилась на 10–15% на всех уровнях скорости генерации, измеряемой на уровне сесии (токенов-в-секунду-на-пользователя).

— Одна из оптимизаций включает в себя объединение нескольких кернелов (маленьких программ на CUDA для выполнения на GPU) AllToAll — объединение активаций каждого токена с его метаданными, такими как коэффициенты масштабирования при квантизации или выбранный роутером эксперт. Специальный кернел AllToAll использует LL128, где теперь для каждых 128 байт требуется только 8 байтов флагов для определения куда отправлять эмбеддинг и взвешенного суммирования результатов (combine-and-dispatch). Такой подход обеспечивает меньшие накладные расходы, чем стандартный протокол.

— Другая оптимизация решает проблему, из-за которой копирование и объединения в eager-режиме PyTorch выполнялись слишком медленно. При размере батча 1 (один запрос в LLM за раз) и 8 тысячах токенов контекста это занимало 306 µs на GB200, что в 3,8 раза медленнее теоретического предела, рассчитанного на основе скорости света. В результате оптимизации стало всего в 1,3 медленнее теории. Операции копирования и конкатенации используются в MLA, DeepSeek'овском варианте аттеншена.

— Реализована оптимизация PDL, которая позволяет зависимым кернелам запускаться до завершения работы родительского кернела. Это позволяет выполнять настройку и подготовку к запуску в параллель, а не замедлять процесс потом в момент вызова.

Результаты на картинке: при увеличении скорости генерации на каждого пользователя с 77 до 83 токенов в секунду общая пропускная способность в токенах на карту выросла с 951 до 1105. В одной стойке 72 видеокарты, то есть теперь вместо обслуживания 890 пользователей одновременно можно обслуживать 958 (без просадки по скорости генерации). И это за два месяца оптимизаций!

🔥120👍31🤯15👨‍💻4❤‍🔥1💩1

13.8K viewsedited 08:47

Сиолошная