Уже пару недель думаю над следующим лонгом про мою точку зрения на беспрецедентные инвестиции в OpenAI и инфраструктуру. Если делать TLDR идеи, то это звучит как «всё норм если модели продолжат расти в качестве, а Sama продолжит прогибать людей под себя». Однако важно, чтобы «расти в качестве» перерастало в выручку (не обязательно прибыль) — чтобы продолжать растить инфраструктуру датацентров.
У OpenAI очень амбициозный план роста выручки в ближайшие 5 лет. Epoch.AI в свежей рассылке постарались сравнить текущее положение и план с уже состоявшимися успешными компаниями.
Выручка OpenAI впервые превысила $1 млрд в 2023 году и превысит $10 млрд в 2025 году. Это впечатляющий, хотя и не беспрецедентный рост — несколько других компаний в истории демонстрировали сопоставимые темпы роста, см. картинку 1. Всего таких компаний было 4 за последние 50 лет истории рынка США, и OpenAI стали пятой.
Из этих четырёх компаний только Google смогла затем достичь уровня выручки в $100 млрд, в который целится OpenAI уже в 2028м году. Остальные даже не превысили порог в $40 млрд (каждая, не в сумме).
Сейчас, если делать оценку по буквально 3 точкам, OpenAI растёт в 3 раза в год, в то время как рост Google был около x2 в год в тот период, когда её выручка впервые превысила $10 млрд. Таким образом (если не учитывать Moderna и ковид) OpenAI может назвать самой быстрорастущей компанией, достигшей выручки в $10 млрд.
План OpenAI продолжить рост выручки в 2,3 раза в 2026 году, в 2 раза в 2027 году и в 1,6 раза в 2028 году. В истории пока не было примеров столь стремительного роста компаний с уже существенной выручкой.
На американском рынке есть 7 компаний, которые за последние 50 лет выросли до 100 миллиардов годовой выручки, и 6 из них сделали это в последние 15 лет (см. картинку). Самыми быстрыми компаниями, пересёкшими эту границу, были Tesla и Meta — за семь лет, за ними идут Nvidia, Apple и Amazon — за восемь лет, Walmart — за девять и Google — за десять лет. Среднегодовой коэффициент роста доходов этих компаний в период бурного роста составил x1,3.
В этом смысле цели OpenAI означают беспрецедентно высокие темпы роста.
Единственный пример более быстрого роста, который удалось найти автору — это ByteDance, материнская компания TikTok (привет, Sora 2😱 ). В долларовом выражении её выручка впервые превысила $10 млрд в 2019 году и достигла $100 млрд уже в 2024 году, то есть всего за пять лет.
Кажется, что это не аргументы в пользу OpenAI, которые хотят совершить квантовый скачок 10 -> 100 за 3 года. Один из доводов в их поддержку заключается в том, что в экономике может существовать тенденция к ускорению таких достижений. По мере роста ВВП подобные результаты становятся всё более достижимыми. С 2015-го года ВВП вырос на 61% (охренел когда посчитал, но с учётом инфляции 25%).
Так что возможно, что если OpenAI достигнет «всего лишь» уровня в $50 млрд в 2028-м году — что само по себе впечатляющий результат — ей просто придётся замедлить темпы строительства дата-центров, а в остальном компания останется финансово здоровой. А может быть даже и этого не придётся делать, если часть подрядчиков не смогут выполнить свои обещания в срок и сдать датацентры.
Но главное запомнить сейчас, насколько невероятным кажется план OpenAI, чтобы с удивлением смотреть, когда в 2028-м году Васян будет говорить «ну так очевидно что они и 150 миллиардов сделают, с такой-то технологией любой дурак сможет, чё там».
У OpenAI очень амбициозный план роста выручки в ближайшие 5 лет. Epoch.AI в свежей рассылке постарались сравнить текущее положение и план с уже состоявшимися успешными компаниями.
Выручка OpenAI впервые превысила $1 млрд в 2023 году и превысит $10 млрд в 2025 году. Это впечатляющий, хотя и не беспрецедентный рост — несколько других компаний в истории демонстрировали сопоставимые темпы роста, см. картинку 1. Всего таких компаний было 4 за последние 50 лет истории рынка США, и OpenAI стали пятой.
Из этих четырёх компаний только Google смогла затем достичь уровня выручки в $100 млрд, в который целится OpenAI уже в 2028м году. Остальные даже не превысили порог в $40 млрд (каждая, не в сумме).
Сейчас, если делать оценку по буквально 3 точкам, OpenAI растёт в 3 раза в год, в то время как рост Google был около x2 в год в тот период, когда её выручка впервые превысила $10 млрд. Таким образом (если не учитывать Moderna и ковид) OpenAI может назвать самой быстрорастущей компанией, достигшей выручки в $10 млрд.
План OpenAI продолжить рост выручки в 2,3 раза в 2026 году, в 2 раза в 2027 году и в 1,6 раза в 2028 году. В истории пока не было примеров столь стремительного роста компаний с уже существенной выручкой.
На американском рынке есть 7 компаний, которые за последние 50 лет выросли до 100 миллиардов годовой выручки, и 6 из них сделали это в последние 15 лет (см. картинку). Самыми быстрыми компаниями, пересёкшими эту границу, были Tesla и Meta — за семь лет, за ними идут Nvidia, Apple и Amazon — за восемь лет, Walmart — за девять и Google — за десять лет. Среднегодовой коэффициент роста доходов этих компаний в период бурного роста составил x1,3.
В этом смысле цели OpenAI означают беспрецедентно высокие темпы роста.
Единственный пример более быстрого роста, который удалось найти автору — это ByteDance, материнская компания TikTok (привет, Sora 2
Кажется, что это не аргументы в пользу OpenAI, которые хотят совершить квантовый скачок 10 -> 100 за 3 года. Один из доводов в их поддержку заключается в том, что в экономике может существовать тенденция к ускорению таких достижений. По мере роста ВВП подобные результаты становятся всё более достижимыми. С 2015-го года ВВП вырос на 61% (охренел когда посчитал, но с учётом инфляции 25%).
Так что возможно, что если OpenAI достигнет «всего лишь» уровня в $50 млрд в 2028-м году — что само по себе впечатляющий результат — ей просто придётся замедлить темпы строительства дата-центров, а в остальном компания останется финансово здоровой. А может быть даже и этого не придётся делать, если часть подрядчиков не смогут выполнить свои обещания в срок и сдать датацентры.
Но главное запомнить сейчас, насколько невероятным кажется план OpenAI, чтобы с удивлением смотреть, когда в 2028-м году Васян будет говорить «ну так очевидно что они и 150 миллиардов сделают, с такой-то технологией любой дурак сможет, чё там».
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍123🔥32🤡12🤯11 11 9🌚6❤🔥2🤔2🎉1👨💻1
Сиолошная
Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM. Dylan Patel, основатель SemiAnalysis, в недавнем подкасте отвечал на вопрос: насколько он верит, что кто-то сможет составить серьёзную конкуренцию Nvidia? Он…
Недавно писал про то, что видеокарты Nvidia становятся лучше буквально с каждой неделей, так как команда инженеров дописывает ПО и улучшает производительность у карт нового поколения. Цитирую свой прошлый пост: «Если сравнивать перформанс на начало и конец периода, то MFU (model flops utilization, доля утилизации от пиковой для GPU) вырос с 34% до 54% — относительный рост на целых 57%!».
SemiAnalysis делает техническое саммари того, какие изменения произошли недавно. С начала июля по 31 августа производительность декодирования (генерции) выходных токенов для модели DeepSeek (в FP4 на стойке GB200 NVL72 (72 фактически лучших видеокарты) улучшилась на 10–15% на всех уровнях скорости генерации, измеряемой на уровне сесии (токенов-в-секунду-на-пользователя).
— Одна из оптимизаций включает в себя объединение нескольких кернелов (маленьких программ на CUDA для выполнения на GPU) AllToAll — объединение активаций каждого токена с его метаданными, такими как коэффициенты масштабирования при квантизации или выбранный роутером эксперт. Специальный кернел AllToAll использует LL128, где теперь для каждых 128 байт требуется только 8 байтов флагов для определения куда отправлять эмбеддинг и взвешенного суммирования результатов (combine-and-dispatch). Такой подход обеспечивает меньшие накладные расходы, чем стандартный протокол.
— Другая оптимизация решает проблему, из-за которой копирование и объединения в eager-режиме PyTorch выполнялись слишком медленно. При размере батча 1 (один запрос в LLM за раз) и 8 тысячах токенов контекста это занимало 306 µs на GB200, что в 3,8 раза медленнее теоретического предела, рассчитанного на основе скорости света. В результате оптимизации стало всего в 1,3 медленнее теории. Операции копирования и конкатенации используются в MLA, DeepSeek'овском варианте аттеншена.
— Реализована оптимизация PDL, которая позволяет зависимым кернелам запускаться до завершения работы родительского кернела. Это позволяет выполнять настройку и подготовку к запуску в параллель, а не замедлять процесс потом в момент вызова.
Результаты на картинке: при увеличении скорости генерации на каждого пользователя с 77 до 83 токенов в секунду общая пропускная способность в токенах на карту выросла с 951 до 1105. В одной стойке 72 видеокарты, то есть теперь вместо обслуживания 890 пользователей одновременно можно обслуживать 958 (без просадки по скорости генерации). И это за два месяца оптимизаций!
SemiAnalysis делает техническое саммари того, какие изменения произошли недавно. С начала июля по 31 августа производительность декодирования (генерции) выходных токенов для модели DeepSeek (в FP4 на стойке GB200 NVL72 (72 фактически лучших видеокарты) улучшилась на 10–15% на всех уровнях скорости генерации, измеряемой на уровне сесии (токенов-в-секунду-на-пользователя).
— Одна из оптимизаций включает в себя объединение нескольких кернелов (маленьких программ на CUDA для выполнения на GPU) AllToAll — объединение активаций каждого токена с его метаданными, такими как коэффициенты масштабирования при квантизации или выбранный роутером эксперт. Специальный кернел AllToAll использует LL128, где теперь для каждых 128 байт требуется только 8 байтов флагов для определения куда отправлять эмбеддинг и взвешенного суммирования результатов (combine-and-dispatch). Такой подход обеспечивает меньшие накладные расходы, чем стандартный протокол.
— Другая оптимизация решает проблему, из-за которой копирование и объединения в eager-режиме PyTorch выполнялись слишком медленно. При размере батча 1 (один запрос в LLM за раз) и 8 тысячах токенов контекста это занимало 306 µs на GB200, что в 3,8 раза медленнее теоретического предела, рассчитанного на основе скорости света. В результате оптимизации стало всего в 1,3 медленнее теории. Операции копирования и конкатенации используются в MLA, DeepSeek'овском варианте аттеншена.
— Реализована оптимизация PDL, которая позволяет зависимым кернелам запускаться до завершения работы родительского кернела. Это позволяет выполнять настройку и подготовку к запуску в параллель, а не замедлять процесс потом в момент вызова.
Результаты на картинке: при увеличении скорости генерации на каждого пользователя с 77 до 83 токенов в секунду общая пропускная способность в токенах на карту выросла с 951 до 1105. В одной стойке 72 видеокарты, то есть теперь вместо обслуживания 890 пользователей одновременно можно обслуживать 958 (без просадки по скорости генерации). И это за два месяца оптимизаций!
🔥120👍31🤯15👨💻4❤🔥1💩1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 3.0 маячит на горизонте, в твиттере всё больше слухов, на сайте в коде страницы появились первые упоминания, а пользователям AI Studio предлагает выбрать как ответ из двух лучше, где один из них явно выделяется по качеству.
Ответ гугла на недавние релизы OpenAI и Anthropic очень ждем. Для вас выцепил несколько примеров работы модели в режиме single-shot, то есть когда за раз генерируется весь ответ. В данном случае автор просил сгенерировать разные приложения и операционные системы — для приставок, компьютеров, айфона. И в каждом есть несколько мини-игр и/или функциональных приложений, хоть и самых простых.
В среднем в коде примерно 1000-1200 строк, включая все графические элементы. Я был удивлён, что так мало кода может давать столько контента, если честно.
Почему важно отметить, что генерации получены за раз? Потому что сейчас основной фокус фронтир-моделей направлен на увеличение горизонта работы, чтобы за множество шагов в режиме агента выполнять задачи на час-два-пять. Может быть так, что модель хороша в генерации сходу, но не улучшается при предоставлении большего количества времени, что плохо.
В чате посравнивали с генерациями GPT-5 и Claude, выглядит сильно лучше, и предоставляет больше рабочего функционала. Очень интересно через годик будет почитать в опенсурсе о том, как сделать подобное. Моя догадка — RL с наградой через оценку функциональности агентом. То есть модель пишет код, другая модель выступает в роли тестировщика, пишет себе отчёт о работоспособности, сама выделяя ключевые пункты, и затем это кормится как фидбек в обучаемую модель.
Ответ гугла на недавние релизы OpenAI и Anthropic очень ждем. Для вас выцепил несколько примеров работы модели в режиме single-shot, то есть когда за раз генерируется весь ответ. В данном случае автор просил сгенерировать разные приложения и операционные системы — для приставок, компьютеров, айфона. И в каждом есть несколько мини-игр и/или функциональных приложений, хоть и самых простых.
В среднем в коде примерно 1000-1200 строк, включая все графические элементы. Я был удивлён, что так мало кода может давать столько контента, если честно.
Почему важно отметить, что генерации получены за раз? Потому что сейчас основной фокус фронтир-моделей направлен на увеличение горизонта работы, чтобы за множество шагов в режиме агента выполнять задачи на час-два-пять. Может быть так, что модель хороша в генерации сходу, но не улучшается при предоставлении большего количества времени, что плохо.
В чате посравнивали с генерациями GPT-5 и Claude, выглядит сильно лучше, и предоставляет больше рабочего функционала. Очень интересно через годик будет почитать в опенсурсе о том, как сделать подобное. Моя догадка — RL с наградой через оценку функциональности агентом. То есть модель пишет код, другая модель выступает в роли тестировщика, пишет себе отчёт о работоспособности, сама выделяя ключевые пункты, и затем это кормится как фидбек в обучаемую модель.
3🔥180🤯29👍20🎉13❤🔥4🤔3💩2👨💻1
В FT вышло две колонки (раз и два) про OpenAI, описывающие текущее состояние и ближайшее будущее компании. Выписал для вас несколько тезисов:
— по текущему плану, после конвертации некоммерческой организации в коммерческую НКО останется и получит примерно 20-25% компании, но не получит специальных акционерных прав в новой структуре. Вместо этого она получит право выдвигать директоров в коммерческой OpenAI — компания надеется, что эта мера удовлетворит генеральных прокуроров Калифорнии и Делавэра, которые могут заблокировать преобразование, если посчитают, что оно подрывает благотворительные цели OpenAI.
— По словам источников, знакомых с процессом, генеральный директор OpenAI Sam Altman получит долю в компании, однако обсуждение этого вопроса начнётся только после завершения преобразования. Один из источников добавил, что активных переговоров о выделении его доли на данный момент не ведётся. Напомню, что, согласно новостям, это требование инвесторов: дать долю CEO, чтобы у него был коммерческий интерес; сейчас он не владеет никакой частью OpenAI.
— В рамках пятилетнего плана OpenAI работает над новыми источниками дохода, партнёрствами по долговому финансированию и привлечением дополнительных инвестиций, чтобы оправдать обещанные затраты в размере более $1 трлн на создание массивных датацентров. OpenAI планирует заключать сделки с государствами и бизнесами, предлагая им специализированные продукты, увеличивать доходы за счёт новых инструментов для шопинга, а также продаж через сервис создания видео Sora и AI-агентов, сообщили сразу несколько источников.
— Регулярная аудитория ChatGPT превышает 800 млн пользователей, но лишь 5% из них — платные подписчики, и один из директоров заявил, что OpenAI планирует удвоить эту долю.
— Партнёры компании, такие как Oracle, взяли на себя предварительные расходы на инфраструктуру, и OpenAI надеется, что сможет вырасти и покрыть обязательства перед партнёрами за счёт выручки в будущем. Один из руководителей пояснил, что такой подход позволяет компании «использовать балансы других компаний», чтобы «выиграть время для развития бизнеса». Если OpenAI продолжит свой стремительный рост, руководство уверено, что сможет и дальше привлекать средства от инвесторов. Альтернативой может стать приоритет выхода на безубыточность, однако на прошлой неделе Sam Altman заявил, что сейчас выход на прибыльность «не входит даже в топ-10 моих приоритетов».
— В OpenAI также рассчитывают, что расходы на вычислительные мощности резко снизятся благодаря конкуренции между поставщиками [удобно, что они заключили сделки и с AMD, и с Nvidia, и с Broadcom] и техническому прогрессу.
— В будущем компания может залезать в кредиты, чтобы покрывать обязательства перед партнёрами. Заключенные недавно сделки с AMD и Nvidia помогут компании дать сигнал «нам можно доверять, дате деняк». «Мы сотрудничаем со всеми, чтобы разработать креативные стратегии финансирования». — говорят в компании.
— по текущему плану, после конвертации некоммерческой организации в коммерческую НКО останется и получит примерно 20-25% компании, но не получит специальных акционерных прав в новой структуре. Вместо этого она получит право выдвигать директоров в коммерческой OpenAI — компания надеется, что эта мера удовлетворит генеральных прокуроров Калифорнии и Делавэра, которые могут заблокировать преобразование, если посчитают, что оно подрывает благотворительные цели OpenAI.
— По словам источников, знакомых с процессом, генеральный директор OpenAI Sam Altman получит долю в компании, однако обсуждение этого вопроса начнётся только после завершения преобразования. Один из источников добавил, что активных переговоров о выделении его доли на данный момент не ведётся. Напомню, что, согласно новостям, это требование инвесторов: дать долю CEO, чтобы у него был коммерческий интерес; сейчас он не владеет никакой частью OpenAI.
— В рамках пятилетнего плана OpenAI работает над новыми источниками дохода, партнёрствами по долговому финансированию и привлечением дополнительных инвестиций, чтобы оправдать обещанные затраты в размере более $1 трлн на создание массивных датацентров. OpenAI планирует заключать сделки с государствами и бизнесами, предлагая им специализированные продукты, увеличивать доходы за счёт новых инструментов для шопинга, а также продаж через сервис создания видео Sora и AI-агентов, сообщили сразу несколько источников.
— Регулярная аудитория ChatGPT превышает 800 млн пользователей, но лишь 5% из них — платные подписчики, и один из директоров заявил, что OpenAI планирует удвоить эту долю.
— Партнёры компании, такие как Oracle, взяли на себя предварительные расходы на инфраструктуру, и OpenAI надеется, что сможет вырасти и покрыть обязательства перед партнёрами за счёт выручки в будущем. Один из руководителей пояснил, что такой подход позволяет компании «использовать балансы других компаний», чтобы «выиграть время для развития бизнеса». Если OpenAI продолжит свой стремительный рост, руководство уверено, что сможет и дальше привлекать средства от инвесторов. Альтернативой может стать приоритет выхода на безубыточность, однако на прошлой неделе Sam Altman заявил, что сейчас выход на прибыльность «не входит даже в топ-10 моих приоритетов».
— В OpenAI также рассчитывают, что расходы на вычислительные мощности резко снизятся благодаря конкуренции между поставщиками [удобно, что они заключили сделки и с AMD, и с Nvidia, и с Broadcom] и техническому прогрессу.
— В будущем компания может залезать в кредиты, чтобы покрывать обязательства перед партнёрами. Заключенные недавно сделки с AMD и Nvidia помогут компании дать сигнал «нам можно доверять, дате деняк». «Мы сотрудничаем со всеми, чтобы разработать креативные стратегии финансирования». — говорят в компании.
3👍65 60🤔10🌚4❤🔥1🤡1
Сиолошная
Sama продолжит прогибать людей под себя
«CEO OpenAI Sam Altman оказывает давление на TSMC, чтобы та освободила больше производственных мощностей для выпуска ИИ-чипа стартапа, разработанного совместно с Broadcom» — TheInformation
Вспомнил новость годовой давности: «Руководители TSMC пренебрежительно назвали Sam Altman «podcasting bro» — глава OpenAI якобы делал абсурдные запросы на строительство 36 чиповых фабрик на сумму 7 триллионов долларов».
🤣
Вспомнил новость годовой давности: «Руководители TSMC пренебрежительно назвали Sam Altman «podcasting bro» — глава OpenAI якобы делал абсурдные запросы на строительство 36 чиповых фабрик на сумму 7 триллионов долларов».
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤣161🌚40 33🔥14🤔8🤡3
Сиолошная
Бенчмарк FrontierMath от Epoch.AI
Грустно видеть, что несмотря на то, что про бенчмарк я пиал два раза за последние 10 дней (7 и 11 октября), всё равно половина отметила «нет, не знаем». Я думал, что подводку хоть не надо будет писать, так как на слуху же, но нет... в общем, если не знаете — отправляю читать сюда.
Сейчас на первых трёх уровнях сложности из четырёх лучшая модель, GPT-5-High, решает 29% задач. Но это если делать 1 прогон и сравнивать один ответ. Но если бы вы запустили GPT-5 бесконечное количество раз, решила бы она в конечном итоге все проблемы?
Epoch.AIразвели OpenAI на кредиты и решили это проверить, сделав по 32 прогона. Кроме этого, модели дали в 10 раз больше токенов на подумать, чем в прошлые замеры. Суммарно решили 134 задачи, или 46%. Авторы оценили динамику (см. первую и вторую картинки) и пришли к выводу, что скорее всего потолок примерно 50%.
Из оставшихся задач выбрали 10 и прогнали ещё 100 раз — и ни в одной из попыток ни для одной из задач GPT-5 не смогла дать правильный ответ. Это согласуется с ожиданиями.
Если же сделать суп из всех моделей и систем, которые тестировались на бенчмарке, включая ChatGPT Agent и Gemini Deep Think, то суммарно решается 57% задач, что почти наверянка не превышает 70%, если делать сильно больше прогонов.
Зачем вообще заниматься такой оценкой? Она может подсказать нам, чего ждать от ближайших обновлений моделей. Из-за того, как устроен процесс обучения размышлениям, можно ожидать, что если задача решается хотя бы один раз в 32-64 генерации, то можно забутстрепить до плюс-минус надёжного решения этой и других схожих задач.
И вот сейчас оказывается, что для 30% задач даже одной такой попытки нет. Правда у меня тут есть скепсис: часть задач в бенчмарке подразумевает поиск узкосепциализированной литературы по математическим разделам. Помню, что для некоторых задач давали описание, что их понимает буквально 10-20 человек на планете, и что по смежным темам есть по 2-3 статьи.
Из всех замеренных систем только ChatGPT Agent имеет доступ в интернет, и он показывает самый лучший результат при 16 прогонах, решая 49% задач, 14 из которых не решены ни одной другой моделью (у GPT-5 тут 46% при 32 решениях и всего 1 уникальная задача). Epoch.AI пишут, что в будущем добавят возможность делать поиск в интернете — ждём обновлений результатов в будущем.
По оценке авторов, в 2026-м модели будут решать +- 80% задач (с первой попытки, не группой).
Сейчас на первых трёх уровнях сложности из четырёх лучшая модель, GPT-5-High, решает 29% задач. Но это если делать 1 прогон и сравнивать один ответ. Но если бы вы запустили GPT-5 бесконечное количество раз, решила бы она в конечном итоге все проблемы?
Epoch.AI
Из оставшихся задач выбрали 10 и прогнали ещё 100 раз — и ни в одной из попыток ни для одной из задач GPT-5 не смогла дать правильный ответ. Это согласуется с ожиданиями.
Если же сделать суп из всех моделей и систем, которые тестировались на бенчмарке, включая ChatGPT Agent и Gemini Deep Think, то суммарно решается 57% задач, что почти наверянка не превышает 70%, если делать сильно больше прогонов.
Зачем вообще заниматься такой оценкой? Она может подсказать нам, чего ждать от ближайших обновлений моделей. Из-за того, как устроен процесс обучения размышлениям, можно ожидать, что если задача решается хотя бы один раз в 32-64 генерации, то можно забутстрепить до плюс-минус надёжного решения этой и других схожих задач.
И вот сейчас оказывается, что для 30% задач даже одной такой попытки нет. Правда у меня тут есть скепсис: часть задач в бенчмарке подразумевает поиск узкосепциализированной литературы по математическим разделам. Помню, что для некоторых задач давали описание, что их понимает буквально 10-20 человек на планете, и что по смежным темам есть по 2-3 статьи.
Из всех замеренных систем только ChatGPT Agent имеет доступ в интернет, и он показывает самый лучший результат при 16 прогонах, решая 49% задач, 14 из которых не решены ни одной другой моделью (у GPT-5 тут 46% при 32 решениях и всего 1 уникальная задача). Epoch.AI пишут, что в будущем добавят возможность делать поиск в интернете — ждём обновлений результатов в будущем.
По оценке авторов, в 2026-м модели будут решать +- 80% задач (с первой попытки, не группой).
3🤯76👍61🔥34🤣7🤡5 3🤔1
Forwarded from See All
Попросил GPT-5 написать сценарий для Sora 2 с описанием того, что за бенчмарк этот ваш Frontier Math 😀 производим тиктокенизацию канала и распространения знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
8🤣236🔥89🌚28👍20 18🤡17 10💩5