Проснулись потянулись и читаем новости o3:

1) возможно уже на этой неделе (обычно релизы по четвергам) выйдет o3 pro: она ещё в начале прошлой недели засветилась в коде сайта, потом её было видно на стриме одного из разработчиков OpenAI, а сегодня на сайт загрузили логотип модели

2) o3, возможно, подешевеет: кто-то написал в твиттере, что запрос стоил сильно дешевле, чем они ожидали (то есть цена упала, хоть об этом нигде и не написано), а официальный аккаунт разработчиков OpenAI под двумя другими постами ответил «hmmm» на сообщения в духе «o3 отличная модель, но цена высоковата»

3) OpenAI достигли аннуализированной выручки (экстраполяция последнего месяца на год) 10 миллиардов долларов. Если мне не изменяет память, последний раз официальные цифры были в декабре и составляли $5.5B — неплохой рост за полгода!
Началась раскатка o3 pro на Pro юзеров и в API (даже для первого тира)

Винрейт против o3 64% на всех запросах, так что на теоретической арене модель должна быть #1 с большим отрывом.

«o3-pro uses the same underlying model as o3»

Plus юзерам (пока) ничего не дают

Цена сильно упала по сравнению с o1 pro, так что можно надеяться, что хоть бенчмарки прогонят: $20/80$ (было $150/$600 за o1 pro). А o3 вообще копеечной стала, дешевле GPT-4o.
Forwarded from БлоGнот
Уже есть первый обзор o3 Pro — от пользователя с ранним доступом к o3 Pro. Это, кстати, тот, кто первым исследовал o1 pro, если помните. Он делится интересными наблюдениями. Главный вывод — мы входим в эпоху специализированных моделей: есть "обычные" модели для повседневного общения вроде Claude 3.5 Sonnet, а есть медленные и дорогие "reasoning" модели для глубокого анализа сложных задач.

Ключевое открытие автора повторяет его вывод про o1 pro — с o3 Pro нельзя просто болтать, как с ChatGPT. Это скорее генератор отчетов: даешь контекст, ставишь задачу и получаешь детальный анализ. Когда они с соучредителем загрузили всю историю планерок своего стартапа и попросили составить план развития, o3 Pro выдал настолько конкретные и обоснованные рекомендации, что это изменило их видение будущего компании.

Модель заметно лучше понимает свое окружение, точнее определяет доступные инструменты и когда их использовать. Но без достаточного контекста склонна к "overthinking" — чрезмерному анализу простых задач.

По ощущениям автора, o3 Pro кардинально отличается от Claude Opus и Gemini 2.5 Pro. Если Opus "чувствуется большим", но никогда не демонстрировал явных признаков этой "большости", то o3 Pro дает качественно лучшие результаты. OpenAI явно делает ставку на вертикальное развитие reasoning capabilities — обучая модели не просто использовать инструменты, но и понимать, когда это делать.

В общем, начинаем пробовать, мне уже раскатили.

https://www.latent.space/p/o3-pro
Новое эссе Sama: The Gentle Singularity
(«это может быть последний раз, когда я пишу что-то подобное без какой-либо помощи ИИ»)

— Мы прошли горизонт событий; взлет начался. Человечество близко к созданию цифрового суперинтеллекта, и, по крайней мере, это гораздо менее странно, чем должно быть. Роботы не ходят по улицам, люди умирают от болезней, и всё же у нас есть системы, которые умнее людей в чём-то.

— Гораздо больше людей смогут писать программы и творить. Но мир хочет гораздо больше и того, и другого, и эксперты, вероятно, все равно будут намного лучше новичков, если только они будут пользоваться новыми инструментами. В общем, способность одного человека сделать гораздо больше в 2030 году, чем он мог бы сделать в 2020 году, станет поразительным изменением, и многие люди поймут, как извлечь из этого пользу.

— В 2030-х годах интеллект и энергия — идеи и способность воплощать идеи — станут дико изобильными. Эти два фактора долгое время были фундаментальными ограничителями человеческого прогресса; при изобилии интеллекта и энергии (и хорошем управлении) мы теоретически можем создавать и иметь что угодно.

— С этого момента инструменты, которые мы уже построили, помогут нам найти дальнейшие научные идеи и помогут нам в создании лучших систем ИИ. Конечно, это не то же самое, что система ИИ, полностью автономно обновляющая свой собственный код, но тем не менее это личиночная версия рекурсивного самосовершенствования.

— Создание экономической ценности запустило маховик комплексного строительства инфраструктуры для работы этих все более мощных систем ИИ. И роботы, которые могут строить других роботов не так уж далеки.

— С точки зрения релятивизма, сингулярность происходит постепенно, а слияние происходит медленно. Мы поднимаемся по длинной дуге экспоненциального технологического прогресса; она всегда выглядит вертикальной, если смотреть вперед, и плоской, если идти назад, но это одна плавная кривая. (Вспомните 2020 год и то, как бы звучало, если бы к 2025 году было что-то близкое к AGI, по сравнению с тем, как на самом деле выглядели последние 5 лет.)

— Наряду с огромными преимуществами предстоит столкнуться с серьезными проблемами. Одна из них — контроль намерений ИИ систем, другая — сделать ИИ дешевым, широкодоступным и не слишком сконцентрированным на каком-либо человеке, компании или стране.

— «Intelligence too cheap to meter» вполне достижим. Это может показаться безумным, но если бы мы сказали вам в 2020 году, что мы будем там, где мы есть сегодня, это, вероятно, прозвучало бы более безумно, чем наши нынешние прогнозы о 2030м.
Хоть на ЧГК посылай (ну сейчас в комментариях конечно объяснят что это вопрос уровня 3-го класса)

Что это за странные города-соседи у Челябинска в этом списке? Что объединяет их и ещё более 75 городов?
Вероятно на прошлой неделе вы натыкались на упоминания статьи от Apple, где рассказывалось про «ограниченность» мышления рассуждающих моделей. Может быть вы даже видели разгромные разборы этой статьи, где в красках описывалось, где именно авторы налажали (ну например давали задачу, где доказано, что начиная с определенной сложности решений не существует в принципе — а авторы-то выносили это в ограничение моделей). Почитать можно, например, тут (или вот более детальный пост на LW с контекстом).

Решил об этом написать, когда увидел вот этот твит от Dan Hendrycks, который на бенчмаркинге моделей собаку съел (он был авторов нескольких самых именитых бенчей).

«Apple недавно опубликовала статью, показывающую, что современные системы искусственного интеллекта не способны решать простые для людей головоломки.
Люди: 92,7%
GPT-4o: 69,9%

Однако они не проводили оценку самых свежих рассуждающих моделей. Если бы они это сделали, то обнаружили бы, что OpenAI o3 набирает 96,5%, опережая людей»

😂 every single time
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Starship S36 взорвался на тестовом стенде.

Аномалия произошла во время заправки перед длительным прожигом 6 двигателей. Можно заметить, что разрыв начался в районе грузового отсека, где походят магистрали до носовых баков и находятся композитные баллоны высокого давления (COPV).

UPD: во время заправки и огневых тестов весь персонал эвакуируют на безопасное расстояние, так что жертв быть не должно. Но пока неизвестен урон для самой площадки.

📸: NASASpaceFlight
.
В конце марта был скандал: студент одного из престижных университетов разработал AI-ассистента, помогающего проходить собеседования на технарей в разные компании. ДА НЕ ТОЛЬКО ПОКАЗАЛ, ЕГО К ... своему успеху привязал — парень прошёл в Amazon, а потом похвастался про это, доказав, что штука рабочая. (не знаю как сейчас, но раньше про Amazon слышал, что они ООООЧЕНЬ дрючат на онлайн-собесах, вплоть до того что просят камерой показать комнату и место под столом, чтобы вдруг чего там не было).

А этот инструмент очень незаметный, не палится программами разными, и не отображается в изображении экрана, которым вы делитесь во время собеседования.

Парня отчислили из Columbia University (лол) « за публикацию контента с дисциплинарного слушания, а не за создание инструмента искусственного интеллекта».

Это я к чему, они тут намедни привлекли деньги от a16z, и СЕО поделился маркетинговым роликом: https://fixupx.com/im_roy_lee/status/1936138361011585190

Ролик тонко отсылает к The Social Network за авторством David Fincher, моему третьему любимому фильму.

Marketing done right, стильно.

Ну а собесы в текущем виде, конечно, должны умереть и переродиться.
Дамы и господа, Product Director @ T-Bank AI, ex-CPO YouDo:

(без негатива, так и должно быть)
Forwarded from Записки C3PO
Меня в комментах часто спрашивают, а как конкретно в работе применяю AI штуки.
В последнее время супер активно ревьюю 2-/ 6- pager'ы команды и других команд в рамках всяких stage-gate. Читать текст и давать фидбек весьма накладно по времени, а учитывая, что принципы хорошего пейджера стандартные и общие, сделал проект в клоде, куда загрузил доку по stage-gate, принципам хорошей стратегии и продуктовой разработки, принципам написания хорошего пейджера, примеры таких и дал инструкции для трех типов задач:
- когда прошу клод дать фидбек;
- когда прошу оценить его свой фидбек, чтобы удостовериться, что я не галлюцинирую и объективен;
- инструкции написания финального коммента с фидбеком автору документа.

И в этом проекте просто стартуешь новый чат, прикладываешь пейджер и, надиктовывая собственные мысли по нему, получаешь ответ. Смотришь, копипастишь, правишь, отправляешь.

Теперь хочу сделать агента, к которому дам доступ ребятам, чтобы они сначала об него обстучали, а потом уже мне кидали во имя максимально быстрых итераций.

Вот так я делегировал работу ИИ и продолжаю получать свою зарплату. Главное, чтобы начальство не узнало. Oh wait...
Один из ключевых партнёров проекта Stargate по существенному наращиванию AI инфраструктуры, SoftBank, стремится к партнёрству с Taiwan Semiconductor Manufacturing Co. (TSMC, это которые делают чипы и для ваших смартфонов, и для видеокарт) для реализации проекта, который может стать его крупнейшей ставкой на сегодняшний день — промышленного комплекса в Аризоне стоимостью в триллион долларов для производства роботов и разработки искусственного интеллекта.

Как пишет Bloomberg, представители SoftBank уже провели переговоры с официальными лицами на федеральном уровне и уровне штата, чтобы обсудить возможные налоговые льготы для компаний, строящих заводы или иным образом инвестирующих в этот промышленный парк. В число собеседников вошел и министр торговли США.

Идея проекта также была предложена руководству южнокорейской компании Samsung Electronics Co — сейчас они отвечают за производство высокоскоростной памяти, которую ставят в GPU.

По словам источников, стартапы, в которые в прошлом инфестировал SoftBank и которые работают в области робототехники и технологий автоматизации — такие как Agile Robots — могут разместить свои производственные объекты в предполагаемом комплексе.

В случае успеха одного технопарка Son, CEO SoftBank, будет раздумывать над идеей строительства нескольких передовых промышленных комплексов по всей территории США.

Откуда деньги? У самих SoftBank на балансе есть примерно 23 миллиарда долларов, часть из которых вообще-то должна пойти в Stargate и другие проекты. Поэтому они изучают возможность проектного финансирования что для дата-центров Stargate, что для такого масштабного проекта, как Crystal Land. Эта схема, распространенная при создании крупных инфраструктурных объектов, таких как нефте- и газопроводы, позволит технологическому инвестору привлекать финансирование под каждый проект отдельно, что потребует меньших первоначальных вложений.

(Я попросил Gemini объяснить, что за проектное финансирование. Ответ: главная особенность в том, что кредит будет возвращаться исключительно за счет доходов, которые принесет сам этот проект в будущем + для финансирования привлекается большое количество независимых инвесторов, включая суверенные фонды)
Вот вы прочитали новость выше и такие глаза выпучили: ТРИЛЛИОН? И это в дополнение к полутриллионому Stargate и полутриллионому кластеру на Ближнем Востоке? Да куда столько! Это же никогда не окупится! Это всё пузырь, хайп!

Чтобы ответить, пригодится свежее исследование Epoch AI. В марте они представили модель GATE (Growth & AI Transition Endogenous). По сути это «песочница», где экономисты и технари скрестили классическую теорию роста с наблюдаемыми законами масштабирования и улучшения ИИ: больше вычислительных мощностей → сильнее модели → больше задач автоматизируется → экономика растёт, а часть прироста снова идёт на чипы в дата‑центры и исследования. Это если упрощать, под капотом учитывается ещё много факторов (а технический отчёт занимает 85 страниц).

Получился замкнутый контур, позволяющий прикинуть, какие затраты на железо вообще кажутся разумными, если смотреть не на сегодняшний P&L, а на поток денег после массовой автоматизации. Про GATE стоило вообще написать отдельно, но как нибудь в другой раз.

Последний же апдейт от исследователей тех же Epoch AI звучит ещё жёстче: оптимальная, подчёркиваю — оптимальная — сумма вложений на вычислительную инфраструктуру может без особого драматизма превысить 10 % мирового ВВП. Переведём в доллары — десять‑двенадцать триллионов ежегодно (и 25 триллионов в самом оптимистичном сценарии). На этом фоне Stargate, SoftBank-овский технопарк и арабский супер-кластер вместе взятые — скромная пристройка во дворе.

Скептики обычно достают «эффект Баумоля»: мол, останутся профессии, которые AI (и, возможно, роботами) не закрыть, и они задавят общий темп. Авторы GATE провели симуляции с разными значениями этого эффекта и нашли, что даже при консервативных значениях, где боттлнек заметный, двузначные темпы роста появляются рано. Картина такая:
— автоматизировано 30 % задач — модель уже рисует рост мирового ВВП под 20 % в год;
— до «по‑настоящему взрывных» >30 % в год нужно 50–70 % автоматизации;
— а если вручную добавить три тормоза — внешние эффекты R&D, неуверенность инвесторов и затруднённую переквалификацию людей (не получится быстро растить те области, которые автоматизация не задела) — рост сглаживается, но при 40 % автоматизации всё равно остаётся около 12 % в год, то есть уровень «азиатских тигров» на пике.

То есть по модели GATE даже в «реалистичном» сценарии (где все параметры для модели были выведены эмпирически и/или с привлечением экспертов) нынешние вложения в AI-инфраструктуру не избыточны, а недостаточны. GATE в базовом сценарии бросает в AI-разработку такие суммы, что сегодняшние «полутриллионы» выглядят мелочью. И причина ‒ не безумный оптимизм, а арифметика: глобальный фонд оплаты труда оценивается примерно в 50 трлн $; если вы потенциально отжимаете значительную долю этой суммы с помощью «цифровых рабочих», то и несколько триллионов капексов кажутся разумной ставкой.

Почему же тогда нет очереди из банков с мешками денег? (хотя ладно, пару триллионов вроде как запланировали потратить). У Epoch AI есть набор гипотез:
— AI-компании не смогут забрать себе весь экономический прирост, что создают (то есть из +20% ВВП они не получат все эти 20 процентов)
— неопределённость насчёт реальных потолков автоматизации
— риски протестов/вмешательства регуляторов в будущем
— банальное «психологическое отставание», типа инвесторы смотрят в зеркало заднего вида

Но даже после того как в модель добавили несколько компенсирующих коэффициентов для учёта вышеууказанных факторов ( и «экстерналии», и страх перед регулятором, и ленивых людей, которые не хотят переквалифицироваться), оптимальные инвестиции падают лишь до 15 % ВВП — всё ещё на порядок выше текущих.
Теперь вернёмся к SoftBank и прочим проектам. Что они предлагают? Они берут классическую схему проектного финансирования из нефтегазовых мегастроек и пытается привязать долг не к своему балансу, а к будущим денежным потокам индустриального парка: кремниевый завод + дата‑центры + линия сборки роботов. Под такие активы и под налоговые льготы США банки и фонды принципиально готовы давать деньги охотнее, чем под абстрактное «когда‑нибудь мы обучим AGI». Если GATE хотя бы на четверть прав, то такие денежные потоки действительно могут обслужить займ.

Стороннему наблюдателю всё это напоминает железнодорожную лихорадку XIX века или электрификацию начала XX-го: сначала рельсы в никуда и провода к лампочкам. Электрификация начиналась с единичных станций — к 1920‑м американские сети тянули 5–7 % ВВП в год и никого это уже не шокировало. Ни одна из этих кампаний не окупалась за пять лет, каждая требовала масштабного перераспределения капитала и энергии, но в итоге стала инфраструктурой по умолчанию. Отличие нынешнего раунда в том, что ИИ-компонент масштабируется быстрее любой физической сети: стоит обучить модель, и миллион копий «цифрового работника» запускается кликом мышки.

===

Конечно, у GATE хватает ограничений: что роботы будут достаточно дешевыми и универсальными, что ИИ сможет брать на себя задачи людей без существенных ограничений и что спрос на вычислительные мощности будет расти именно такими сумасшедшими темпами. Авторы сами пишут, что числам не стоит верить как хроно­метражу, это скорее картинка возможной динамики. Тем не менее именно такая картинка показывает, что ставка в триллион может оказаться не блажью оптимистов, а осторожным входом на рынок будущих потоков.

Итого. Если принять хотя бы умеренную версию сценария Epoch AI, деньги, которые сегодня кажутся фантастическими, через несколько лет могут выглядеть запоздалой реакцией на новый «железнодорожный» цикл, только вместо шпал и рельсов — кремний и километры оптоволокна. Вопрос уже не столько в том, «слишком ли это дорого», сколько в том, не окажемся ли мы наблюдателями у обочины, пока другие закладывают фундамент для экономики с двузначным ростом.
====

Пост выше (разбитый на два) написан совместно мной и o3 / o3 Pro. Прощупывал почву, было интересно узнать, как модель может подражать моему стилю + писать интересно, но с опорой на конкретные материалы. Суммарно времени потратил больше, чем если бы писал сам, но на то это и эксперимент.

Некоторые обороты из черновиков я прям полюбил, очень понравились, захотелось поделиться:
— «Но Баумоль же!» — возразит экономист: мол, часть профессий остаётся неавтоматизируемой и тянет рост вниз. (это что отсылка к Паше Комаровскому?)
— ну, банки и фонды беременную корову видели: под залог чиповых заводов и налоговых льгот
— Конечно, GATE — не хрустальный шар.
— Триллион — не фокус-покус и не «сдуваться к 2030-му».
— Пока критики молчат, бульдозеры в Аризоне заводят моторы. (ахаххахаха)
— «технопарки на триллион» — не роскошь, а минимально жизнеспособный билет на рынок будущего
— GATE гоняет этот параметр
Загрузки iPhone App Store по всему миру за последние 28 дней:

ChatGPT: 29,551,174
TikTok + Facebook + Instagram + X: 32,859,208

🔼
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Вам наверное не интересно, но вы теперь знаете, что новый operator.chatgpt.com смог зайти от моего имени на Кинопоиск и поставить единицы 10 фильмам Сарика Андреасяна из 38 – и пока я это пишу он продолжает ставить низкие оценки 28 оставшимся

Идеальный бенчмарк пройден
2025/06/27 13:25:01
Back to Top
HTML Embed Code: