Telegram Web Link
We'll get GPT-5 before GTA VI...
Сиолошная
Я думал, что вот эти мемы с поиском локаций в o3 — это завлекаловка, но проверил в реальности и был поражён
Продолжая тему угадывания места по фотографии моделью о3 (предыдущий пост), прочитал блог Sam Patterson. Sam во время учёбы в AI safety fellowship занимался проверкой этого же навыка у моделей год назад, и, чтобы разобраться в теме, начал играть в GeoGuessr сам. Он достиг ранга мастера, выше — только Champion; однако этого вполне достаточно, чтобы отличать Болгарию от Турции по черепичным крышам и крючках на столбах.

Sam сгенерировал случайный раунд, сыграл в него сам, и прогнал по нему o3. Всего предлагается 5 локаций. У Sam была панорама 360 градусов, модель же он кормил двумя картинками с углом обзора примерно по 90 градусов.

Игра была близкой, но o3 выиграла 23 179 очков (из 25к) против 22 054. Однако в двух играх модель использовала веб-поиск, так что в теории можно сказать, мол, она мухлевала (хоть фотографии с Google Maps со случайных точек на карте почти не ищутся). Он перезапустил те два чата и следил, чтобы поиск не вызывался — и результаты почти не отличались: по сути и без доступа в интернет модель выиграла бы.

Кто-то может подумать, что модели извлекают EXIF-информацию из фото и делают предсказание по ней, но:
— на картинках Sam не было EXIF (потому что это скриншоты окна браузера, а не реальные фото)
— Sam пробовал подложить ложные EXIF, и o3 в них подглядывала, но... сообразила, что они не соответствуют наблюдениям, и продолжала делать достаточно точные предсказания.

Добавлю, что одно из главных отличий — это затраченное время. Обычно Sam угадывал в течение минуты или двух, а в паре раундов и вовсе за 10 секунд. Модель же всегда работала более 2 минут, а самое долгое рассуждение длилось более 6. Но не думаю, что это смутит ЦРУ или ФБР 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Google выкатил на весь США свой новый режим поиска «AI Mode» – это новая вкладка вроде картинок, карт, а внутри что-то вроде поиска в чатгпт или перплексити, с памятью, карточками товаров и тп, вы все это видели уже

Это гигантский шаг на встречу массовой адаптации LLM, с чем я всех нас и поздравляю
С утра посмотрел интервью-подкаст с Nikolay Savinov, ко-лидом команды тренировки длинного контекста Gemini в Google. Несколько заметок:

— Почему 1 миллион токенов контекста, для маркетинга? Нет, потому что на тот момент было 100 тысяч токенов, и хотелось поставить амбициозную цель не в 2-3 раза выше, а на порядок.

— Ждать ли контекста больше 1-2М токенов? Они уже пробовали 10M, и оно работает, но будет стоить очень дорого и требует огромного количества железа/мощностей, потому пока не предоставляют как услугу. Nikolay сказал, что ждет ещё как минимум один алгоритмический/архитектурный прорыв, который позволил бы приблизиться к 100М супер-надёжного контекста; 10M скорее всего смогут дожать инженерными оптимизациями того, что уже есть. И вообще несколько раз упоминал, что инженерная составляющая безумно важна, и что нужна тесная связь команды, разрабатывающей железо (TPU), и команды разработки архитектуры моделей.

— Бенчмарк Needle-in-a-Haystack уже давно выдохся и никого не удивляет (что это такое — писал тут), и он не отражал реальные запросы к длинному контексту. В нём в обычный текст вставляли очень явно выделяющийся неуместный кусок и потом задавали про него вопрос. В реальных же практических кейсах тексты обычно более однородны, и модель заведомо не может понять, какая часть пригодится в будущем — можно сказать, что в тексте много отвлекающих частей, которые занимают «внимание» модели. Google уже выпустили бенчмарк под это, OpenAI даже успели его взять и модифицировать — теперь будем следить за ними.

— Почему модели могут принимать на вход сотни тысяч токенов, но выход зачастую ограничен 8-16 тысячами? (я так понимаю, что интервью записали давно — у 2.5 Pro выход 66k, у OpenAI 100k). Потому что все модели, которые проходят дообучение, обучаются на примерах, где генерация очень короткая. Модель просто выучивает, что где-то вот примерено после такого количества слов ответ кончается. И даже если задача подразумевает более длинный ответ — бум, LLM просто генерирует специальный токен «я всё». Если брать недообученную модель и давать ей 500 тысяч токенов на вход, а потом просить повторить — она это сделает без проблем (потому что не научилась генерировать «короткие» ответы).

— Nikolay отметил, что они не наблюдали проблему lost in the middle, когда модель хуже находит информацию из центра текста по сравнению с началом или концом. Интересно, означает ли это, что тип механизма внимания в GPT (по крайней мере старых версий до 4o) и Gemini существенно отличаются?
У OpenAI всё хорошо, по данным Similarweb в апреле сайт ChatGPT обошёл X (ex-Twitter) по количеству посещений, и с большим запасом: 4.786B против 4.028B (включая Web и Mobile). Если я посчитал правильно, то это пятое место в мире — после google, youtube, facebook и instagram.

Что интересно, график популярности по дням очень сильно зависит от дня недели — точно такой же паттерн проявляется у всех приложений, связанных с продуктивностью и работой. Что означает, что существенная часть использования ChatGPT связана с работой (и обучением), а значит имеет экономический эффект, не просто стишки да картинки генерировать.

Источник
«Вторая половина» — мини-эссе Shunyu Yao, исследователя OpenAI, первого автора ReAct и Tree-of-Thoughts, который уже несколько лет занимается AI-агентами.

Вкратце: мы находимся в перерыве между таймами в условной игре развития ИИ. Что ознаменовало окончание первой половины? Методы Reinforcement Learning наконец-то обобщаются.

После нескольких открытий мы пришли к рабочему рецепту для решения широкого спектра задач с использованием языка и вербализованных рассуждений. Даже год назад, если бы вы сказали большинству AI-исследователей, что один рецепт обучения может справиться с разработкой программного обеспечения, творческим письмом, математикой олимпиадного уровня, манипуляцией мышью и клавиатурой для управления компьютером и ответами на длинные вопросы — они бы посмеялись над вашими галлюцинациями. Каждая из этих задач невероятно сложна, и многие исследователи тратят все своё время, сосредоточившись только на одном узком срезе из этих задач.

Вторая половина — которая уже начинается — перенесет фокус с решения проблем на их определение и формализацию. В эту новую эпоху оценка результатов становится важнее обучения. Вместо того чтобы просто спрашивать: «Можем ли мы обучить модель решению задачи X?», мы спрашиваем: «Чему мы должны обучать ИИ и как мы можем измерить реальный прогресс?»

Это означает, что нам следует фундаментально переосмыслить методы оценки прогресса. Не просто создание новых и более жестких критериев, но и фундаментальное переосмысление существующих установок и создание новых. Мы должны пытаться изобретать новые оценки за пределами уже хорошо изученных территорий.

Раньше как было, вот есть школьные математические задачки. Проходит 2-3 года, модель учится их решать, и мы берём задачи сложнее, с первого тура олимпиады. Потом со второго. Каждый раз мы приподнимаем планку, но не меняем сути тестирования. Как следствие — ИИ уже победил чемпионов мира в шахматы и го, превзошел большинство людей на экзаменах, призванных оценить «реальные навыки» специалистов, достиг уровня золотых медалей на международных олимпиадах. Но ... мир не сильно изменился, по крайней мере, если судить по экономике и ВВП.

Yao называет это проблемой полезности и считает ее самой важной. Почти все способы оценки моделей отличаются от того, что мы хотим в реальной жизни, даже в очень базовых вещах:
— прогон модели на бенчмарке «должен» быть атоматическим и не включать участие человека. Но ведь большинство задач реального мира требуют взаимодействия и итераций!
— прогон модели на бенчмарке «должен» быть независимым между примерами. Если есть 500 задач, то задача 1 не связана с задачей 2, все их можно посчитать в параллель и усреднить результаты. Но в реальном мире зачастую успех — это выполнение нескольких задач подряд. Почти никакие способы оценки сейчас это не учитывают, и предлагают лишь набор разрозненных задачек.

===

Игроки первой половины решали видеоигры и экзамены, игроки во второй половине будут создавать компании стоимостью в миллиарды или триллионы долларов, и будут оптимизировать модели напрямую на доллары, на экономический эффект, а не удовлетворённость пользователя. OpenAI уже сделали первые шаги к этому — один из последних бенчмарков, SWE-Lancer, оценивает успех модели в долларах («какую долю банка сможет заработать модель, выполняя задачи?»).
Evolving OpenAI’s Structure

Маленькое (на самом деле существенное) обновление в процессе смены структуры OpenAI. Лидеры компании приняли решение о сохранении контроля некоммерческой части над OpenAI (после того, как выслушали мнения общественных лидеров и провели конструктивный диалог с офисами Генеральных прокуроров двух штатов).

TLDR:
— OpenAI по-прежнему будет контролироваться текущей некоммерческой организацией. Что именно это означает — не уточняется, может быть как право вето/контрольный голос, так и увеличенный размер доли в коммерческой части.
— Уже существующая коммерческая организация станет корпорацией общественного блага (PBC, Public Benefit Corporation; такой же статус имеют X.AI и Anthropic)

В ходе корпоративных изменений некоммерческая часть организации станет крупнейшей в истории, и она сосредоточится на использовании ИИ для достижения максимально полезных результатов для всего человечества.

Чем крупнее и успешнее будет становиться коммерческая ветка, тем больше ресурсов будет у некоммерческой, всё просто (ведь она владеет существенной долей).

===

Полагаю, обновление планов свидетельствует о достижении промежуточных договорённостей с законодательной стороной (и игнорированием нелепых провокаций со стороны).

По первой ссылке из поста можно прочитать обращение CEO компании к сотрудникам с бОльшим количеством деталей.
Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку).

Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.

На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.

А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.

UPD: в комментах сравнили метрики с прошлой версией Gemini — они просели 😥

HLE: 18.8 -> 17.8 🔴
GPQA: 84.0 -> 83.0 🔴
AIME: 86.7 -> 83.0 🔴
LiveCodeBench: 70.4 -> 75.6 🟢
Aider: 74.0/68.6 -> 76.5/72.7 🟢
SWE-Verified: 63.8 -> 63.2 🔴
SimpleQA: 52.9 -> 50.8 🔴
MMMU: 81.7 -> 79.6 🔴


Возможно, уж слишком перетюнили модель под веб-разработку / просто кодинг / или даже арену. Плохая новость в том что новая модель заменяет старую, а не дополняет — они просто под капотом её заменили, и к старой не получится делать запросы.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
У OpenAI всё хорошо, по данным Similarweb в апреле сайт ChatGPT обошёл X (ex-Twitter) по количеству посещений, и с большим запасом: 4.786B против 4.028B (включая Web и Mobile). Если я посчитал правильно, то это пятое место в мире — после google, youtube, facebook…
Распределение трафика между GenAI сервисами, по данным Similarweb.

На фоне роста количества и размера конкурентов OpenAI за год не потеряли долю — выросли с примерно 75% до 80%

С большим количеством срезов можно ознакомиться в отчёте тут. Кроме трафика этих сайтов делается и корреляционный анализ с разными секторами (образование, написание текстов) и крупными сайтами (Reddit, Quora) и делается вывод о влиянии AI на них.
Утром подписчик в чате канала написал: «про сам Stargate что-то не особо слышно» (в контексте утренней новости OpenAI про выход проекта Stargate на международный масштаб и будущее партнёрство с десятком стран).

Sama отреагировал: «приятно видеть прогресс в работе над Stargate 1 в Абилине с нашими партнерами из Oracle. Это будет крупнейший в мире центр обучения ИИ. Масштаб, скорость и мастерство людей, которые это строят, потрясают»

Главное чтобы релиз GPT-5 не пришлось ждать до тех пор, пока его достроят и запустят...
В сегодня лет узнал, что tourist (Gennady Korotkevich) работает в Cognition над AI-программистом Devin.

tourist — самый титулованный спортивный программист планеты, многократный победитель международных и всероссийских чемпионатов и турниров по спортивному программированию, в том числе организованных такими крупными компаниями, как Google, IBM, Facebook, ВКонтакте, Яндекс, Mail.ru Group, и другими. Уже много лет занимает первое место в рейтингах Topcoder и Codeforces. В августе прошлого года он первым получил рейтинг 4000, поэтому новый разряд 4000+ назвали "Tourist" (до этого самым высоким был Legendary Grandmaster 3000+).
Сиолошная
У OpenAI всё хорошо, по данным Similarweb в апреле сайт ChatGPT обошёл X (ex-Twitter) по количеству посещений, и с большим запасом: 4.786B против 4.028B (включая Web и Mobile). Если я посчитал правильно, то это пятое место в мире — после google, youtube, facebook…
Более того ChatGPT стал не только 5 самым посещаемым сайтом планеты, но и ещё и единственным, кто в первой десятке вырос от месяца к месяцу.

Год назад сайт был на 14-м месте (а 3 года назад никакой ChatGPT ещё и не было) 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
Очень хорошо, что это кто-то сделал — по мотивам сценария AI 2027 создали сайт, где все фальсифицируемые предсказания собраны в одном месте, разложены по месяцам и классам (предсказания по мощностям, реакции общества, навыкам моделям, политике, итд).

Так что можно будет раз в месяц-квартал заходить и смотреть, как (не)далеко реальность от описанного.

Предсказаний чуть больше 200, из них 8% уже разрешены, и все — как правильные. Но это в основном потому, что а) это описание того, что уже произошло б) что-то достаточно примитивное, не настолько крупное, как «Китай украдёт веса модели». Вот тут обидно, что на сайте все предсказания вносят одинаковый вклад в оценку и никак не разложены по их значимости — кончено, больше всего интересно смотреть на топ-5-10 самых крупных.

Что уже «сбылось»:
— агенты ненадёжны для практического использования
— агентам можно дать задачи в духе «сделай заказ в DoorDash»
— агенты рыскают по интернету по полчаса перед тем, как ответить на вопрос человека
— лучшие агенты остаются очень дорогими 🙂

Самое важное в 2025м — это Agent-0 от OpenBrain, очен ждем 🙏

Ссылка: https://spicylemonade.github.io/AI-2027-tracker , будем послеживать-посматривать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from БлоGнот
OpenAI готовится объявить о строительстве нового дата-центра в Объединенных Арабских Эмиратах в рамках проекта Stargate, реализуемого совместно с SoftBank.

Пока неясно, будет ли OpenAI использовать этот дата-центр для своих собственных систем искусственного интеллекта. Детали всё еще согласовываются, но официальное объявление может быть сделано уже на этой неделе. Например, завтра.

https://www.theinformation.com/briefings/openai-announce-stargate-data-center-uae?rc=ukjmk2
2025/06/29 15:01:32
Back to Top
HTML Embed Code: