Сиолошная
Я думал, что вот эти мемы с поиском локаций в o3 — это завлекаловка, но проверил в реальности и был поражён
Продолжая тему угадывания места по фотографии моделью о3 (предыдущий пост), прочитал блог Sam Patterson. Sam во время учёбы в AI safety fellowship занимался проверкой этого же навыка у моделей год назад, и, чтобы разобраться в теме, начал играть в GeoGuessr сам. Он достиг ранга мастера, выше — только Champion; однако этого вполне достаточно, чтобы отличать Болгарию от Турции по черепичным крышам и крючках на столбах.
Sam сгенерировал случайный раунд, сыграл в него сам, и прогнал по нему o3. Всего предлагается 5 локаций. У Sam была панорама 360 градусов, модель же он кормил двумя картинками с углом обзора примерно по 90 градусов.
Игра была близкой, но o3 выиграла 23 179 очков (из 25к) против 22 054. Однако в двух играх модель использовала веб-поиск, так что в теории можно сказать, мол, она мухлевала (хоть фотографии с Google Maps со случайных точек на карте почти не ищутся). Он перезапустил те два чата и следил, чтобы поиск не вызывался — и результаты почти не отличались: по сути и без доступа в интернет модель выиграла бы.
Кто-то может подумать, что модели извлекают EXIF-информацию из фото и делают предсказание по ней, но:
— на картинках Sam не было EXIF (потому что это скриншоты окна браузера, а не реальные фото)
— Sam пробовал подложить ложные EXIF, и o3 в них подглядывала, но... сообразила, что они не соответствуют наблюдениям, и продолжала делать достаточно точные предсказания.
Добавлю, что одно из главных отличий — это затраченное время. Обычно Sam угадывал в течение минуты или двух, а в паре раундов и вовсе за 10 секунд. Модель же всегда работала более 2 минут, а самое долгое рассуждение длилось более 6. Но не думаю, что это смутит ЦРУ или ФБР😀
Sam сгенерировал случайный раунд, сыграл в него сам, и прогнал по нему o3. Всего предлагается 5 локаций. У Sam была панорама 360 градусов, модель же он кормил двумя картинками с углом обзора примерно по 90 градусов.
Игра была близкой, но o3 выиграла 23 179 очков (из 25к) против 22 054. Однако в двух играх модель использовала веб-поиск, так что в теории можно сказать, мол, она мухлевала (хоть фотографии с Google Maps со случайных точек на карте почти не ищутся). Он перезапустил те два чата и следил, чтобы поиск не вызывался — и результаты почти не отличались: по сути и без доступа в интернет модель выиграла бы.
Кто-то может подумать, что модели извлекают EXIF-информацию из фото и делают предсказание по ней, но:
— на картинках Sam не было EXIF (потому что это скриншоты окна браузера, а не реальные фото)
— Sam пробовал подложить ложные EXIF, и o3 в них подглядывала, но... сообразила, что они не соответствуют наблюдениям, и продолжала делать достаточно точные предсказания.
Добавлю, что одно из главных отличий — это затраченное время. Обычно Sam угадывал в течение минуты или двух, а в паре раундов и вовсе за 10 секунд. Модель же всегда работала более 2 минут, а самое долгое рассуждение длилось более 6. Но не думаю, что это смутит ЦРУ или ФБР
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Google выкатил на весь США свой новый режим поиска «AI Mode» – это новая вкладка вроде картинок, карт, а внутри что-то вроде поиска в чатгпт или перплексити, с памятью, карточками товаров и тп, вы все это видели уже
Это гигантский шаг на встречу массовой адаптации LLM, с чем я всех нас и поздравляю
Это гигантский шаг на встречу массовой адаптации LLM, с чем я всех нас и поздравляю
С утра посмотрел интервью-подкаст с Nikolay Savinov, ко-лидом команды тренировки длинного контекста Gemini в Google. Несколько заметок:
— Почему 1 миллион токенов контекста, для маркетинга? Нет, потому что на тот момент было 100 тысяч токенов, и хотелось поставить амбициозную цель не в 2-3 раза выше, а на порядок.
— Ждать ли контекста больше 1-2М токенов? Они уже пробовали 10M, и оно работает, но будет стоить очень дорого и требует огромного количества железа/мощностей, потому пока не предоставляют как услугу. Nikolay сказал, что ждет ещё как минимум один алгоритмический/архитектурный прорыв, который позволил бы приблизиться к 100М супер-надёжного контекста; 10M скорее всего смогут дожать инженерными оптимизациями того, что уже есть. И вообще несколько раз упоминал, что инженерная составляющая безумно важна, и что нужна тесная связь команды, разрабатывающей железо (TPU), и команды разработки архитектуры моделей.
— Бенчмарк Needle-in-a-Haystack уже давно выдохся и никого не удивляет (что это такое — писал тут), и он не отражал реальные запросы к длинному контексту. В нём в обычный текст вставляли очень явно выделяющийся неуместный кусок и потом задавали про него вопрос. В реальных же практических кейсах тексты обычно более однородны, и модель заведомо не может понять, какая часть пригодится в будущем — можно сказать, что в тексте много отвлекающих частей, которые занимают «внимание» модели. Google уже выпустили бенчмарк под это, OpenAI даже успели его взять и модифицировать — теперь будем следить за ними.
— Почему модели могут принимать на вход сотни тысяч токенов, но выход зачастую ограничен 8-16 тысячами? (я так понимаю, что интервью записали давно — у 2.5 Pro выход 66k, у OpenAI 100k). Потому что все модели, которые проходят дообучение, обучаются на примерах, где генерация очень короткая. Модель просто выучивает, что где-то вот примерено после такого количества слов ответ кончается. И даже если задача подразумевает более длинный ответ — бум, LLM просто генерирует специальный токен «я всё». Если брать недообученную модель и давать ей 500 тысяч токенов на вход, а потом просить повторить — она это сделает без проблем (потому что не научилась генерировать «короткие» ответы).
— Nikolay отметил, что они не наблюдали проблему lost in the middle, когда модель хуже находит информацию из центра текста по сравнению с началом или концом. Интересно, означает ли это, что тип механизма внимания в GPT (по крайней мере старых версий до 4o) и Gemini существенно отличаются?
— Почему 1 миллион токенов контекста, для маркетинга? Нет, потому что на тот момент было 100 тысяч токенов, и хотелось поставить амбициозную цель не в 2-3 раза выше, а на порядок.
— Ждать ли контекста больше 1-2М токенов? Они уже пробовали 10M, и оно работает, но будет стоить очень дорого и требует огромного количества железа/мощностей, потому пока не предоставляют как услугу. Nikolay сказал, что ждет ещё как минимум один алгоритмический/архитектурный прорыв, который позволил бы приблизиться к 100М супер-надёжного контекста; 10M скорее всего смогут дожать инженерными оптимизациями того, что уже есть. И вообще несколько раз упоминал, что инженерная составляющая безумно важна, и что нужна тесная связь команды, разрабатывающей железо (TPU), и команды разработки архитектуры моделей.
— Бенчмарк Needle-in-a-Haystack уже давно выдохся и никого не удивляет (что это такое — писал тут), и он не отражал реальные запросы к длинному контексту. В нём в обычный текст вставляли очень явно выделяющийся неуместный кусок и потом задавали про него вопрос. В реальных же практических кейсах тексты обычно более однородны, и модель заведомо не может понять, какая часть пригодится в будущем — можно сказать, что в тексте много отвлекающих частей, которые занимают «внимание» модели. Google уже выпустили бенчмарк под это, OpenAI даже успели его взять и модифицировать — теперь будем следить за ними.
— Почему модели могут принимать на вход сотни тысяч токенов, но выход зачастую ограничен 8-16 тысячами? (я так понимаю, что интервью записали давно — у 2.5 Pro выход 66k, у OpenAI 100k). Потому что все модели, которые проходят дообучение, обучаются на примерах, где генерация очень короткая. Модель просто выучивает, что где-то вот примерено после такого количества слов ответ кончается. И даже если задача подразумевает более длинный ответ — бум, LLM просто генерирует специальный токен «я всё». Если брать недообученную модель и давать ей 500 тысяч токенов на вход, а потом просить повторить — она это сделает без проблем (потому что не научилась генерировать «короткие» ответы).
— Nikolay отметил, что они не наблюдали проблему lost in the middle, когда модель хуже находит информацию из центра текста по сравнению с началом или концом. Интересно, означает ли это, что тип механизма внимания в GPT (по крайней мере старых версий до 4o) и Gemini существенно отличаются?
У OpenAI всё хорошо, по данным Similarweb в апреле сайт ChatGPT обошёл X (ex-Twitter) по количеству посещений, и с большим запасом: 4.786B против 4.028B (включая Web и Mobile). Если я посчитал правильно, то это пятое место в мире — после google, youtube, facebook и instagram.
Что интересно, график популярности по дням очень сильно зависит от дня недели — точно такой же паттерн проявляется у всех приложений, связанных с продуктивностью и работой. Что означает, что существенная часть использования ChatGPT связана с работой (и обучением), а значит имеет экономический эффект, не просто стишки да картинки генерировать.
Источник
Что интересно, график популярности по дням очень сильно зависит от дня недели — точно такой же паттерн проявляется у всех приложений, связанных с продуктивностью и работой. Что означает, что существенная часть использования ChatGPT связана с работой (и обучением), а значит имеет экономический эффект, не просто стишки да картинки генерировать.
Источник
«Вторая половина» — мини-эссе Shunyu Yao, исследователя OpenAI, первого автора ReAct и Tree-of-Thoughts, который уже несколько лет занимается AI-агентами.
Вкратце: мы находимся в перерыве между таймами в условной игре развития ИИ. Что ознаменовало окончание первой половины? Методы Reinforcement Learning наконец-то обобщаются.
После нескольких открытий мы пришли к рабочему рецепту для решения широкого спектра задач с использованием языка и вербализованных рассуждений. Даже год назад, если бы вы сказали большинству AI-исследователей, что один рецепт обучения может справиться с разработкой программного обеспечения, творческим письмом, математикой олимпиадного уровня, манипуляцией мышью и клавиатурой для управления компьютером и ответами на длинные вопросы — они бы посмеялись над вашими галлюцинациями. Каждая из этих задач невероятно сложна, и многие исследователи тратят все своё время, сосредоточившись только на одном узком срезе из этих задач.
Вторая половина — которая уже начинается — перенесет фокус с решения проблем на их определение и формализацию. В эту новую эпоху оценка результатов становится важнее обучения. Вместо того чтобы просто спрашивать: «Можем ли мы обучить модель решению задачи X?», мы спрашиваем: «Чему мы должны обучать ИИ и как мы можем измерить реальный прогресс?»
Это означает, что нам следует фундаментально переосмыслить методы оценки прогресса. Не просто создание новых и более жестких критериев, но и фундаментальное переосмысление существующих установок и создание новых. Мы должны пытаться изобретать новые оценки за пределами уже хорошо изученных территорий.
Раньше как было, вот есть школьные математические задачки. Проходит 2-3 года, модель учится их решать, и мы берём задачи сложнее, с первого тура олимпиады. Потом со второго. Каждый раз мы приподнимаем планку, но не меняем сути тестирования. Как следствие — ИИ уже победил чемпионов мира в шахматы и го, превзошел большинство людей на экзаменах, призванных оценить «реальные навыки» специалистов, достиг уровня золотых медалей на международных олимпиадах. Но ... мир не сильно изменился, по крайней мере, если судить по экономике и ВВП.
Yao называет это проблемой полезности и считает ее самой важной. Почти все способы оценки моделей отличаются от того, что мы хотим в реальной жизни, даже в очень базовых вещах:
— прогон модели на бенчмарке «должен» быть атоматическим и не включать участие человека. Но ведь большинство задач реального мира требуют взаимодействия и итераций!
— прогон модели на бенчмарке «должен» быть независимым между примерами. Если есть 500 задач, то задача 1 не связана с задачей 2, все их можно посчитать в параллель и усреднить результаты. Но в реальном мире зачастую успех — это выполнение нескольких задач подряд. Почти никакие способы оценки сейчас это не учитывают, и предлагают лишь набор разрозненных задачек.
===
Игроки первой половины решали видеоигры и экзамены, игроки во второй половине будут создавать компании стоимостью в миллиарды или триллионы долларов, и будут оптимизировать модели напрямую на доллары, на экономический эффект, а не удовлетворённость пользователя. OpenAI уже сделали первые шаги к этому — один из последних бенчмарков, SWE-Lancer, оценивает успех модели в долларах («какую долю банка сможет заработать модель, выполняя задачи?»).
Вкратце: мы находимся в перерыве между таймами в условной игре развития ИИ. Что ознаменовало окончание первой половины? Методы Reinforcement Learning наконец-то обобщаются.
После нескольких открытий мы пришли к рабочему рецепту для решения широкого спектра задач с использованием языка и вербализованных рассуждений. Даже год назад, если бы вы сказали большинству AI-исследователей, что один рецепт обучения может справиться с разработкой программного обеспечения, творческим письмом, математикой олимпиадного уровня, манипуляцией мышью и клавиатурой для управления компьютером и ответами на длинные вопросы — они бы посмеялись над вашими галлюцинациями. Каждая из этих задач невероятно сложна, и многие исследователи тратят все своё время, сосредоточившись только на одном узком срезе из этих задач.
Вторая половина — которая уже начинается — перенесет фокус с решения проблем на их определение и формализацию. В эту новую эпоху оценка результатов становится важнее обучения. Вместо того чтобы просто спрашивать: «Можем ли мы обучить модель решению задачи X?», мы спрашиваем: «Чему мы должны обучать ИИ и как мы можем измерить реальный прогресс?»
Это означает, что нам следует фундаментально переосмыслить методы оценки прогресса. Не просто создание новых и более жестких критериев, но и фундаментальное переосмысление существующих установок и создание новых. Мы должны пытаться изобретать новые оценки за пределами уже хорошо изученных территорий.
Раньше как было, вот есть школьные математические задачки. Проходит 2-3 года, модель учится их решать, и мы берём задачи сложнее, с первого тура олимпиады. Потом со второго. Каждый раз мы приподнимаем планку, но не меняем сути тестирования. Как следствие — ИИ уже победил чемпионов мира в шахматы и го, превзошел большинство людей на экзаменах, призванных оценить «реальные навыки» специалистов, достиг уровня золотых медалей на международных олимпиадах. Но ... мир не сильно изменился, по крайней мере, если судить по экономике и ВВП.
Yao называет это проблемой полезности и считает ее самой важной. Почти все способы оценки моделей отличаются от того, что мы хотим в реальной жизни, даже в очень базовых вещах:
— прогон модели на бенчмарке «должен» быть атоматическим и не включать участие человека. Но ведь большинство задач реального мира требуют взаимодействия и итераций!
— прогон модели на бенчмарке «должен» быть независимым между примерами. Если есть 500 задач, то задача 1 не связана с задачей 2, все их можно посчитать в параллель и усреднить результаты. Но в реальном мире зачастую успех — это выполнение нескольких задач подряд. Почти никакие способы оценки сейчас это не учитывают, и предлагают лишь набор разрозненных задачек.
===
Игроки первой половины решали видеоигры и экзамены, игроки во второй половине будут создавать компании стоимостью в миллиарды или триллионы долларов, и будут оптимизировать модели напрямую на доллары, на экономический эффект, а не удовлетворённость пользователя. OpenAI уже сделали первые шаги к этому — один из последних бенчмарков, SWE-Lancer, оценивает успех модели в долларах («какую долю банка сможет заработать модель, выполняя задачи?»).
Evolving OpenAI’s Structure
Маленькое (на самом деле существенное) обновление в процессе смены структуры OpenAI. Лидеры компании приняли решение о сохранении контроля некоммерческой части над OpenAI (после того, как выслушали мнения общественных лидеров и провели конструктивный диалог с офисами Генеральных прокуроров двух штатов).
TLDR:
— OpenAI по-прежнему будет контролироваться текущей некоммерческой организацией. Что именно это означает — не уточняется, может быть как право вето/контрольный голос, так и увеличенный размер доли в коммерческой части.
— Уже существующая коммерческая организация станет корпорацией общественного блага (PBC, Public Benefit Corporation; такой же статус имеют X.AI и Anthropic)
В ходе корпоративных изменений некоммерческая часть организации станет крупнейшей в истории, и она сосредоточится на использовании ИИ для достижения максимально полезных результатов для всего человечества.
Чем крупнее и успешнее будет становиться коммерческая ветка, тем больше ресурсов будет у некоммерческой, всё просто (ведь она владеет существенной долей).
===
Полагаю, обновление планов свидетельствует о достижении промежуточных договорённостей с законодательной стороной (и игнорированием нелепых провокаций со стороны).
По первой ссылке из поста можно прочитать обращение CEO компании к сотрудникам с бОльшим количеством деталей.
Маленькое (на самом деле существенное) обновление в процессе смены структуры OpenAI. Лидеры компании приняли решение о сохранении контроля некоммерческой части над OpenAI (после того, как выслушали мнения общественных лидеров и провели конструктивный диалог с офисами Генеральных прокуроров двух штатов).
TLDR:
— OpenAI по-прежнему будет контролироваться текущей некоммерческой организацией. Что именно это означает — не уточняется, может быть как право вето/контрольный голос, так и увеличенный размер доли в коммерческой части.
— Уже существующая коммерческая организация станет корпорацией общественного блага (PBC, Public Benefit Corporation; такой же статус имеют X.AI и Anthropic)
В ходе корпоративных изменений некоммерческая часть организации станет крупнейшей в истории, и она сосредоточится на использовании ИИ для достижения максимально полезных результатов для всего человечества.
Чем крупнее и успешнее будет становиться коммерческая ветка, тем больше ресурсов будет у некоммерческой, всё просто (ведь она владеет существенной долей).
===
Полагаю, обновление планов свидетельствует о достижении промежуточных договорённостей с законодательной стороной (и игнорированием нелепых провокаций со стороны).
По первой ссылке из поста можно прочитать обращение CEO компании к сотрудникам с бОльшим количеством деталей.
Сиолошная
We'll get GPT-5 before GTA VI...
Первый ролик с моей подачки набрал 250 миллионов просмотров 😀
Давайте попробуем повторить на втором😀
https://www.youtube.com/watch?v=VQRLujxTm3c
Музыка: https://www.youtube.com/watch?v=-NnMl7NUmS8
Давайте попробуем повторить на втором
https://www.youtube.com/watch?v=VQRLujxTm3c
Музыка: https://www.youtube.com/watch?v=-NnMl7NUmS8
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Grand Theft Auto VI Trailer 2
Vice City, USA.
Jason and Lucia have always known the deck is stacked against them. But when an easy score goes wrong, they find themselves on the darkest side of the sunniest place in America, in the middle of a criminal conspiracy stretching across the…
Jason and Lucia have always known the deck is stacked against them. But when an easy score goes wrong, they find themselves on the darkest side of the sunniest place in America, in the middle of a criminal conspiracy stretching across the…
Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку).
Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.
На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.
А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
UPD: в комментах сравнили метрики с прошлой версией Gemini — они просели😥
Возможно, уж слишком перетюнили модель под веб-разработку / просто кодинг / или даже арену. Плохая новость в том что новая модель заменяет старую, а не дополняет — они просто под капотом её заменили, и к старой не получится делать запросы.
Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.
На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.
А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
UPD: в комментах сравнили метрики с прошлой версией Gemini — они просели
HLE: 18.8 -> 17.8 🔴
GPQA: 84.0 -> 83.0 🔴
AIME: 86.7 -> 83.0 🔴
LiveCodeBench: 70.4 -> 75.6 🟢
Aider: 74.0/68.6 -> 76.5/72.7 🟢
SWE-Verified: 63.8 -> 63.2 🔴
SimpleQA: 52.9 -> 50.8 🔴
MMMU: 81.7 -> 79.6 🔴
Возможно, уж слишком перетюнили модель под веб-разработку / просто кодинг / или даже арену. Плохая новость в том что новая модель заменяет старую, а не дополняет — они просто под капотом её заменили, и к старой не получится делать запросы.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
У OpenAI всё хорошо, по данным Similarweb в апреле сайт ChatGPT обошёл X (ex-Twitter) по количеству посещений, и с большим запасом: 4.786B против 4.028B (включая Web и Mobile). Если я посчитал правильно, то это пятое место в мире — после google, youtube, facebook…
Распределение трафика между GenAI сервисами, по данным Similarweb.
На фоне роста количества и размера конкурентов OpenAI за год не потеряли долю — выросли с примерно 75% до 80%
С большим количеством срезов можно ознакомиться в отчёте тут. Кроме трафика этих сайтов делается и корреляционный анализ с разными секторами (образование, написание текстов) и крупными сайтами (Reddit, Quora) и делается вывод о влиянии AI на них.
На фоне роста количества и размера конкурентов OpenAI за год не потеряли долю — выросли с примерно 75% до 80%
С большим количеством срезов можно ознакомиться в отчёте тут. Кроме трафика этих сайтов делается и корреляционный анализ с разными секторами (образование, написание текстов) и крупными сайтами (Reddit, Quora) и делается вывод о влиянии AI на них.
Утром подписчик в чате канала написал: «про сам Stargate что-то не особо слышно» (в контексте утренней новости OpenAI про выход проекта Stargate на международный масштаб и будущее партнёрство с десятком стран).
Sama отреагировал: «приятно видеть прогресс в работе над Stargate 1 в Абилине с нашими партнерами из Oracle. Это будет крупнейший в мире центр обучения ИИ. Масштаб, скорость и мастерство людей, которые это строят, потрясают»
Главное чтобы релиз GPT-5 не пришлось ждать до тех пор, пока его достроят и запустят...
Sama отреагировал: «приятно видеть прогресс в работе над Stargate 1 в Абилине с нашими партнерами из Oracle. Это будет крупнейший в мире центр обучения ИИ. Масштаб, скорость и мастерство людей, которые это строят, потрясают»
Главное чтобы релиз GPT-5 не пришлось ждать до тех пор, пока его достроят и запустят...
В сегодня лет узнал, что tourist (Gennady Korotkevich) работает в Cognition над AI-программистом Devin.
tourist — самый титулованный спортивный программист планеты, многократный победитель международных и всероссийских чемпионатов и турниров по спортивному программированию, в том числе организованных такими крупными компаниями, как Google, IBM, Facebook, ВКонтакте, Яндекс, Mail.ru Group, и другими. Уже много лет занимает первое место в рейтингах Topcoder и Codeforces. В августе прошлого года он первым получил рейтинг 4000, поэтому новый разряд 4000+ назвали "Tourist" (до этого самым высоким был Legendary Grandmaster 3000+).
tourist — самый титулованный спортивный программист планеты, многократный победитель международных и всероссийских чемпионатов и турниров по спортивному программированию, в том числе организованных такими крупными компаниями, как Google, IBM, Facebook, ВКонтакте, Яндекс, Mail.ru Group, и другими. Уже много лет занимает первое место в рейтингах Topcoder и Codeforces. В августе прошлого года он первым получил рейтинг 4000, поэтому новый разряд 4000+ назвали "Tourist" (до этого самым высоким был Legendary Grandmaster 3000+).
Сиолошная
У OpenAI всё хорошо, по данным Similarweb в апреле сайт ChatGPT обошёл X (ex-Twitter) по количеству посещений, и с большим запасом: 4.786B против 4.028B (включая Web и Mobile). Если я посчитал правильно, то это пятое место в мире — после google, youtube, facebook…
Более того ChatGPT стал не только 5 самым посещаемым сайтом планеты, но и ещё и единственным, кто в первой десятке вырос от месяца к месяцу.
Год назад сайт был на 14-м месте (а 3 года назад никакой ChatGPT ещё и не было)😐
Год назад сайт был на 14-м месте (а 3 года назад никакой ChatGPT ещё и не было)
Please open Telegram to view this post
VIEW IN TELEGRAM
Очень хорошо, что это кто-то сделал — по мотивам сценария AI 2027 создали сайт, где все фальсифицируемые предсказания собраны в одном месте, разложены по месяцам и классам (предсказания по мощностям, реакции общества, навыкам моделям, политике, итд).
Так что можно будет раз в месяц-квартал заходить и смотреть, как (не)далеко реальность от описанного.
Предсказаний чуть больше 200, из них 8% уже разрешены, и все — как правильные. Но это в основном потому, что а) это описание того, что уже произошло б) что-то достаточно примитивное, не настолько крупное, как «Китай украдёт веса модели». Вот тут обидно, что на сайте все предсказания вносят одинаковый вклад в оценку и никак не разложены по их значимости — кончено, больше всего интересно смотреть на топ-5-10 самых крупных.
Что уже «сбылось»:
— агенты ненадёжны для практического использования
— агентам можно дать задачи в духе «сделай заказ в DoorDash»
— агенты рыскают по интернету по полчаса перед тем, как ответить на вопрос человека
— лучшие агенты остаются очень дорогими🙂
Самое важное в 2025м — это Agent-0 от OpenBrain, очен ждем🙏
Ссылка: https://spicylemonade.github.io/AI-2027-tracker , будем послеживать-посматривать.
Так что можно будет раз в месяц-квартал заходить и смотреть, как (не)далеко реальность от описанного.
Предсказаний чуть больше 200, из них 8% уже разрешены, и все — как правильные. Но это в основном потому, что а) это описание того, что уже произошло б) что-то достаточно примитивное, не настолько крупное, как «Китай украдёт веса модели». Вот тут обидно, что на сайте все предсказания вносят одинаковый вклад в оценку и никак не разложены по их значимости — кончено, больше всего интересно смотреть на топ-5-10 самых крупных.
Что уже «сбылось»:
— агенты ненадёжны для практического использования
— агентам можно дать задачи в духе «сделай заказ в DoorDash»
— агенты рыскают по интернету по полчаса перед тем, как ответить на вопрос человека
— лучшие агенты остаются очень дорогими
Самое важное в 2025м — это Agent-0 от OpenBrain, очен ждем
Ссылка: https://spicylemonade.github.io/AI-2027-tracker , будем послеживать-посматривать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from БлоGнот
OpenAI готовится объявить о строительстве нового дата-центра в Объединенных Арабских Эмиратах в рамках проекта Stargate, реализуемого совместно с SoftBank.
Пока неясно, будет ли OpenAI использовать этот дата-центр для своих собственных систем искусственного интеллекта. Детали всё еще согласовываются, но официальное объявление может быть сделано уже на этой неделе. Например, завтра.
https://www.theinformation.com/briefings/openai-announce-stargate-data-center-uae?rc=ukjmk2
Пока неясно, будет ли OpenAI использовать этот дата-центр для своих собственных систем искусственного интеллекта. Детали всё еще согласовываются, но официальное объявление может быть сделано уже на этой неделе. Например, завтра.
https://www.theinformation.com/briefings/openai-announce-stargate-data-center-uae?rc=ukjmk2
The Information
OpenAI to Announce Stargate Data Center in UAE
OpenAI is preparing to announce a new data center in the United Arab Emirates as part of its Stargate data center effort with SoftBank, according to a person with direct knowledge of the talks. The move is part of a broader push by OpenAI to grow its business…