Telegram Web Link
Очень хорошо, что это кто-то сделал — по мотивам сценария AI 2027 создали сайт, где все фальсифицируемые предсказания собраны в одном месте, разложены по месяцам и классам (предсказания по мощностям, реакции общества, навыкам моделям, политике, итд).

Так что можно будет раз в месяц-квартал заходить и смотреть, как (не)далеко реальность от описанного.

Предсказаний чуть больше 200, из них 8% уже разрешены, и все — как правильные. Но это в основном потому, что а) это описание того, что уже произошло б) что-то достаточно примитивное, не настолько крупное, как «Китай украдёт веса модели». Вот тут обидно, что на сайте все предсказания вносят одинаковый вклад в оценку и никак не разложены по их значимости — кончено, больше всего интересно смотреть на топ-5-10 самых крупных.

Что уже «сбылось»:
— агенты ненадёжны для практического использования
— агентам можно дать задачи в духе «сделай заказ в DoorDash»
— агенты рыскают по интернету по полчаса перед тем, как ответить на вопрос человека
— лучшие агенты остаются очень дорогими 🙂

Самое важное в 2025м — это Agent-0 от OpenBrain, очен ждем 🙏

Ссылка: https://spicylemonade.github.io/AI-2027-tracker , будем послеживать-посматривать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from БлоGнот
OpenAI готовится объявить о строительстве нового дата-центра в Объединенных Арабских Эмиратах в рамках проекта Stargate, реализуемого совместно с SoftBank.

Пока неясно, будет ли OpenAI использовать этот дата-центр для своих собственных систем искусственного интеллекта. Детали всё еще согласовываются, но официальное объявление может быть сделано уже на этой неделе. Например, завтра.

https://www.theinformation.com/briefings/openai-announce-stargate-data-center-uae?rc=ukjmk2
Google анонсировали Funsearch-2 AlphaEvolve: https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

Это прям big-big.

Полный разбор будет завтра или в пятницу, а пока предлагаю прочитать разбор Funsearch, который является прародителем AlphaEvolve (очень горжусь этим разбором, очень клёвый вышел): https://habr.com/ru/companies/ods/articles/781138/

На картинке — сравнение AlphaEvolve и FunSearch.

ЧЗХ ПОГОДИТЕ ЭТО AGENT-0??? 🤯
Please open Telegram to view this post
VIEW IN TELEGRAM
Спутниковый снимок зоны, где строят один из нескольких датацентров Stargate.

Футбольное поле справа сверху для масштаба. Снизу будет построено ещё несколько «иксов».
Выйдет ли сегодня о3-pro, которую я так заждался...

На следующей неделе начинается Google I/O, на котором выкатят тучу обновлений, а OpenAI обычно 1) делает релизы по четвергам 2) делает их перед Google.

Так что шансы есть...
Finally, ChatGPT-2

Sama анонсировал запуск новой технологии/продукта, почти наверняка широкого назначения. Может быть это AI-кодер, полноценный агент, а не ассистент. А может и нет 🤷‍♂️

Предлагайте ваши названия в комментах!
Please open Telegram to view this post
VIEW IN TELEGRAM
А, ещё ОАЭ объявили о начале работ и инвестировании в крупнейший датацентр вне США (делается при поддержке США, и может быть OpenAI). Суммарная мощность будет 5 GW — это потребление одного крупного города.

Примерно таких же размеров планирут Stargate, если что

https://www.commerce.gov/news/press-releases/2025/05/uae-and-us-presidents-attend-unveiling-phase-1-new-5gw-ai-campus-abu

— Кампус, который займет площадь в 10 квадратных миль в пределах эмирата, будет построен компанией G42 и эксплуатироваться в партнерстве с несколькими американскими компаниями.
— центры обработки данных в Абу-Даби будут центром региональной платформы, с помощью которой американские компании смогут предлагать услуги с минимальными задержками почти половине населения мира, проживающего в радиусе 3200 км (2000 миль) от ОАЭ

===

Sama собрал 1 камень бесконечности триллион долларов из 7, видимо 😀👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Finally, ChatGPT-2 Sama анонсировал запуск новой технологии/продукта, почти наверняка широкого назначения. Может быть это AI-кодер, полноценный агент, а не ассистент. А может и нет 🤷‍♂️ Предлагайте ваши названия в комментах!
Примерно через 4 часа (8 AM PT, 16:00 по Лондону, 18:00 по Москве) OpenAI проведёт стрим с анонсом. Почти наверняка это всё-таки будет агент-программист, но вопрос — в каком форм факторе. Будет ли это аналог Devin (полностью автономный, но воспринимающий ваши команды и подсказки), или что-то более близкое к копайлоту, ассистенту?

Я думаю, что последнее не исключено — во первых, OpenAI почти год назад полглотили Multi.app — программу для коллаборативной работы программистов (см. видео). Только теперь она, возможно, будет заточена на работу вас И агента, принося новый опыт управления процессом разработки. Только основную работу делать будете не вы, а агент — вы лишь наблюдаете и вносите правки на лету, выделяя код, задавая вопросы, итд.

Кофаундер этой компании, работающий теперь в OpenAi, уже ретвитунл пост с анонсом стрима.

С другой стороны вот такие обновления засветились в коде сайта OpenAI, см. вторую картинку — выглядит как просто agent, а не coding buddy.

В общем, ждать недолго, всех ждем на стриме!
https://openai.com/index/introducing-codex/

— Codex — AI-агент-программист у вас в браузере
— может работать над несколькими задачами
— под капотом модель Codex-1 , основанная на o3
— можно подключать свой GitHub аккаунт, чтобы давать доступ агенту
— Plus юзеры пока не получат доступ, выкатят скоро.
— For developers building with codex-mini-latest (МИНИ), the model is available on the Responses API and priced at $1.50 per 1M input tokens and $6 per 1M output tokens, with a 75% prompt caching discount. Модель основана на o4-mini и заточена под работу в Codex CLI
— иногда (не ясно, как часто) модель при внесении исправлений добавляет тесты, которыми проверяет новую или исправленную функциональность, и итерируется до тех пор, пока тест не пройдет
Сиолошная
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
https://openai.com/index/introducing-codex/ — Codex — AI-агент-программист у вас в браузере — может работать над несколькими задачами — под капотом модель Codex-1 , основанная на o3 — можно подключать свой GitHub аккаунт, чтобы давать доступ агенту — Plus…
Советы по использованию Codex от OpenAI. Как и ChatGPT, Codex настолько же эффективен, насколько точны инструкции, которые вы ему даёте


— Используйте имена (файлов/классов/переменных/методов), которые легко найти поиском. Codex буквально вызывает команду grep, поэтому конкретные имена файлов, символы или уникальные имена пакетов помогают ему быстро найти нужное место

— Укажите, где начинать работать. Codex лучше всего справляется, если его нацелить на один файл или, максимум, на какой-то пакет/папку с не более чем сотней файлов. Слишком общие или нечеткие запросы заставят его гадать, что вы имели в виду.

— Вставляйте полный стек вызовов в ошибке. Точные стеки с путями к файлам и номерами строк помогают Codex моментально выявлять баги.

— Запускайте несколько задач подряд. Каждая задача работает в своем изолированном окружении, так что смело ставьте несколько задач в очередь одновременно. Многие инженеры в OpenAI начинают день с того, что составляют быстрый список дел и запускают в Codex сразу несколько задач.

— Давайте работу с четким критерием «работает/не работает». Как и человек, Codex тестирует свои изменения. Так как у него есть доступ к терминалу, всё, что можно проверить юнит-тестом или линтером (проверкой кода), будет сделано надёжнее. (Codex пока не поддерживает UI-тесты.)

— Разделяйте большие изменения. Вместо того чтобы давать Codex гигантский пулл-реквест, разбивайте работу на небольшие, конкретные задачи. Маленькие задачи агенту легче тестировать по отдельности, а вам — проверять.

— Если застряли, пусть Codex возьмётся за дело. Если вы зашли в тупик, создайте новую ветку и передайте проблему Codex. Так можно параллельно исследовать несколько вариантов решения.

— Запустите несколько задач перед тем, как начать день. Запускайте их перед дорогой на работу или утренним кофе, а по возвращении вас будут ждать свежие изменения, готовые к проверке.

— Опишите правила и принципы работы с конкретно вашим проектом в файле AGENTS.md. Используйте его для указания специфики работы, структуры проекта, протокола тестирования.
Тизер к следующему посту

Please open Telegram to view this post
VIEW IN TELEGRAM
На неделе OpenAI запустили онлайн-хакатон, первое мероприятие такого рода на Kaggle. В его рамках вам предлагается погрузиться в мир археологии при помощи передовых моделей компании (o3/o4-mini/GPT-4.1) и найти неизвестные археологические памятники в районе Амазонских тропических лесов.

Леса, простираясь более чем на 6 000 000 кв. км и охватывая девять стран, хранят историю прошлых цивилизаций и служат домом для многочисленных этнических групп. Такие ресурсы, как спутниковые снимки и данные с LIDAR'ов помогают заполнить пробелы в ранее неизвестной части мира, вызывая интерес к региону. Ходят слухи о «затерянном городе Z» в Амазонке, ну и про Эльдорадо вы тоже слышали.

Теперь любой может проводить археологические исследования — благодаря огромному множеству свободно доступных данных. И AI-инструменты могут существенно ускорить процесс их обработки.

OpenAI подготовили примерный план, по которому предлагается двигаться: тут и тут. Тезисно:
— скачать, распарсить и подготовить данные с карт/LIDAR'ов для примерного описания местности
— сопоставить их с данными уже имеющихся находок
— выбрать какой-нибудь алгоритм (минимально — простую сегментационную модель, альтернативно Преобразование Хафа) и подобрать параметры, чтобы они «выявляли» уже найденные точки
— выявить места, где алгоритм срабатывает, а раскопки там ещё не проводились
— проанализировать текстовые источники, описывающие обнаруженные места, чтобы сопоставить их с историей и задать нарратив: мол, скорее всего такие-то племена в такие-то периоды делали то-то и то-то

Но никто вас не ограничивает!

Тем, кто выполнит «базу» (см. соревнование), выдадут $100 API кредитов на эксперименты. В ближайшие недели топовые работы (до 5 штук) получат по $1000. И в конце концов будет 3 победителя, которым вручат гранты на дальнейшие исследования — $250k, $100k и $50k. Их вместе с ещё двумя участниками пригласят на стрим для презентации результатов работы.

Честно говоря даже не знаю, что вероятнее — что победит какой-то нёрд, который с помощью GPT прочитает 100500 статей и перероет все материалы в рекордные сроки, или люди с археологическим бэкграундом, которым условная o3 поможет накидать код для воплощения их исследовательских идей.

===

Звучит как задачка для @DenisSexy по выходным на ближайшие 5 недель 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kekenavts Analytics
Вообще забавно, что люди говорят о прогрессе ллмок как мусора, в то время как один чел с филдсовской премией просто искренне, как ребенок радуется им, проводит десятки презентаций и теперь имеет канал на ютабе на котором он использует ллмки для проверки и написания кода.
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Google показал много интересного, но больше всего меня пока впечатлила новая Veo 3 txt2vid, которая генерирует не только видео, но и звук, сразу с голосом и фоновыми звуками 🌚
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Google показал много интересного, но больше всего меня пока впечатлила новая Veo 3 txt2vid, которая генерирует не только видео, но и звук, сразу с голосом и фоновыми звуками 🌚
Также показали новую модельку (или систему?) по аналогии с o1 pro: DeepThink («enabling the model to consider multiple hypotheses before responding»).

Существенно прокачивает метрики по отношению к 2.5 Pro и доступна в подписке за $200+. В API пока не будет (только для доверенных тестировщиков) из-за переживания о безопасности.
Вышло вышло вышло

https://www.anthropic.com/news/claude-4
2025/07/06 03:45:36
Back to Top
HTML Embed Code: