Сиолошная 2566

Сиолошная

Очень хорошо, что это кто-то сделал — по мотивам сценария AI 2027 создали сайт, где все фальсифицируемые предсказания собраны в одном месте, разложены по месяцам и классам (предсказания по мощностям, реакции общества, навыкам моделям, политике, итд).

Так что можно будет раз в месяц-квартал заходить и смотреть, как (не)далеко реальность от описанного.

Предсказаний чуть больше 200, из них 8% уже разрешены, и все — как правильные. Но это в основном потому, что а) это описание того, что уже произошло б) что-то достаточно примитивное, не настолько крупное, как «Китай украдёт веса модели». Вот тут обидно, что на сайте все предсказания вносят одинаковый вклад в оценку и никак не разложены по их значимости — кончено, больше всего интересно смотреть на топ-5-10 самых крупных.

Что уже «сбылось»:
— агенты ненадёжны для практического использования
— агентам можно дать задачи в духе «сделай заказ в DoorDash»
— агенты рыскают по интернету по полчаса перед тем, как ответить на вопрос человека
— лучшие агенты остаются очень дорогими 🙂

Самое важное в 2025м — это Agent-0 от OpenBrain, очен ждем 🙏

Ссылка: https://spicylemonade.github.io/AI-2027-tracker , будем послеживать-посматривать.

Please open Telegram to view this post

VIEW IN TELEGRAM

38.2K viewsedited 21:56

Сиолошная

Forwarded from БлоGнот

OpenAI готовится объявить о строительстве нового дата-центра в Объединенных Арабских Эмиратах в рамках проекта Stargate, реализуемого совместно с SoftBank.

Пока неясно, будет ли OpenAI использовать этот дата-центр для своих собственных систем искусственного интеллекта. Детали всё еще согласовываются, но официальное объявление может быть сделано уже на этой неделе. Например, завтра.

https://www.theinformation.com/briefings/openai-announce-stargate-data-center-uae?rc=ukjmk2

The Information

OpenAI to Announce Stargate Data Center in UAE

OpenAI is preparing to announce a new data center in the United Arab Emirates as part of its Stargate data center effort with SoftBank, according to a person with direct knowledge of the talks. The move is part of a broader push by OpenAI to grow its business…

28.7K views11:21

Сиолошная

Google анонсировали ~~Funsearch-2~~ AlphaEvolve: https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

Это прям big-big.

Полный разбор будет завтра или в пятницу, а пока предлагаю прочитать разбор Funsearch, который является прародителем AlphaEvolve (очень горжусь этим разбором, очень клёвый вышел): https://habr.com/ru/companies/ods/articles/781138/

На картинке — сравнение AlphaEvolve и FunSearch.

ЧЗХ ПОГОДИТЕ ЭТО AGENT-0??? 🤯

Please open Telegram to view this post

VIEW IN TELEGRAM

26.7K viewsedited 20:36

Сиолошная

Спутниковый снимок зоны, где строят один из нескольких датацентров Stargate.

Футбольное поле справа сверху для масштаба. Снизу будет построено ещё несколько «иксов».

39.5K views20:50

Сиолошная

Выйдет ли сегодня о3-pro, которую я так заждался...

На следующей неделе начинается Google I/O, на котором выкатят тучу обновлений, а OpenAI обычно 1) делает релизы по четвергам 2) делает их перед Google.

Так что шансы есть...

29.3K viewsedited 07:26

Сиолошная

Finally, ChatGPT-2

Sama анонсировал запуск новой технологии/продукта, почти наверняка широкого назначения. Может быть это AI-кодер, полноценный агент, а не ассистент. А может и нет 🤷‍♂️

Предлагайте ваши названия в комментах!

Please open Telegram to view this post

VIEW IN TELEGRAM

26.5K viewsedited 19:55

Сиолошная

А, ещё ОАЭ объявили о начале работ и инвестировании в крупнейший датацентр вне США (делается при поддержке США, и может быть OpenAI). Суммарная мощность будет 5 GW — это потребление одного крупного города.

Примерно таких же размеров планирут Stargate, если что

https://www.commerce.gov/news/press-releases/2025/05/uae-and-us-presidents-attend-unveiling-phase-1-new-5gw-ai-campus-abu

— Кампус, который займет площадь в 10 квадратных миль в пределах эмирата, будет построен компанией G42 и эксплуатироваться в партнерстве с несколькими американскими компаниями.
— центры обработки данных в Абу-Даби будут центром региональной платформы, с помощью которой американские компании смогут предлагать услуги с минимальными задержками почти половине населения мира, проживающего в радиусе 3200 км (2000 миль) от ОАЭ

===

Sama собрал 1 ~~камень бесконечности~~ триллион долларов из 7, видимо 😀

👀

Please open Telegram to view this post

VIEW IN TELEGRAM

35.6K viewsedited 20:09

Сиолошная

Finally, ChatGPT-2 Sama анонсировал запуск новой технологии/продукта, почти наверняка широкого назначения. Может быть это AI-кодер, полноценный агент, а не ассистент. А может и нет 🤷‍♂️ Предлагайте ваши названия в комментах!

0:15

Media is too big

VIEW IN TELEGRAM

Примерно через 4 часа (8 AM PT, 16:00 по Лондону, 18:00 по Москве) OpenAI проведёт стрим с анонсом. Почти наверняка это всё-таки будет агент-программист, но вопрос — в каком форм факторе. Будет ли это аналог Devin (полностью автономный, но воспринимающий ваши команды и подсказки), или что-то более близкое к копайлоту, ассистенту?

Я думаю, что последнее не исключено — во первых, OpenAI почти год назад полглотили Multi.app — программу для коллаборативной работы программистов (см. видео). Только теперь она, возможно, будет заточена на работу вас И агента, принося новый опыт управления процессом разработки. Только основную работу делать будете не вы, а агент — вы лишь наблюдаете и вносите правки на лету, выделяя код, задавая вопросы, итд.

Кофаундер этой компании, работающий теперь в OpenAi, уже ретвитунл пост с анонсом стрима.

С другой стороны вот такие обновления засветились в коде сайта OpenAI, см. вторую картинку — выглядит как просто agent, а не coding buddy.

В общем, ждать недолго, всех ждем на стриме!

34.9K views10:55

Сиолошная

https://openai.com/index/introducing-codex/

— Codex — AI-агент-программист у вас в браузере
— может работать над несколькими задачами
— под капотом модель Codex-1 , основанная на o3
— можно подключать свой GitHub аккаунт, чтобы давать доступ агенту
— Plus юзеры пока не получат доступ, выкатят скоро.
— For developers building with codex-mini-latest (МИНИ), the model is available on the Responses API and priced at $1.50 per 1M input tokens and $6 per 1M output tokens, with a 75% prompt caching discount. Модель основана на o4-mini и заточена под работу в Codex CLI
— иногда (не ясно, как часто) модель при внесении исправлений добавляет тесты, которыми проверяет новую или исправленную функциональность, и итерируется до тех пор, пока тест не пройдет

YouTube

A research preview of Codex in ChatGPT

Greg Brockman, Jerry Tworek, Joshua Ma, Hanson Wang, Thibault Sottiaux, Katy Shi, and Andrey Mishchenko introduce and demo Codex in ChatGPT.

42.0K viewsedited 15:02

Сиолошная

Please open Telegram to view this post

VIEW IN TELEGRAM

28.2K viewsedited 15:03

Сиолошная

Please open Telegram to view this post

VIEW IN TELEGRAM

27.1K views15:29

Сиолошная

Советы по использованию Codex от OpenAI. Как и ChatGPT, Codex настолько же эффективен, насколько точны инструкции, которые вы ему даёте

— Используйте имена (файлов/классов/переменных/методов), которые легко найти поиском. Codex буквально вызывает команду grep, поэтому конкретные имена файлов, символы или уникальные имена пакетов помогают ему быстро найти нужное место

— Укажите, где начинать работать. Codex лучше всего справляется, если его нацелить на один файл или, максимум, на какой-то пакет/папку с не более чем сотней файлов. Слишком общие или нечеткие запросы заставят его гадать, что вы имели в виду.

— Вставляйте полный стек вызовов в ошибке. Точные стеки с путями к файлам и номерами строк помогают Codex моментально выявлять баги.

— Запускайте несколько задач подряд. Каждая задача работает в своем изолированном окружении, так что смело ставьте несколько задач в очередь одновременно. Многие инженеры в OpenAI начинают день с того, что составляют быстрый список дел и запускают в Codex сразу несколько задач.

— Давайте работу с четким критерием «работает/не работает». Как и человек, Codex тестирует свои изменения. Так как у него есть доступ к терминалу, всё, что можно проверить юнит-тестом или линтером (проверкой кода), будет сделано надёжнее. (Codex пока не поддерживает UI-тесты.)

— Разделяйте большие изменения. Вместо того чтобы давать Codex гигантский пулл-реквест, разбивайте работу на небольшие, конкретные задачи. Маленькие задачи агенту легче тестировать по отдельности, а вам — проверять.

— Если застряли, пусть Codex возьмётся за дело. Если вы зашли в тупик, создайте новую ветку и передайте проблему Codex. Так можно параллельно исследовать несколько вариантов решения.

— Запустите несколько задач перед тем, как начать день. Запускайте их перед дорогой на работу или утренним кофе, а по возвращении вас будут ждать свежие изменения, готовые к проверке.

— Опишите правила и принципы работы с конкретно вашим проектом в файле AGENTS.md. Используйте его для указания специфики работы, структуры проекта, протокола тестирования.

33.7K viewsedited 14:50

Сиолошная

Тизер к следующему посту

❓

Please open Telegram to view this post

VIEW IN TELEGRAM

29.0K views00:33

Сиолошная

На неделе OpenAI запустили онлайн-хакатон, первое мероприятие такого рода на Kaggle. В его рамках вам предлагается погрузиться в мир археологии при помощи передовых моделей компании (o3/o4-mini/GPT-4.1) и найти неизвестные археологические памятники в районе Амазонских тропических лесов.

Леса, простираясь более чем на 6 000 000 кв. км и охватывая девять стран, хранят историю прошлых цивилизаций и служат домом для многочисленных этнических групп. Такие ресурсы, как спутниковые снимки и данные с LIDAR'ов помогают заполнить пробелы в ранее неизвестной части мира, вызывая интерес к региону. Ходят слухи о «затерянном городе Z» в Амазонке, ну и про Эльдорадо вы тоже слышали.

Теперь любой может проводить археологические исследования — благодаря огромному множеству свободно доступных данных. И AI-инструменты могут существенно ускорить процесс их обработки.

OpenAI подготовили примерный план, по которому предлагается двигаться: тут и тут. Тезисно:
— скачать, распарсить и подготовить данные с карт/LIDAR'ов для примерного описания местности
— сопоставить их с данными уже имеющихся находок
— выбрать какой-нибудь алгоритм (минимально — простую сегментационную модель, альтернативно Преобразование Хафа) и подобрать параметры, чтобы они «выявляли» уже найденные точки
— выявить места, где алгоритм срабатывает, а раскопки там ещё не проводились
— проанализировать текстовые источники, описывающие обнаруженные места, чтобы сопоставить их с историей и задать нарратив: мол, скорее всего такие-то племена в такие-то периоды делали то-то и то-то

Но никто вас не ограничивает!

Тем, кто выполнит «базу» (см. соревнование), выдадут $100 API кредитов на эксперименты. В ближайшие недели топовые работы (до 5 штук) получат по $1000. И в конце концов будет 3 победителя, которым вручат гранты на дальнейшие исследования — $250k, $100k и $50k. Их вместе с ещё двумя участниками пригласят на стрим для презентации результатов работы.

Честно говоря даже не знаю, что вероятнее — что победит какой-то нёрд, который с помощью GPT прочитает 100500 статей и перероет все материалы в рекордные сроки, или люди с археологическим бэкграундом, которым условная o3 поможет накидать код для воплощения их исследовательских идей.

===

Звучит как задачка для @DenisSexy по выходным на ближайшие 5 недель 😀

Please open Telegram to view this post

VIEW IN TELEGRAM

39.2K viewsedited 00:49

Сиолошная

Forwarded from Kekenavts Analytics

Вообще забавно, что люди говорят о прогрессе ллмок как мусора, в то время как один чел с филдсовской премией просто искренне, как ребенок радуется им, проводит десятки презентаций и теперь имеет канал на ютабе на котором он использует ллмки для проверки и написания кода.

35.3K views11:19

Сиолошная

Forwarded from Denis Sexy IT 🤖

2:05

Media is too big

VIEW IN TELEGRAM

Google показал много интересного, но больше всего меня пока впечатлила новая Veo 3 txt2vid, которая генерирует не только видео, но и звук, сразу с голосом и фоновыми звуками 🌚

Please open Telegram to view this post

VIEW IN TELEGRAM

30.2K views19:02

Сиолошная

Также показали новую модельку (или систему?) по аналогии с o1 pro: DeepThink («enabling the model to consider multiple hypotheses before responding»).

Существенно прокачивает метрики по отношению к 2.5 Pro и доступна в подписке за $200+. В API пока не будет (только для доверенных тестировщиков) из-за переживания о безопасности.

34.7K views19:19

Сиолошная

Вышло вышло вышло

https://www.anthropic.com/news/claude-4

34.9K viewsedited 16:44

Сиолошная

Вышло вышло вышло https://www.anthropic.com/news/claude-4

Засыпаем с интересным подкастом https://www.youtube.com/watch?v=64lXQP6cs5M

YouTube

Is RL + LLMs enough for AGI? – Sholto Douglas & Trenton Bricken

New episode with my good friends Sholto Douglas & Trenton Bricken. Sholto focuses on scaling RL and Trenton researches mechanistic interpretability, both at Anthropic.

We talk through what’s changed in the last year of AI research; the new RL regime and…

28.1K viewsedited 21:15

2025/07/06 03:45:36
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>