Сиолошная 2876

Сиолошная

Jupyter Agents: training LLMs to reason with notebooks Не статья, но блогпост от 🤗Huggingface про то, как они дообучали Qwen3-4b как Jupyter Agent — для генерации кода блоками и выполнения мини-исследований в Jupyter. Мне показалось, что в блоге есть много…

Картинка с пайплайном для наглядности

🔥57👍12👨‍💻5🤔1🤡1

20K views10:59

Сиолошная

OpenAI выпустили новую GPT-5 😑

...заточенную на программистов, GPT-5 Codex. Эта модель заменит o3 в Codex в веб-клиенте (наконец-то) и уже доступна в локальном Codex CLI / плагине для вашей IDE. Если вы ещё не пробовали — обязательно попробуйте! Это бесплатно, если вы подписаны на любой тир ChatGPT. В комментариях многие отмечали, что им нравится больше, чем Claude Code, и модель работает лучше.

GPT-5 Codex дотренировали на новых сложных реальных задач, создании проектов с нуля, добавлении функций и тестов, отладке, проведении масштабных рефакторингов и ревью кода.

По стандартному бенчмарку SWE-bench Verified разница не особо заметна, 74.5% против старых 72.8%. Однако на внутреннем бенчмарке OpenAI на задачах рефакторинга модель стала гораздо лучше: прыжок с 33.9% до 51.3%!

Но и это не всё: модель стала писать меньше бесполезных или ошибочных комментариев, лучше ловить баги в коде, и... думать меньше, когда это не надо. OpenAI взяли запросы от сотрудников внутри компании и сравнили количество токенов в ответах двух моделей.

Там, где ответы были короткими, они стали ещё короче, а там, где цепочки рассуждений и сгенерированный код были длиннее — стало больше. Со слов OpenAI, во время они наблюдали, как GPT‑5-Codex работал автономно более 7 часов подряд над большими и сложными задачами, выполняя итерации по внедрению, исправляя ошибки тестирования и в конечном итоге обеспечивая успешное решение задачи.

Codex CLI и Codex Web получили кучу обновлений за последний месяц, но про них писать не буду.

В API модель появится скоро, очень ждём, пока замеряют качество и на других бенчмарках. В системной карточке модели указали лишь один — по решению многоступенчатых задачек по кибер-взлому (с соревнований CTF). Модель наконец-то статистически значимо обгоняет o3! Жаль, не замерили другие бенчмарки (вроде PaperBench).

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3❤‍🔥171👍77🔥5121🤡3🤔2👨‍💻1

43K views17:39

Сиолошная

Выше в канале писал про то, что роутер в GPT-5, определяющий, отправлять ваш запрос в думающую модель или в обычную чат-модель, в будущем может превратиться в фичу, существенно прокачивающую монетизацию: роутер может прикинуть потенциал рекламной выручки с вашего запроса и, например, выделить на работу лучшего агента с большим бюджетом вычислений. Кстати, про роутер читал в твиттере, что он стал существенно лучше — кто пользуется? Это правда? Напишите в комменты ⬇️

Similarweb опубликовали свежий отчёт State of Ecommerce 2025, в котором уделено внимание и AI. Согласно их информации, конверсия у ChatGPT при переходе на ритейл-сайты составляет 11.4% и продолжает расти (+5 процентов за год, см. график). Это выше, чем у прямых переходов, органического поиска, переходов из имейлов и социальных сетей. Конверсия очень важная метрика, ведь если она высокая, то вы не отправляете покупателей на сайты почём зря, и они принесут вам выручку.

Из последнего, мне ChatGPT помог выбрать полотенца для ванной комнаты (чтобы хорошо впитывали) и сервис доставки еды; плюс три раза ходил в рекомендованные кафе/рестораны. Вот и Sama от меня копеечку наверное получил 👶

Please open Telegram to view this post

VIEW IN TELEGRAM

5👍15441🤡25👨‍💻1110🌚6🤔2🔥1

21.7K viewsedited 00:20

Сиолошная

SemiAnalysis — про xAI:
— кластер Colossus 1, построенный за рекордные 122 дня и вмещающий примерно 200'000 H100/H200 и ~30'000 GB200, остаётся самым большим одиночным действующим датацентром.

— суммарное энергопотребление Colossus 1 составляет прмерно ~300 MW, что мало по сравнению с гигаваттными дата-центрами, которые строят OpenAI, META и Anthropic.

— SemiAnalysis пишет, что xAI планирует не отставать на следующем витке развития с Colossus 2. По их оценкам, к третьему кварталу 2025 года общая мощность у xAI превзойдет Meta Superintelligence и Anthropic.

— Для Colossus 2 потрубется привлечь много капитала на закупку GPU, десятки миллиардов долларов. При этом бронь у Nvidia на железо уже есть, и поставки планируются в начале следующего года.

— в отличии от прошлого ДЦ, на этом формально не будут стоять газовые турбины для выработки электроэнергии, так как Мемфис и Теннеси запретили. Поэтому... новый ДЦ строят на границе с Миссисипи, и турбины будут стоять по соседству прямо у границы.

— на данный момент установлено или устанавливается турбин на примерно 460 MW, а выход на 1.1 GW планируется ко второму кварталу 2027-го (как-то долго, мб опечатались в статье? Elon любит побыстрее)

— Но вот незадача: у xAI нет денег на чипы. Сейчас компания ведёт переговоры о новом раунде инвестиций, FT пишет про привлечение 40 миллиардов при оценке в 200. В раунд может зайти Суверенный фонд Саудовской Аравии. Также часть капитала может быть реаллоцирована из X.com или даже Tesla.

— Кроме этого, у компании есть проблемы с текучкой кадров, в том числе и из-за режима работы, по сравнению с которым китайский 996 выглядит отпуском. Банда 007 за работой 😎

— В xAI обсуждают возможность запуска RL поверх интеракций с чатботом Ani, выпущенным ранее, где в качестве обратной связи для алгоритма будет рассчитываться вовлечённость пользователя. LLM и всё приложение может затачиваться на удержание, что может привести к росту популярности и выручки, с которой у компании — даже несмотря на запуск неплохих моделей — наблюдаются проблемы.

Картинка 1: мощности 4 компаний в сравнении (Google почему-то решили не наносить, мб сложно подсчитать)

Картинка 2: Colossus 2 и станция питания на границе двух штатов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

6🤯59👍4915🔥12🤡7🌚6❤‍🔥5🤔2

21.1K views20:02

Сиолошная

Реструктуризация OpenAI в двух графиках

OpenAI уже довольно долгое время ведёт диалог со всеми заинтересованными лицами о том, чтобы превратиться из некоммерческой компании в коммерческую (даже PBC, Public Benefit Corporation, где члены совета правления могут принимать решения не в пользу инвесторов, а общества; так, например, устроен Anthropic и был устроен xAI).

Основная причина — во-первых, компания перестала фокусироваться исключительно на исследованиях и начала получать существенную выручку от продуктов, а во-вторых при таком размере компании уже фактически невозможно привлекать инвестиции без обещания возврата.

Про то, что текущие инвесторы фактически владеют ничем (ни технологией, ни голосом, только долей в компании-пустышке, которая обязуется всё отдавать НКО OpenAI), я писал в деталях вот тут. OpenAI как НКО привлекли несколько самых крупных раундов инвестиций в мире буквально под честное слово; Sama'е тут остаётся только отдать должное.

После реструктуризации будет учреждена полноценная коммерческая структура, существенной долей в которой будет владеть НКО. По данным TheInformation (на основе презентаций и документов, рассылаемых инвесторам), эта доля составит 27%, или примерно 135 миллиардов долларов при текущей оценке компании в 500.

Чуть крупнее доля у Microsoft, 28% — за все те инвестиции, что были вложены с ранних времён существования OpenAI, когда ещё даже GPT-3 не вышла. Оценка доли — $140B.

Четверть компании будет принадлежать сотрудникам — так что доля НКО в сумме с сотрудниками составляет больше 51%. И ещё 13% получат инвесторы, чьи деньги привлекаются в этом году.

У OpenAI есть обязанности отдавать часть прибыли (с 2030-го года, согласно планам компании) ранним инвесторам — см. вторую картинку:
— первые 194 миллиона долларов полностью уйдут самым ранним инвесторам
— из последующих $17.3B 75% будет уходить Microsoft, 25% — сотрудникам и инвесторам
— следующие $257 миллиардов (это прибыль Google за чуть меньше чем 2 года, и META — за 3) уйдут ранним инвесторам (до $165B, не более 51% прибыли) и Microsoft (до $92B, не более 49% прибыли)
— после этого все доходы будут перенаправлены в НКО OpenAI. Наверняка часть из них будет зарезервирована под новые раунды инвестиций для покупки чипов и постройки ДЦ.

8🤔99👍48❤‍🔥2310🤡6👨‍💻2💩1

20.8K views00:50

Сиолошная

Только что подвели результаты ICPC, финала студенческой олимпиады по программированию. Наши любимые слоны, LRM, тоже участвовали.

Система от OpenAI решила все 12 задач из 12 и заняла абсолютное первое место. Система принимала официальное участие, то есть её решения оценивались так же, как у остальных участников, и лимиты по времени были те же — никаких запусков на кластере на неделю. Задачи были переданы модели в точно таком же виде, в котором студенты получают их в PDF. Система сама выбирала, какие решения отправлять — так как есть ограничение, и нельзя сделать 100500 посылок. Для самой сложной задачи, двенадцатой, которую не решила ни одна другая команда, система достигла успеха на 9ую попытку.

OpenAI говорит, что система работала так: экспериментальная рассуждающая модель общего назначения, которую не тренировали специально на ICPC (скорее всего, та же модель, что выиграла золото на IOI и IMO, чуть дообученная за прошедшее время) и GPT-5 генерировали решения, и первая выбирала результаты. В таком формате GPT-5 сгенерировала правильные решения для 11 задач из 12.

Второе место заняли ребята из СПбГУ — респект, решили 11 из 12 задач! Все остальные команды решили 10 и меньше.

Дальше идёт система от Google DeepMind, которая решила «всего лишь» 10 задач (тоже выдающийся результат), включая самую сложную. Блогпост тут.

📈 no progress so far, only the walls

Please open Telegram to view this post

VIEW IN TELEGRAM

5🔥317🤯63❤‍🔥30🤡1512👍7😭5💔2💩1👨‍💻1

33.3K viewsedited 18:09

Сиолошная

Результат в одном эмоуте:

1❤‍🔥7951🔥2524🤯6🌚6🤡4🤔2😈1👨‍💻1

18.7K views18:09

Сиолошная

🤯

Please open Telegram to view this post

VIEW IN TELEGRAM

9823❤‍🔥13🌚4👎2

19.1K views18:09

Сиолошная

Можете скринить: когда LLM-система решит какую-то из известных нерешённых задач (малоизвестные уже были), то скептики будут говорить «да там всего лишь комбинация уже известных человечеству знаний, ничего удивительного» 🙂

Please open Telegram to view this post

VIEW IN TELEGRAM

165👍101🌚27🤣24🤡2312🔥8💔4

19.7K views18:48

Сиолошная

Окей, но...

Anonymous Poll

61%

почему на картинке с анонсом изображена клубничка?

39%

Я знаю почему там клубничка!

37🌚15👨‍💻7👍53❤‍🔥2👎2🤔1

2.72K voters19.5K views19:01

Сиолошная

Ну ладно, что олимпиады да олимпиады — OpenAI потребовался всего месяц на то, чтобы прикрутить к GPT-5-Thinking выбор длительности размышлений, который вы хотите видеть у модели при ответе на конкретный вопрос.

Вот это — настоящая революция!

🔥196🤣93❤‍🔥23👍1610🤡8💩1

20.4K viewsedited 19:20

Сиолошная

Верим молодым?

«мы никогда не снижаем качество модели из-за спроса, времени суток или нагрузки на сервер»

Anthropic написали блогпост, объясняющий, какие баги привели к тому, что часть запросов к некоторым моделям получали ответ качеством похуже, чем должны были.

Читать тут

🌚101👍4019🤡8❤‍🔥3🤔3🔥1👨‍💻1

21.5K views20:57

Сиолошная

Forwarded from Denis Sexy IT 🤖

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Помните Stargate проект от OpenAI, который в августе расширили на Норвегию?

В общем уже строят, спасибо подписчику кто побывал в Нарвике

1👍86❤‍🔥22🔥149👨‍💻2💩1

20.9K views22:14

Сиолошная

Denis Sexy IT 🤖

Video

Sovereign AI is real 😳

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥4723🌚7👨‍💻21

24.8K views22:15

2025/10/20 07:22:49
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>