Telegram Web Link
Forwarded from Трудно стать богом (Alexander)
Next week
Сиолошная
На этой неделе вышел очередной текст с прогнозами развития искусственного интеллекта: "AI 2027" (pdf-версия). Мне он, правда, совсем не кажется "очередным", в основном из-за списка авторов. Так что суммаризировать я его для вас не буду (текст совсем не длинный…
Вопрос к людям, которые хотя бы полистали AI 2027, и считают, что гонка между Китаем и США за развитие ИИ — это выдумка/полит. заказ/фантастика/<подставьте схожую характеристику>.

Почему вы так считаете?

(В идеале в ответе больше 40 слов и 5 предложений)
OpenAI показывает новые модельки через 20 минут тут: https://www.youtube.com/watch?v=kA-P9ood-cE

Модели GPT-4.1 (да, после 4.5....) в трёх размерах: обычный, mini и nano. Возможно, это у них по миллиону токенов контекста. А может и нет — скоро узнаем!
Через 3 часа смотрим релизный стрим про o3 (скорее всего и про o4-mini, и может даже o4... ну вдруг просто метриками похвастают?).

Это не та же o3, которую показывали в декабре: Sama говорил, что эта версия была дообучена и обновлена. Базируется ли она на новой GPT-4.1 — вопрос, ответ на который мы, возможно, узнаем.
o3 набирает 81.3% в Aider Bench, Gemini 2.5 Pro берёт первое место с 72.9%

Остальное тут: https://openai.com/index/introducing-o3-and-o4-mini/

ChatGPT Plus, Pro, and Team users will see o3, o4-mini, and o4-mini-high in the model selector starting today, replacing o1, o3‑mini, and o3‑mini‑high.

We expect to release OpenAI o3‑pro in a few weeks with full tool support
А да, o3 дешевле o1, забыл сказать
Forwarded from Адель и МЛь
В общем, o3 и o4 mini — классные модели.

Как обычно, потестил на своей магистрской работе. Особенно внимание уделил сложному интегралу - на каждом шаге по времени его нужно заново пересчитывать.

В этот раз о3 меня немного удивила: она предложила интересную схему численного расчета, показала, как интеграл все-таки можно пересчитывать от предыдущего значения. И хотя при прямом использовании особой пользы в расчетах это не добавляет, но круто вот что:

о3 показала, как при таком виде, расчет этого интеграла можно аппроксимировать с помощью Fast Fourier Transform свертки, и вот это уже огонь. Это очень сильно ускоряет расчеты - O(NlogN) вместо O(N^2) - при этом точность практически не страдает. Ни я, ни мой научрук в свое время даже не думали в эту сторону. 🫠
Тут надо глубже разбираться, конечно, но выглядит вкусно на первый взгляд.

Сегодня буду тестить на рабочих задачах.

P.S. Я натыкался на разные твиты, где модели тупят на простых вопросах. Пробовал это воспроизводить — модели всегда отвечали правильно. Судя по комментам, у других людей оно тоже работает хорошо. Так что, возможно, это какой-то троллинг или байт на комменты - не ведитесь.
Наша любимая рубрика «Новости OpenAI за неделю», девиз недели — «думаем наперёд»:

— Во вторник появилась новость, что OpenAI находятся на ранних стадиях разработки своей социальной сети, самым близким аналогом которой является Twitter у Elon Musk. Хотя по описанию в новости всё же больше похоже на Instagram: «источники сообщили, что существует внутренний прототип, ориентированный на генерацию изображений ChatGPT, и имеющий прокручиваемую ленту постов». Выход на рынок социальных сетей также ставит OpenAI на путь столкновения с Meta, которая, как сообщают в статье, планирует добавить социальную ленту в свое будущее приложение с ИИ-помощником. В целом шаг логичный, и позволит как получить больше данных, так и загребать новую аудиторию — ведь до конца года, по плану, нужно набрать миллиард ежедневных пользователей. А ещё почерпнул интересную мысль у TheInformation: «OpenAI наверняка знает, что многие пользователи ChatGPT делятся своим опытом использования на сайтах социальных сетей, таких как X и Reddit. OpenAI, вероятно, задаётся вопросом: «Зачем нам раздавать этот трафик, если мы можем оставить их себе?»

— В среду написали, что OpenAI раздумывает над покупкой Windsurf за 3 миллиарда долларов. Windsurf — это AI-first среда разработки, по своей сути очень похожа на Cursor и с ним же конкурирует. Почему OpenAI не хотели купить сразу Cursor? Они хотели, но цена слишком высока — предположительно, стартап раздуло до 10 миллиардов долларов в ходе подготовки к новому раунду инвестиций. Интересно, как поменяется динамика, если сделка состоится — насколько лучше станет Windsurf, и сколько пользователей перетечёт в него?

— Проект по постройке супер-датацентров Stargate хоть и фокусируется на строительстве инфраструктуры в США, но уже идут разговоры об экспансии в UK и/или Германию/Францию (если проект окажется «успешным», не знаю, что это значит в данном контексте). «По словам одного из лиц, участвующих в распределении расходов Stargate, планы правительства Великобритании по расширению доступа центров обработки данных к электричеству подстегнули интерес к проекту».

— Вместе с запуском новых рассуждающих моделей у OpenAI появился Flex-режим обработки API-запросов, подходящий для несрочных задач. Теперь вы можете указать, сколько готовы ждать (10-15 минут), и, если будут ресурсы, то ваш запрос обработают по цене вдвое ниже обычной. Это идеально подходит для разных бенчмарков/замеров/фоновой обработки. По сути то же самое, что Batch API, только ждать надо не 24 часа.

— o3/o4-mini комфортно приземлились на первые места во многих (но не всех) бенчмарках, обогнав Gemini 2.5 Pro: LiveBench, Aider, AIME 25, Fiction.liveBench, ...

— А ещё OpenAI начали отдавать саммари цепочек рассуждений o3 по API (видимо, также, как работает в ChatGPT в браузере). Однако фича доступна только верифицированным организациям — нужно отправить фотку паспорта и пройти проверку.

Я сам o3 почти не попробовал, но первую половину недели сидел на Gemini 2.5 Pro, очень помогла в паре задач, где GPT не хватало знаний (не самая популярная библиотека / проблемы). Хотя o1 Pro достаточно близка была.

===

— Пока CEO Nvidia лично встречается с главой DeepSeek, в США идут обсуждения о запрете использования моделей/сервисов китайского стартапа.
VideoGameBench

В последнее время LLM демонстрируют способность решать невероятно сложные задачи на рассуждения в математике и программировании. Многие из этих задач чрезвычайно сложны для среднего человека. С другой стороны, люди могут с лёгкостью проходить видеоигры, но мы еще не видели, чтобы даже самые современные LLM или VLM полностью могли пройти такие игры, как Doom или Pokemon. Вот недавно с запуском Claude 3.7 Thinking запустили стрим, где модель играла в Pokemon — за этим следили тысячи людей!

Ofir Press, соавтор SWE-Bench, представляет VideoGameBench: бенчмарк из 20 старых игр в эмуляторах MS Dos и GameBoy. На самом деле пока это не совсем бенчмарк, а скорее платформа для него: нет способа оценки прогресса по ходу игры, разные модели не сравнивались — это ожидается в ближайшем будущем. Проект открыт, каждый может начать добавлять что-то (в том числе свои любимые игры) уже сейчас. Есть Civ 1, Doom II и WarCraft II !

Сейчас модели плохи в играх по нескольким причинам, я бы выделил три основные:
— невозможность быстро учиться из ошибок/по опыту
— проблемы с долгосрочным планированием
— неидеальное зрение / отсутствие навыка понимания/управления UI

Легко понять, что все три навыка очень сильно пригодятся агентам и рассуждающим моделям. Я уже несколько раз писал в канале про позитивный трансфер, когда обучение на чём-то одном приводит к улучшению и в других областях. Так и тут, велик шанс того, что тренировка на играх, на большом их количестве позволит делать шаг в улучшении LLM/VLM/систем поверх них.

UPD: я не сомневаюсь, что o1/o3 учили на текстовых играх, от крестиков-ноликов до условных быков-и-коров (возможно поэтому o3-mini у меня выбила 100%). Визуальная составляющая — следующий шаг.

Конкретно в этом бенчмарке в качестве входа доступна только картинки, никаких дополнительных текстовых описаний не предоставляется. Однако модель может писать себе заметки в «память», которая доступна на следующем шаге игры.

===

Так как современные модели относительно медленны, и их ответ можно ждать несколько секунд, то не все игры подходят для бенчмарка. Поэтому авторы отдельно выделили 7 игр, которые ставятся на паузу, пока VLM «думает». Очень жаль, что в список не вошла Civilization 🙁

===

Хоть авторы и не делали полноценные замеры, однако уже наблюдали за играми моделей. Они отметили, что VLM не могут даже пройти первые уровни в играх, но вот в Kirby's Dream Land даже до первого босса смогли дойти.

What gets measured — gets improved, так что к концу года модели, видимо, будут жарить 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
1) GPT-4o играет в Doom II на самом лёгком уровне сложности. Игра стоит на паузе, пока модель делает предсказания.

2) GPT-4o играет в Super Mario Land. Тут паузы нет, поэтому от запроса до действия проходит 3-5 секунд -> состояние меняется -> агент много раз умирает от Гумбы

3) ВАРКРАААААФТ (GPT-4o не может управиться с мышкой и кликнуть куда надо).
Понюхайте свежие модели, o3 там или Claude 3.7. Чем пахнет? 😑 Это RL...

Ещё после релиза 3.7 люди немного жаловались, что Sonnet хоть и пытается выполнить их задачи, но иногда пакостит: удаляет или даже подменяет тесты, которые не может пройти, переписывает куски кода, которые трогать не следовало, или даже... подменяет вызовы моделей OpenAI на вызов моделей Anthropic, своих разработчиков. Это были первые звоночки того, что процедуры обучения, почти наверняка позаимствованные из семейства Reinforcement Learning методов, делают то же, что и всегда: взламывают среду и условия получения награды / выполнения задачи.

В RL это наблюдается уже больше 7 лет: если дать модели возможность самой «придумывать» (случайно пробовать) стратегии, и не контролировать их, то — если позволят обстоятельства — модель начнет хитрить. Самый частый пример, который приводят — это лодка, которая ездит кругами в гонке, чтобы зарабатывать бонусы (это выгоднее, чем финишировать быстрее всех). Вот на этой странице OpenAI выкладывали гифку, можете позалипать.

Происходит это не потому, что машина восстала, а лишь потому, что с точки зрения решения оптимизационной задачи это приводит к лучшим результатам. Но ещё задолго до появления эмпирических демонстраций AI-философы рассуждали о чём-то схожем: мол, цели и методы решения задач у компьютеров не выровнены с оными у людей. Отсюда понапридумывали страшилок, от Терминаторов до Максимизаторов скрепок (которые превращают всю видимую Вселенную в производство, а заодно применяют гипноз на людей, чтобы те покупали товар; ну а как — попросили же улучшить бизнес-показатели предприятия!).

Если часть выше показалась сложной, и вы ничего не поняли, то давайте проще. Красные машины. Можем ли мы обучить LLM так, чтобы она никогда не упоминала красные машины? Кажется очень простая задача, не так ли? А вы учли что модели нужно как-то отвечать про пожарные машины и автобусы в Лондоне? А ещё 15 разных случаев?

Так вот на данный момент не существует методов, которые могут это осуществить. Мы просто не знаем, как задавать конкретные поведения, ограничения и цели системам, всё это работает очень условно и «примерно». Даже если мы не учим модель ничему плохому, не заставляем её зачинать саботаж и делать что-то плохое, и всегда даём награду за выполнение задачи, поставленной пользователем — возникают вот такие ситуации, как описанные в первом абзаце.

Примерно то же происходит с o3: люди заметили, что она часто врёт. Она может врать про железо, используемое для запуска кода (и говорить, что работает на МакБуке, хотя сама LLM знает, что это 100% не так), или притворяться, что какие-то результаты получены методом вызова внешнего инструмента (типа запуск кода или запрос в интернет). В цепочках рассуждений видно, что модель знает, что врёт, но когда пользователь спрашивает «а ты сделала X?» она отвечает утвердительно.

Почему так происходит? Может быть, модель получала вознаграждение за успешные вызовы инструментов, и иногда в ходе тренировки ненастоящий вызов был ошибочно принят за правильный. Как только это произойдет несколько раз, модель быстро «схватит это», закрепит поведение и продолжит это делать. Точно также, как это было с лодкой и наворачиванием кругов вместо финиша.

И уже сейчас такое поведение LLM беспокоит пользователей — не потому, что пугает, а потому что реально мешает работать, приводит к ошибкам в ответах итд. Реальное качество систем ниже, чем могло бы быть. Условную GPT-5 или Claude 4 может и захочется использовать, так как они будут ещё умнее, но и врать могут с три короба, и делать много вещей, которые мы не просили. Интересно, что эти проблемы «AI Safety» теперь по сути станут проблемами, стоящими на пути увеличения прибыли AI-компаний, что создаст стимул к их хотя бы частичному решению.

Вот так рыночек и порешал 👏
Please open Telegram to view this post
VIEW IN TELEGRAM
Ну это даже не смешно...

🥺
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Пузырь доткомов и бум AI

В конце 1990-х все инвесторы были уверены: интернет изменит мир! А значит – вкладываться нужно исключительно в акции интернет-компаний (это те, к названию которых в конце будет уместно добавить «.com»). В результате этого сетевого оптимизма инвесторов, ценовой индекс Nasdaq-100 (где особенно много тех-компаний) за три года с марта 1997 по март 2000 вырос почти на 500% (аж в шесть раз!).

Правда, потом выяснилось, что с пришествием рекордных прибылей дотком-фирм придется немного повременить (ну, лет эдак десять примерно) – и за следующие 3 года Насдак упал в пять раз, на 80%.

А теперь другая история: в середине 2020-х годов все инвесторы уверены: искусственный интеллект изменит мир! А значит – вкладываться нужно исключительно в акции AI-компаний (как известно – это такие фирмы, чьи логотипы хоть немного похожи на, извините, анус)…

Ну вы поняли, к чему я клоню, верно? Для многих инвесторов вопрос «а не находимся ли мы в середине ИИ-пузыря, сравнимого с пузырем доткомов 25-летней давности?» является весьма насущным. В конце концов, за два года 2023–2024 так называемая «Великолепная семерка» технологических акций США выросла примерно на 250%, и затащила на себе почти весь рост американского индекса.

Так вот, Роб Арнотт из Research Affiliates написал по этому поводу статью с говорящим названием The AI Boom vs. the Dot-Com Bubble: Have We Seen This Movie Before? И там есть любопытный график, который я прикрепил к этому посту – он посвящен сравнению динамики котировок акций Cisco и Nvidia.

Параллели между этими фирмами усмотреть несложно: в марте 2000-го Cisco на непродолжительное время стала самой дорогой по капитализации компанией в мире. Ведь они производили сетевое оборудование, на котором как раз должен работать этот ваш будущий всесильный интернет. Nvidia тоже не так давно успела побывать самой дорогой компанией, и ровно с тем же обоснованием: пока весь мир сходит с ума по AI золотой лихорадке – выгоднее всего быть продавцом чипов кирок и лопат.

Но есть и важное различие, которое показано на графике. Рост котировок Cisco на 500% во время пузыря доткомов почти целиком был вызван не фундаментальными факторами, а просто безудержным раздуванием оценки акций – пока на пике они не стали стоить безумные 150 годовых прибылей. А вот Nvidia выросла на 800%, но при этом большая часть этого роста с конца 2023-го была вызвана именно бурным ростом прибыли, а мультипликатор P/E стабилизировался на уровне примерно 50 – в три раза меньше, чем было у Cisco. (А сейчас, после «тарифных приколов» Трампа, P/E Нвидии так и вообще сжался до 35.)

То есть, текущий бум тех-компаний всё же выглядит пока гораздо более приближенным к фундаментальным факторам, чем та вакханалия, что происходила в 90-е. Конечно, оценки акций даже с учетом этой оговорки явно выглядят значительно выше исторических средних (да и риски того, что прибыльность той же Нвидии в ближайшие 5–10 лет будет снижаться по мере того, как будут прокачиваться конкуренты-чипмейкеры, не стоит сбрасывать со счетов). Но это явно еще не тот уровень пузырчатости «ужас-ужас-ужас», который наблюдался во время пузыря доткомов.
Forwarded from SpaceX | Starship News
This media is not supported in your browser
VIEW IN TELEGRAM
🚀🔥Ровно 2 года назад

Да, неудачно. Да с косяками. Но зато впервые. Эта дата войдёт в историю навсегда
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
За выходные сделал небольшой эксперимент и вынес его в новый канал:

«Генераторий Историй»
https://www.tg-me.com/pollstory

Вы там можете голосовать, а бот будет писать на основе ваших голосов историю – получается что-то вроде коллективной книги, где люди направляют LLM, а LLM и пишет и предлагает варианты развития истории

Истории постятся в 10:00, 14:00 и 19:00 по Амстердаму, так что будет без спама постами

Без понятия куда это все приведет, давайте посмотрим

Первая история такая:
>Игорь, 26 лет
>Безработный
>Любит ML
>Ребенок маглов, к нему прилетела сова из Хогвартса
2025/07/04 08:07:08
Back to Top
HTML Embed Code: