Telegram Web Link
Сиолошная
Абсолютный чемпион мира в супертяжелом весе по привлечению инвестиций и масштабированию Sam Altman заявил о своём следующем шаге: OpenAI заключили стратегическое партнёрство с Nvidia, и последние инвестируют до $100B в ближайшие годы. Стратегическое партнерство…
Вместе с этим Sama выпустил эссе «Изобилие интеллекта», оригинал тут, а перевод — ниже:

Рост использования AI-сервисов был поразительным; мы ожидаем, что в будущем он будет ещё более впечатляющим.

По мере того как AI становится умнее, доступ к AI станет ключевым двигателем экономики, а возможно, в конечном итоге мы будем рассматривать его как одно из фундаментальных прав человека. Почти каждый захочет, чтобы AI работал в его интересах.

Чтобы обеспечить то, что нужно миру — вычислительные мощности, чтобы запускать эти модели, и для обучения, чтобы делать их всё лучше и лучше — мы закладываем основу, позволяющую существенно расширить наши амбиции по созданию инфраструктуры для AI.

Если AI продолжит развиваться по тому пути, который мы предполагаем, то станут возможны удивительные вещи. Может быть, с 10 гигаваттами вычислительных мощностей AI сможет найти лекарство от рака. Или, может быть, с 10 гигаваттами вычислений AI сможет обеспечить индивидуальное обучение каждому ученику на планете. Если же нас ограничат вычислительные мощности, нам придётся выбирать, что приоритетнее; никто не хочет делать такой выбор, поэтому давайте займёмся делом.

Наше видение простое: мы хотим создать фабрику, способную производить гигаватт новой AI-инфраструктуры каждую неделю. Реализация этого проекта будет чрезвычайно сложной: нам понадобятся годы, чтобы достичь этой цели, и инновации на каждом уровне, от чипов и электроэнергии до строительства и робототехники. Но мы уже активно работаем над этим и уверены, что это возможно. На наш взгляд, это будет самый крутой и важный инфраструктурный проект в истории. Особенно здорово, что значительную часть этого мы планируем построить в США; сейчас другие страны строят производства микросхем и новые источники энергии намного быстрее, чем мы, и мы хотим помочь изменить эту ситуацию.

В течение ближайших нескольких месяцев мы расскажем подробнее о наших планах и партнёрах, с которыми работаем для реализации задуманного. Позже в этом году мы поделимся информацией о том, как будем финансировать проект; учитывая, что увеличение вычислительных мощностей буквально означает увеличение доходов, у нас есть несколько интересных новых идей.
98❤‍🔥58🤔30🤡21👍17🔥10💩44🌚3👨‍💻2
АМОГУС, но вместо игроков — LLM'ки: так выглядит новый интерактивный бенчмарк от 4wallai.

Among AIs оценивает мышление и дедукцию, навыки обмана и убеждения, и Theory of Mind (как одна модель может подумать о том, о чём думает другая). Авторы провели 60 игр и считали количество побед за мирных и за импосторов (предателей).

Наибольшее количество побед там и там — у GPT-5; Opus'а нет :( на втором месте Sonnet 4, дальше Kimi K2.

Видео-запись одной игры: https://youtu.be/1dxJaEyPUYw

Блогпост: https://www.4wallai.com/amongais , там можно почитать транскрипты игр, посмотреть, как модели «оправдываются» и выкручиваются, пытаясь обмануть других и доказать, что они — мирные. Плюс авторы проанализировали результаты голосований за выкидывание игрока, и получили инсайты в духе «GPT-5 причиняет меньше всех вреда команде» и «GPT-5 не говорит подозрительно, и потому не подвергается обвинениям».
3🔥138🤯3918👍12🌚5🤣2
Сиолошная
Грядёт великая сепарация тиров пользователей... Интересно, появится ли тир за 2'000 долларов, про который писали больше полугода назад?
«...Первоначально некоторые функции будут доступны только Pro-подписчикам, а за некоторые новые продукты будет взиматься дополнительная плата.»


Созвонились с @denissexy, обсудили, что это могут быть за фичи и продукты. Что пришло в голову:

1. Sora 2, существенно лучше генерация, возможно, аудио. Генерация видео дорогая, если смотреть ценник Veo 3, так что можно ожидать pay-as-you-go оплату. К сожалению, самый малоинтересный для меня вариант :(

2. UltraMega DeepResearch — агент для поиска информации и составления отчётов, в котором под капотом происходит анализ гораздо большего количества веб-страниц / ваших документов (почта/гугл-диск/итд). DeepResearch это продукт с понятной нишей, бизнесы уже начали адаптировать решения для аналитики. Улучшение на условные 10-15% абстрактной метрики за счёт большего количества рассуждений и параллельны генераций может окупиться.

3. Codex Ultra — то же самое, что написал выше для DR, но конкретно для программирования.

4. Agent 2 — тоже улучшение существующего продукта; он уже бывает полезен, но надёжности не хватает. Вот если бы на каждое действие можно было дёргать GPT-5 Pro... (но будет дорого и долго)

5. Local Agent — сейчас Agent работает только в браузере на своей виртуальной машине и не может пользоваться обычными приложениями. Не пора ли расширяться?

6. GPT-5.5 Pro — супер-ультра-мега рассуждающая LLM на основе огромной модели (условно GPT-4.5, уже недоступной в API). Медленная, но знает кучу нюансов. Мой персональный фаворит, хочуууу!

6.1 Возможно то же самое, возможно, нет — доступ к экспериментальной системе, которая повыигрывала летом-осенью разные олимпиады. Мы точно знаем, что её планировали запустить к концу года, что она есть и что она очень дорогая.

7. Не могу придумать полностью новые продукты :( Кидайте в комментарии ваши идеи!
🤔69👍2619🤣12❤‍🔥8🌚6🔥3🤡3👎2👨‍💻2
WebDancer: Towards Autonomous Information Seeking Agency

Вторая статья в цикле разборов Tongyi DeepResearch (первая разобрана тут).

В этой работе описан полный пайплайн сбора данных и обучения модели, так что на ней как будто бы можно и остановиться 😀 но статья майская, и за лето многое изменилось.

Популярные наборы вопросов для DeepResearch-агентов часто поверхностны и обычно состоят из задач, которые решаются одним или несколькими шагами поиска. Кроме того, они включают только валидационные выборки, а их объем относительно невелик: например, GAIA содержит всего 466 заданий, WebWalkerQA, разобранный вчера, 680 примеров, а BrowseComp от OpenAI — 1 266; этого недостаточно для обучения.

Поэтому предлагается методология сбора двух крупных датасетов: CrawlQA и E2HQA. CrawlQA собирается по той же методике, что вчерашний WebWalkerQA, с одним отличием: набор ссылок на сайты, по которым производится обход страниц и последующее построение пар вопрос-ответ. Плюс, нет этапа анализа и исправления человеком, зато есть дополнительная фильтрация (о ней чуть ниже).

E2HQA интереснее. Сначала берут большую базу вопросов с ответами, которые являются краткими однозначными сущностями. Ответ фиксируется и не меняется в ходе последующих итераций, а вот вопрос — меняется, усложняется. Для этого берут LLM, подключают её к поиску и промптят на извлечение и замену одной сущности из вопроса.

Например, пусть исходный вопрос «Кто получил премию IEEE Фрэнка Розенблатта в 2010 году?». Тут понятная сущность — премия и её название. Модель делает поиск и по прочитанным текстам понимает, что можно заменить на такой вопрос: «В 2010 году была вручена награда имени пионера в области искусственного интеллекта. Кто стал лауреатом этой награды?» Этот вопрос сложнее — для ответа сначала придётся разобраться, что это за награда, отсечь несколько вариантов, которые, например, не подходят по году, а затем уже искать лауреата.

Процесс усложнения повторяется итеративно, чем больше шагов, тем сложнее финальный вопрос, ибо нужно решить маленькие подзадачи. Такой приём называется «стратегия обратного составления». Причём исходные вопросы могут быть очень простыми и берутся из уже имеющихся датасетов: MuSiQue, Bamboogle, PopQA, 2Wiki, HotpotQA — все очень старые, периода 2018-2022-ых годов, ибо никакой сложности не нужно. Выкидывают те вопросы, на которые может ответить простая RAG-система (не уточняют детали, но положим, что один запрос на поиск от LLM + генерация ответа по найденым результатам).

По итогу, в CrawlQA 60 тысяч пар вопрос-ответ, в E2HQA — 40. На этом этапе никакой фильтрации не произвели, кроме описанной выше (через RAG).
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41👍18👨‍💻85❤‍🔥2👎2🤔1💔1
Дальше на основе этих данных хочется обучить свою модель. Так как на дворе весна 2025-го, и DeepSeek R1 уже вышла, и рассуждающие модели на хайпе, то хочется учить модель через Reinforcement Learning-подходы с рассуждениями по типу GRPO. Но если базовая модель показывает около-нулевое качество, то вы рискуете потратить много ресурсов вникуда, поэтому почти всегда делают cold start — «прогрев» модели данными в нужном формате и релевантные задаче.

Для этого берут GPT-4o / QwQ‑Plus (была такая рассуждающая модель у AliBaba) и промптят их в ReAct-стиле: дают наблюдение, просят выбрать одно из действий, выполняют его и результат добавляют в промпт, и так делают в цикле, пока выбранное действие не будет «дать ответ».

Доступных действий, описанных в промпте, 3:
— поиск (принимает на вход текстовый запрос, который отправят в условный гугл, и год для фильтра выдачи поиска)
— перейти по ссылке (принимает на вход URL из выдачи поиска и цель перехода на страницу, о ней ниже)
— дать ответ (просто строка с ответом, если модель решит, что информации достаточно)

Поиск возвращает топ-10 результатов в виде ссылок и краткого сниппета (как вы видите на странице гугла). Когда модель решает перейти по той или иной ссылке, она описывает «цель» — какую частичку информации на этой странице нужно найти. И дальше контент этой страницы, вопреки интуиции, НЕ попадает в промпт модели — вместо этого вся странница суммаризуется запромпченным Qwen-2.5-72B, который получает на вход цель.

Например, если нам нужно найти год рождения какого-то деятеля, то поисковый запрос может включать его имя, первая ссылка будет на Википедию, и агент решит выбрать действие «перейти по ссылке», передав в качестве цели «год рождения». Qwen-2.5-72B сделает суммаризацию так, чтобы сохранить ответ с учётом этой цели — такое называется aspect based summarization. Этот результат передадут обратно агенту в качестве наблюдения, и он уже может решить, что делать дальше — давать окончательный ответ, снова искать или переходить по другой ссылке, если вдруг нужной информации не нашлось.

Этот цикл из «наблюдение — рассуждения —действие» прогоняется для каждого вопроса по 10 раз: 5 раз GPT-4o и 5 раз QwQ-Plus; у них слегка отличаются промпты из-за специфики рассуждающих моделей и форматов ответов. Цепочки рассуждений у QwQ-Plus длиннее, ибо это рассуждающая модель, и все они сохраняются для дальнейшего дообучения моделей.

Дальше выкидывают все вопросы, на которые модель ни разу не смогла ответить правильно. К сожалению, это не означает, что данные качественные, поэтому их фильтруют в 2 этапа:

— выкидывают траектории, где были нарушения формата вызова действий (tool calls, вот эти «поиск», «перейти по ссылке» и «дать ответ»)
— в траекториях, где больше 2 действий, часто наблюдаются галлюцинации и повторения, когда модель ходит по кругу; их обнаруживают через эвристики и подсчёт n-грамм и выкидывают. Тут же делают фильтр по критериям «отсутствие избыточной информации, согласованность, логическое обоснование, точность», но промпт для этого не приводят.

Итого после всех фильтраций у GPT-4o получается 7678 вопросов (из исходных 100 тысяч), в среднем 4.5 действий на ответ и 510 токенов на рассуждения; у QwQ-Plus — 6550 вопросов, 2.31 действий и 1600 токенов рассуждений. Полученные датасеты называются Short-CoT и Long-CoT соответственно — на них тренируют модели Qwen-2.5 разных размеров. Именно эти дообученные модели будут использоваться для RL-стадии.

Тренировка просто в режиме предсказания следующего токена, то есть классический SFT, однако функция потерь не считается на токенах наблюдений (поисковая выдача / саммари веб-страниц; всё то, что пишет не обучаемая модель).
1🔥39👨‍💻9🤔4👍3🤡2
Ну и всё, теперь дело за малым: берём дообученные модели и запускаем RL-цикл. Вместо GRPO авторы используют свежую модификацию от ByteDance Seed, Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO). Разбор я не писал, да и детали наверняка не так интересны, но если что, разбор можно глянуть вот тут.

Очень важная деталь: на этом этапе возвращают пары вопрос-ответ, которые выкинули из-за фильтров, описанных выше. Почему? Потому что в DAPO используется динамическое семплирование, при котором обучение не происходит на тех объектах, для которых все результаты — нули или единицы. Другими словами если вопрос плохо сформулирован / ответ неправильный / что-то ещё, то и обучаемая модель не сможет на него ответить — поэтому все траектории (роллауты) будут оценены нулём, а значит выкинуты. Да, мы потратим мощности на обработку, чтобы понять это, ну и что — AliBaba может себе позволить 👶

Функция награды для RL здесь состоит из двух компонент:
— с весом 0.1 дают бинарную награду за правильное форматирование рассуждений и вызова инструментов (поиск/переходы по ссылкам)
— с весом 0.9 дают бинарную награду за правильный ответ; правильность определяется отдельно запромпченной Qwen‑72B‑Instruct (промпт есть в статье), которой на вход передают вопрос, правильный ответ из датасета и ответ обучаемой модели.

В статье даже не пишут, сколько RL-шагов они делают, ну и ладно.

На картинке ниже отображён двухстадийный процесс обучения в деталях:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍13🌚5❤‍🔥3🤔3🤡2
Лучший результат получается у дообученной QwQ на 32 миллиарда параметров — на 10%+- лучше, чем Qwen-2.5 такого же размера. Однако здесь есть интересный момент — помните мы по итогу нафильтровали два набора данных, от GPT-4o (Short-CoT) и QwQ (Long-CoT)?

Авторы обучают обычные Qwen на каждом из них, а также QwQ, и замеряют метрики, включая Inv (Invalid) — доли ответов, где модель ушла в само-повторения, ошибается с форматом ответом или сходит с ума по другому.

Если тренировать на Short-CoT, на ответах GPT-4o, то это происходит редко (левая половина таблицы). Если на Long-CoT, от QwQ, то основные метрики поиска выше (колонки Pass@3 и Cons@3), но и доля невалидных ответов выше — на 10-20% (самая правая колонка)!

Объяснения никакого не приводится, но я думаю что это связано с качеством самой QwQ, она всё же во многом была экспериментальной, немного «дикой», и цепочки рассуждений могли быть шумными и плохо написанными, потому обучение на них приводит к такому результату.

===

Обратите внимание, что мы всё ещё не ушли от парадигмы вопросов с простым односложным ответом — это не то же самое, что Deep Research от OpenAI, где на ваш запрос выдадут целый отчёт на несколько страниц. Я бы сказал, что каждая часть пайплайна из описанных выше нуждается в прокачке: от данных для валидации и тренировки до RL-процедуры. Что с этим сделают? Узнаем в следующих сериях!
1👍64🤔16👨‍💻8
WebSailor: Navigating Super-human Reasoning for Web Agent

Третья статья в цикле разборов Tongyi DeepResearch (вторая разобрана тут).

Её разбор стоит начать с того, что весной 2025-го OpenAI выпустили бенчмарк BrowseComp — это произошло вместе с релизом DeepResearch, в анонсе которого было показано, насколько же он лучше других решений на этом бенчмарке (с пометкой, что он натренирован на такой тип вопросов).

BrowseComp — один из самых сложных бенчмарков, оценивающий навыки агентов находить труднодоступную, часто неоднозначную информацию в интернете. Вопросы там очень сложные — сами OpenAI нанимали людей и давали им по два часа для поиска ответа на каждый вопрос. В 70% случаев люди сдавались, а среди тех, кто дал ответ, только 86% оказались правильными.

При этом бенчмарк не тестирует какие-то знания на уровне докторов наук, не требует разбираться в квантовой физике — просто сами вопросы заставляют закопаться в деталях.

И вот авторы сегодняшней статьи отмечают, что OpenAI DeepResearch показывает на этом бенчмарке уровень поиска информации выше среднего человека (об этом писала и сама компания), а открытые решения не набирают двузначного процента правильных ответов. Они говорят, что этот разрыв в качестве возникает из‑за того, что в тренировочных данных их моделей нет настолько сложных зададач, и моделям неоткуда научиться их решать.

Что это за сложность и чем она определяется? Требуемые для поиска ответа шаблоны рассуждений задаются количеством неопределённости в самом вопросе и сложностью уменьшения этой самой неопределённости. Выделяют 3 уровня:

— Первый: вопросы с низкой неопределённостью, которую легко уменьшить. Сюда относятся вопросы, на которые LLM могут ответить сходу без поиска в интернете или за один запрос в гугл. «Когда родился такой-то известный человек» относится к этой категории.

— Второй: вопросы, которые обладают высокой исходной неопределённостью, но следуют ясному пути к решению. Даже если поиск ответа требует множество шагов поиска, сущности связаны понятной логикой, что позволяет систематически уменьшать неопределённость. «Кто был первым академиком Китайской академии наук из альма-матер нынешнего генерального директора Alibaba?» — ищете директора, смотрите его университет, перебираете несколько академиков и ответ готов. План сходу ясен.

— Третий, который и является фокусом этой статьи — вопросы с высокой неопределённостью, которую сложно уменьшать. Здесь сущности связаны сложными неочевидными способами, и у ответа нет предопределённого пути рассуждений. Решение таких задач требует креатива и выхода за рамки обычных паттернов поиска.

Вопросы третьего уровня содержат множество сложно связанных между собой сущностей и намеренно упущенную информацию, такую ​​как расплывчатые временные ссылки («примерно середина V века», «начало XXI века») и неконкретные описания («известная столица Южной Америки», «уважаемое учреждение искусств»). Часто нужно сопоставить несколько фактов, чтобы однозначно идентифицровать сущность.

Пример вопроса: «Назовите вымышленного персонажа, который время от времени разрушает четвертую стену в общении со зрителями, имеет предысторию, связанную с помощью от бескорыстных аскетов, известен своим чувством юмора и имел телешоу, выходившее в эфир в период с 1960-х по 1980-е годы и насчитывавшее менее 50 серий» (спойлер: не Дедпул 😨)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38🤔28👨‍💻5❤‍🔥2🤡2🔥1
Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы описывают примерный процесс его создания, но в этот раз опускают множество деталей, не указывают промпты, и кода нет — поэтому воспроизвести на коленке не получится.

Первым делом нужно получить граф. Узлы в графе представляют сущности, а рёбра — отношения между сущностями. Берут граф из Wikidata — базы знаний, принадлежащей Wikipedia и как раз хранящей миллионы связей. В эту базу можно писать запросы на SPARQL — и через фильтрацию по набору правил авторы получают «редкие» сущности. Что означает редкие — не уточняется: это может быть и популярность страницы / количество упоминаний / связей с другими сущностями.

Затем для этих узлов формируют набор признаков. Написано, что делается это через поиск и переходы по ссылкам — видимо, промптят LLM на выделение атрибутов, а не переиспользуют данные из графа Wikidata; хотя одно другого не исключает.

По этим признакам находятся другие узлы графа, то есть другие сущности. Например, находятся другие сериалы, другие вымышленные персонажи и так далее. Для них тоже формируют признаки.

Затем случайным образом выбирают один из обработанных узлов и повторяют процесс: берут признак, делают поиск, добавляют узлы, формируют признаки. Получается маленький подграф. Чем больше итераций делаем — тем он больше, и тем больше связей / признаков получается.

Ну а дальше из этого графа выбирают случайную подгруппу, и, наверное, дают промпт LLM проанализировать эти данные и сгенерировать вопрос с ответом — про это опять ничего не написано, но не думаю, что придумали что-то сложнее разобранного вчера подхода из WebDancer. Замена конкретных дат / мест на неконкретные расплывчатые делается легко.

Таким образом получают датасет SailorFog-QA. Часть сгенерированных вопросов настолько сложна, что даже мощным моделям вроде o3 требуется до 40 вызовов инструментов (запросов на поиск + переходов по ссылке), чтобы прийти к ответу.
👍37❤‍🔥13🤔5👨‍💻4🔥1
Теперь у нас есть датасет «сложный вопрос — простой ответ». В статье снова предлагается сначала сделать разогрев в SFT-стиле, а затем запускать RL для обучения рассуждениям на самостоятельный поиск ответов, но есть некоторые отличие от WebDancer.

Авторы отмечают, что открытые LRM (Large Reasoning Models), такие как QwQ‑32B, могут иногда порождать корректные траектории поиска ответа на вопрос, прямое дообучение на их рассуждениях работает плохо. Они выделяют две критические проблемы: проблемы со стилем (модели сходят с ума / пишут несусветицу, непонятные тексты) и большое количество воды и ненужных действий (как побочный результат RL). Если на этом обучать агента — получится шлак.

Решение такое:
1) Берём LRM (авторы не говорят какую именно, хотя в прошлые разы говорили про QwQ + она упомянута в контексте. Может быть используют DeepSeek и не хотели писать? Или проприетарные o1/o3 и нарушают правила использования?)
2) Промптим её точно так же, как в прошлый раз: даём возможность отправлять запросы в гугл, смотреть на топ-10 результатов, переходить по ссылкам и получать aspect based summarization. Единственное отличие — теперь HTML-код страницы переводят в удобочитаемый для модели текст с помощью сервиса Jina.AI, а уже его суммаризуют и возвращают агенту
3) для успешных траекторий, где модель чудом пришла к правильному ответу, выкидываем рассуждения. Сохраняем только последовательности пар (наблюдение -> действие). Получается у нас есть «что» и «как», но нет «почему»
4) затем последовательность подают в другую LLM (уже не LRM, скорее всего Instruct-модель) и просят написать краткую цепочку рассуждений, оправдывающую действие (поисковый запрос или выбор ссылки из результата поиска). Это критически важно, и итоговая цепочка рассуждений будет достаточно компактной для многоступенчатых задач.

Такой метод позволяет масштабируемо генерировать данные — и исходных графов куча, и никакая часть процесса не требует вмешательства человека.

На этих данных будут тренировать модель перед RL-шагом, как я написал выше. Ещё сделают две фильтрации:
— по длине, чтобы траектории не были длиннее 32 тысяч токенов (просто у них базовая модель столько поддерживает)
— по количеству вызовов инструментов, чтобы было не меньше 5; количество поисковых запросов/переходов по ссылке можно рассматривать как прокси к сложности, и тогда выходит, что выкидываем самые простые примеры
👍34🔥18🤔9👨‍💻4
Сам по себе датасет получается сложным: это видно по сравнению количества действий, необходимых для ответа на вопрос, с другими бенчмарками, уже упомянутым BrowseComp от OpenAI и WebDancer из вчерашнего разбора. Обратите внимание, что в последнем сложность очень низкая — на 55% вопросов удалось ответить всего за 2 действия (условно 1 поиск + 1 переход по ссылке), и ни один вопрос не требовал больше 10 действий.

В то же время в BrowseComp есть вопросы, в которых делается аж 30 действий.

На второй картинке — доля вопросов, на которые из коробки могут ответить o4-mini и DeepSeek-R1. Первая показывает себя лучше на всех трёх датасетах.

SailorFrog-QA точно сложнее WebDancer-QA.

При ручной проверке траекторий ответов на вопросы из SailorFrog-QA авторы обнаружили, что низкая точность в данных во многом обусловлена их сложностью, а также тем, что ответы не всегда однозначны. Неоднозначность информации может приводить к нескольким пересечениям условий, не дающим одного уникального ответа. Иными словами под критерии могут подпадать разные варианты, каждый из которых не противоречит условию.

Однако гарантируется корректность условий относительно ответа, то есть ответ всегда удовлетворяет ограничениям, заданным в вопросе.
👍42❤‍🔥14👨‍💻4🤔2
Напоследок запускают RL поверх разогретой модели. Предлагают использовать свою модификацию DAPO, упомянутого вчера: Duplicating Sampling Policy Optimization (DUPO).

В DAPO если для каких-то задач в батче все 8 параллельных генераций привели к одному и тому же результату (все правильные или все неправильные), то их обычно выкидывают, берут несколько новых, и повторяют до тех пор, пока не наберётся нужное количество, равное размеру батча. Это медленно и заставляет дорогой кластер частично простаивать, превращая распределённое обучение в параллельный перебор запросов, для которых текущая модель может найти ответ.

Duplicating Sampling делает просто: выкидывает такие примеры и заменяет их на случайные уже посчитанные, поэтому и Duplicating. Честно говоря звучит глупо, ведь виртуально батч уменьшается, что критично, а некоторые примеры начинают иметь больший вес, внося некоторое смещение.

В остальном всё то же: снова бинарная награда за форматирование ответа с весом 0.1 и бинарная награда за корректность ответа с весом 0.9. В этот раз указали, что тренируют 50 RL-шагов, что с одной стороны не так много, а с другой каждый шаг сжирает ОГРОМНОЕ количество вычислений: ведь для каждого из 128 промптов нужно сделать по 8 параллельных полноценных цепочек поиска, каждая длинной по 5-30 действий (десятки тысяч токенов). DeepSeek-R1, для сравнения, тренировали больше 8000 шагов (но там каждая цепочка была в одно действие, если так можно сравнить).

Из интересного — проанализировали качество модели с добавлением вышеупомянутого разогрева (SFT на корректных траекториях) и без. Результаты на картинке. Видно, что просадка по метрикам существенная. На третьем графике показана динамика среднего количества действий, и модель без разогрева даже в конце тренировки просто не может догнать дообученную. Это указывает на неспособность освоить рассуждения с длинным горизонтом планирования. Наверное, если учить сильно дольше, то оно как-то там поднимется и может даже сравняется — но это ж очень большое количество мощностей надо потратить, что неэффективно.

Если уходить за рамки оценки бенчмарками и смотреть, что пишет модель, то авторы отмечают то же самое, что мы видели у o1 / DeepSeek R1: WebSailor может демонстрировать склонность к самонакручиванию, применяя сложную логику и делая десяток действий даже в ответ на, казалось бы, простые вопросы.

Однако это не однозначный недостаток: качественный анализ показывает, что во многих таких случаях агент не блуждает по интернету наугад, а выполняет перекрёстную проверку, используя разные источники информации для валидации первоначального «очевидного» ответа. Ну а вдруг задачка с подвохом? Тут каждый второй в комментариях сетует, что, мол, сын в третьем классе разобрался, а умная модель — нет 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59👨‍💻10🤣6❤‍🔥4👎1
😢 разборы становятся всё длиннее и длиннее
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤‍🔥10043🔥2215👎12👍6😭3🤡2👨‍💻2🤔1
It's gonna be big: во внутренней записке в слаке Sama написал, что хочет иметь вычислительных мощностей на 250 ГигаВатт к 2033-му году.

Для сравнения: летом в США на пике жары суммарное потребление по стране было ~750 ГигаВатт, в три раза больше, а вне пика в среднем около 500. В Китае цифры 1500 и 1300 соответственно.

2025-й год OpenAI началаис серверами примерно на 230 МегаВатт, а закончить планируют с 2 ГигаВаттами. В ближайшие три года Stargate позволит вырасти ещё примерно на 7.

Sama называет команду OpenAI, стоящую за проектом Stargate, «ключевой ставкой» компании. «Правильное выполнение этого проекта обойдётся в триллионы», и наверняка потребует переработки существенной части цепочки производства.

Источник
1🔥10433🤯27🤡11❤‍🔥5🌚5
А вот и первый продукт, который (пока) будет доступен только Pro-пользователям: ChatGPT Pulse.

Pulse — это первый шаг к новой парадигме взаимодействия с AI, при котором ChatGPT становится проактивным и самостоятельно проводит исследование, предоставляет персонализированные обновления на основе ваших чатов, отзывов и подключенных приложений. Вы можете сами управлять тем, какие темы ChatGPT исследует, указывая, что полезно, а что нет — обратная связь будет применена уже на следующий день.

Вы можете подключить Gmail и Google Calendar, чтобы предоставить дополнительный контекст для более точных рекомендаций. Если подключен календарь, ChatGPT сможет подготовить примерную повестку встречи, напомнить вам о необходимости купить подарок на день рождения или предложить рестораны перед предстоящей поездкой.

Pulse доступен только на мобильном приложении; после обкатки доступ будет предоставлен и Plus-подписчикам.

«Состоятельные люди всегда имели доступ к помощникам, которые понимают их предпочтения, предугадывают их потребности и могут помочь во всем: от организации встреч и бронирования поездок до покупки одежды. Мы создаём продукт, который позволит со временем предоставить каждому уровень поддержки, ранее доступный только самым обеспеченным» — написала CEO of Applications Fidji Simo.

===

Этот релиз пропускаем, несите следующий 😢
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔93👍45💩42🔥2312❤‍🔥6🌚6🤡4😈1
Forwarded from BOGDANISSSIMO
Прикольно, мне ChatGPT Pulse подсказывает какие у Vibe moat нужно развивать, какие метрики считать для предсказания виральности, как растить ретеншен
270👍38🤡8🌚8🤣8👨‍💻8🔥2
В уставе OpenAI AGI, artificial general intelligence, определяется так: высокоавтономные системы, которые превосходят людей в большинстве экономически ценных работ. Самое главное в ИИ гонке — это насколько предоставляемые компаниями инструменты действительно влияют на реальные работы и задачи, и, в конечном итоге, насколько растят экономику. Бенчмарки последних лет выступают в качестве прокси к тем или иным навыкам, которые, как мы верим, нужны для выполнения работы.

Прокси бывают разного качества: по вопросу «сколько слов "клубника" в букве "а"» мы не можем сделать хороших выводов о пользе ИИ-систем в прикладных задачах; SWE-Bench и его разновидности позволяют как-то оценить навыки локализации кусков логики в коде и добавления функционала. OpenAI сделали первую попытку подойти к оценке влияния на ВВП и выпустили GDPval — бенчмарк, охватывающий более тысячи интеллектуальных задач из 44 профессий в 9 областях с наибольшим вкладом в ВВП.

Каждая задача тщательно подготовлена и проверена экспертами с опытом в конкретной области. Все задачи максимально приближены к рабочим и опираются не только на текст запроса, но и на артефакты: юридические документы, инженерные чертежи, записи разговоров службы поддержки и так далее. От системы, в свою очередь, ожидается не просто ответ в чате, а применимые в работе документы, презентации, диаграммы, таблицы и даже мультимедийные материалы (ролики).

Для каждой профессии OpenAI работали с опытными специалистами, чтобы составить список типичных задач, отражающих повседневную деятельность. Средний стаж этих специалистов составляет 14 лет, и все они имеют высокий уровень профессиональных достижений. Также намеренно привлекались эксперты с разнородным опытом — например, юристов из различных направлений практики и фирм разных размеров — чтобы максимально повысить репрезентативность задач.

В подготовку каждого вопроса привлекалось несколько специалистов. В среднем каждая задача прошла 5 раундов проверок, включая перекрестную проверку авторами других задач, экспертами и валидацию с помощью LLM. Для каждой задачи эксперт с опытом подготовил решение, как если бы это было частью его работы. В среднем на одно решение уходило шесть с половиной часов.

Решения от LLM также оцениваются вручную экспертами; тем предлагается два решения (одно от человека, другое от LLM), и необходимо их сравнить и выбрать, какое лучше (или присвоить ничью). На оценку одной пары в среднем тратилось 109 минут. OpenAI пытались автоматизировать этот процесс, но согласованность с оценками людей пока чуть ниже нужного уровня. Исследователям, которые будут пытаться работать с бенчмарком, OpenAI будет помогать с оценкой решений (собирать и оплачивать экспертов).

В публичный доступ выложено 220 вопросов, по 5 на каждую из профессий — с ними можно ознакомиться тут; очень рекомендую это сделать, чтобы понять уровень задач.
❤‍🔥62🔥45👍12🤡75💩4🤔33
2025/10/19 20:52:45
Back to Top
HTML Embed Code: