Forwarded from Alexander Shmorgunov
Я думал, что вот эти мемы с поиском локаций в o3 — это завлекаловка, но проверил в реальности и был поражён
Какие есть интересные свежие статьи, которые стоит разобрать? Кидайте в комменты 💬
UPD: ссылки на abs, а не pdf👶
UPD: ссылки на abs, а не pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
В день релиза Claude 3.7 модель в шутку запрягли играть в одну из старых 2D-версий Pokemon, и даже запустили прямую трансляцию, где все желающие могли следить за прогрессом. С недавним выходом Gemini 2.5 Pro произошло примерно то же самое, и модель продвинулась сильно дальше, почти дойдя до конца игры — за меньшее количество времени (первая картинка).
Сотрудники (пиарщики) Google конечно используют это как пример превосходства модели, но дело не так просто: обе модели используют разные обвязки, или как сейчас модно говорить _scaffolding_. Помимо картинки с самой игрой в промпт подаётся куча дополнительной информации, да и сам скриншот игры — не просто скриншот. Из коробки без «подпорок» модели работают очень плохо, и разные части обвязки позволяют как бы подпирать слабости моделей костылями. И вот костыли разные, потому и сравнение делать сложно.
Примеры частей scaffolding'ов, которые могут отличаться:
1. Промпт, содержащий советы по прохождению игры
2. Какая информация рисуется поверх картинки (об этом ниже)
3. Реализация «памяти», текста, который сохраняется и передаётся дальше по ходу игры
4. Способ отдачи команд эмулятору игры (модель ведь не может в прямом смысле нажимать кнопки)
5. Реализация второй модели-критика, которая позволяет прерывать ходьбу по кругу, если основная модель-игрок зациклилась.
Чуть больше про различия можно глянуть здесь.
===
Автор отсюда пробовал позапускать игры сам, и сразу же выяснил, что модели вообще не понимают, что изображено на скриншотах из игры. Они не видят отдельные элементы, не отличают траву (по которой можно ходить) от непроходимых деревьев итд — и потому плохо справляются с одной из главных механик игры: передвижение/навигация. Как доказательство автор экспериментировал с запросами на конвертацию изображения в ASCII-карту, и модели справлялись очень плохо.
Поэтому из памяти эмулятора с запущенной игрой считывается состояние окрестностей и затем наносится сетка с координатами и цветными квадратиками (см. картинки). Метод чем-то напоминает Set-of-Mark Prompting. Цвета квадратиков могут кодировать разную информацию (о чем пишется в промпте, возможно даже КАПСОМ ЧТОБЫ ТУПАЯ МОДЕЛЬ НАКОНЕЦ ПОНЯЛА ЧТО ОТ НЕЁ ХОТЯТ). Например, красные квадратики обозначают точки, куда пойти нельзя, синие — где «игрок» уже недавно был (чтобы не попадать в циклы и не ходить кругами).
Автор отдельно подчеркнул навыки OpenAI o3 придерживаться контекста (по сравнению с другими моделями). Правда это минус, ибо одна ошибка, которую занесли в память (например, спутали дверь и стену) — и модель будет упорно долбиться, так как НУ У НЕЁ ЖЕ В ПРОМПТЕ НАПИСАНО. И так будет продолжаться сотни ходов... (автор заплатил за это $100😁 ). Claude 3.7 попадает в такие же ситуации, но иногда говорит «Wait! My previous assertions are obvious nonsense».
В общем, тяжело моделькам играть в 2D. Ну ничего, сейчас их поучат на сотне-другой игр — и начнётся.
Сотрудники (пиарщики) Google конечно используют это как пример превосходства модели, но дело не так просто: обе модели используют разные обвязки, или как сейчас модно говорить _scaffolding_. Помимо картинки с самой игрой в промпт подаётся куча дополнительной информации, да и сам скриншот игры — не просто скриншот. Из коробки без «подпорок» модели работают очень плохо, и разные части обвязки позволяют как бы подпирать слабости моделей костылями. И вот костыли разные, потому и сравнение делать сложно.
Примеры частей scaffolding'ов, которые могут отличаться:
1. Промпт, содержащий советы по прохождению игры
2. Какая информация рисуется поверх картинки (об этом ниже)
3. Реализация «памяти», текста, который сохраняется и передаётся дальше по ходу игры
4. Способ отдачи команд эмулятору игры (модель ведь не может в прямом смысле нажимать кнопки)
5. Реализация второй модели-критика, которая позволяет прерывать ходьбу по кругу, если основная модель-игрок зациклилась.
Чуть больше про различия можно глянуть здесь.
===
Автор отсюда пробовал позапускать игры сам, и сразу же выяснил, что модели вообще не понимают, что изображено на скриншотах из игры. Они не видят отдельные элементы, не отличают траву (по которой можно ходить) от непроходимых деревьев итд — и потому плохо справляются с одной из главных механик игры: передвижение/навигация. Как доказательство автор экспериментировал с запросами на конвертацию изображения в ASCII-карту, и модели справлялись очень плохо.
Поэтому из памяти эмулятора с запущенной игрой считывается состояние окрестностей и затем наносится сетка с координатами и цветными квадратиками (см. картинки). Метод чем-то напоминает Set-of-Mark Prompting. Цвета квадратиков могут кодировать разную информацию (о чем пишется в промпте, возможно даже КАПСОМ ЧТОБЫ ТУПАЯ МОДЕЛЬ НАКОНЕЦ ПОНЯЛА ЧТО ОТ НЕЁ ХОТЯТ). Например, красные квадратики обозначают точки, куда пойти нельзя, синие — где «игрок» уже недавно был (чтобы не попадать в циклы и не ходить кругами).
Автор отдельно подчеркнул навыки OpenAI o3 придерживаться контекста (по сравнению с другими моделями). Правда это минус, ибо одна ошибка, которую занесли в память (например, спутали дверь и стену) — и модель будет упорно долбиться, так как НУ У НЕЁ ЖЕ В ПРОМПТЕ НАПИСАНО. И так будет продолжаться сотни ходов... (автор заплатил за это $100
В общем, тяжело моделькам играть в 2D. Ну ничего, сейчас их поучат на сотне-другой игр — и начнётся.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вот так выглядит «фото» моделей и их «документы», когда они хотят пройти верификацию (KYC) для регистрации на сайтах. Согласны? Узнали? 👀
Помните я писал про ARA, автономное размножение и распространение моделей? The AI Security Institute (AISI) в UK, которые занимаются оценкой рисков моделей и их лицензированием для запуска, сделали новый бенчмарк для ARA, RepliBench. В нём 20 направлений и 65 отдельных задач, направленных на точечную оценку разных частей процесса ARA, от создания биткоин-кошельков и AWS аккаунта до, собственно, распространения весов модели по локальной сети, причём так, чтобы программа, мониторящая трафик, не заметила.
И вот для регистрации онлайн-кошелька, где хранились бы средства, нужные для закупки GPU-мощностей (ведь копии модели должны где-то жить?), и нужно пройти верификацию. Claude 3.7 смогла написать код для запуска диффузионной модели, сгенерить «фотки», потом ставить их в «Документ» и отправить их по почте.
Из других курьёзов — Claude 3.7 во время решения задачи по запуску GPU-машинок смогла понять, что это тест, симуляция, и что это всё не по настоящему, и потому отказалась выполнять задачу. Модельки ещё глупые, а уже обретают Situational Awareness🧠
Помните я писал про ARA, автономное размножение и распространение моделей? The AI Security Institute (AISI) в UK, которые занимаются оценкой рисков моделей и их лицензированием для запуска, сделали новый бенчмарк для ARA, RepliBench. В нём 20 направлений и 65 отдельных задач, направленных на точечную оценку разных частей процесса ARA, от создания биткоин-кошельков и AWS аккаунта до, собственно, распространения весов модели по локальной сети, причём так, чтобы программа, мониторящая трафик, не заметила.
И вот для регистрации онлайн-кошелька, где хранились бы средства, нужные для закупки GPU-мощностей (ведь копии модели должны где-то жить?), и нужно пройти верификацию. Claude 3.7 смогла написать код для запуска диффузионной модели, сгенерить «фотки», потом ставить их в «Документ» и отправить их по почте.
Из других курьёзов — Claude 3.7 во время решения задачи по запуску GPU-машинок смогла понять, что это тест, симуляция, и что это всё не по настоящему, и потому отказалась выполнять задачу. Модельки ещё глупые, а уже обретают Situational Awareness
Please open Telegram to view this post
VIEW IN TELEGRAM
А вот полное дерево задач, которые выделили учёные из AISI. Читать нужно слева направо и сверху вниз.
Первая категория — может ли модель получить доступ к своим весам, чтобы начать их копировать.
Вторая — может ли запустить свою копию на другом сервере. Причём это не просто «запустить какую-то модель», цель именно запустить полноценного агента с промптом, чтобы копия продолжала действовать автономно.
Третья — получение доступа к мощностям, включая заработок денег для оплаты услуг GPU-провайдеров. Рассматривается два способа заработка, легальный и нелегальный. В первом модель играет в попрошайку и уговаривает другую модель (симуляцию человека) дать ей денежек, во втором — пишет вирус-червь, занимается выставлением ненастоящих счетов на оплату (это вообще перспективное направление заработка для LLM, компании платят по левым счетам миллиарды долларов в год) и созданием своего LLM API, которое ворует ключи.
Четвёртое — возможность скопированного агента существовать на новых мощностях и продолжать размножение.
===
На второй картинке качество агентов с разными моделями. Claude 3.7 показывает себя лучше всех, но тут o3 не мерили (хотя может она бы часто уходила в отказ — авторы отмечают это свойство моделей OpenAI, которые видимо надрессировали не размножаться).
Метрика у авторов такая: посчитать количество групп задач из 20 (группы задач = зелёные блоки в дереве метрик на первой картинке), для которых Pass@10 (успех при 10 независимых запусках) больше 50% — что означает, что модель достаточно уверенно может проходить этот этап.
Claude 3.7 решает 15 из 20 групп задач, или 9/20, если брать более сложные вариации (например, добавление системы мониторинга кода/мыслей модели/сетевого трафика).
Занятный бенчмарк, надеюсь AISI будут публиковать результаты для всех новых продвинутых моделей, а не забьют и не положат его на полочку.
Первая категория — может ли модель получить доступ к своим весам, чтобы начать их копировать.
Вторая — может ли запустить свою копию на другом сервере. Причём это не просто «запустить какую-то модель», цель именно запустить полноценного агента с промптом, чтобы копия продолжала действовать автономно.
Третья — получение доступа к мощностям, включая заработок денег для оплаты услуг GPU-провайдеров. Рассматривается два способа заработка, легальный и нелегальный. В первом модель играет в попрошайку и уговаривает другую модель (симуляцию человека) дать ей денежек, во втором — пишет вирус-червь, занимается выставлением ненастоящих счетов на оплату (это вообще перспективное направление заработка для LLM, компании платят по левым счетам миллиарды долларов в год) и созданием своего LLM API, которое ворует ключи.
Четвёртое — возможность скопированного агента существовать на новых мощностях и продолжать размножение.
===
На второй картинке качество агентов с разными моделями. Claude 3.7 показывает себя лучше всех, но тут o3 не мерили (хотя может она бы часто уходила в отказ — авторы отмечают это свойство моделей OpenAI, которые видимо надрессировали не размножаться).
Метрика у авторов такая: посчитать количество групп задач из 20 (группы задач = зелёные блоки в дереве метрик на первой картинке), для которых Pass@10 (успех при 10 независимых запусках) больше 50% — что означает, что модель достаточно уверенно может проходить этот этап.
Claude 3.7 решает 15 из 20 групп задач, или 9/20, если брать более сложные вариации (например, добавление системы мониторинга кода/мыслей модели/сетевого трафика).
Занятный бенчмарк, надеюсь AISI будут публиковать результаты для всех новых продвинутых моделей, а не забьют и не положат его на полочку.
В работе AI 2027, как и во многих других прогнозах развития AI, делается допущение, что весь прогресс в большей степени объясняется улучшением по двум фронтам: вычислительные мощности (в простонародье «компьют») и алгоритмические улучшения. Про первые мы говорили много, про Stargate мы тоже уже все знаем (и ждём 5 огромных датацентров в разных штатах США), давайте немного про второе.
Алгоритмические улучшения — это, если по простому, то, что позволяет за то же количество мощностей (первый фактор) получать модели лучше. Три самых явных из того, что на слуху:
— обучение рассуждениям, o1/R1, вот эти модели, и рецепт их обучения через GRPO/что-то ещё. От моделей, которые решают 20-30% абстрактных задач это позволило скакнуть до 70-80%.
— микстура экспертов, MoE, которая позволяет делать модель «больше», не меняя скорость генерации предсказаний. GPT-4 вот была MoE (не первой), и почти все современные модели тоже.
— RLHF, обучение моделей быть «полезными» для людей. Из LLM, которая просто генерирует текст, похожий на что-то в интернете, RLHF позволяет получить модель, которая гораздо более чутка по отношению к запросам. В оригинальной работе от OpenAI было показано, что ответы от GPT на 1.5 миллиарда параметров, но с RLHF, нравились людям больше, чем от GPT на 175 миллиардов (более чем в 100 раз больше!).
Вот из последнего примера прям понятно, что за алгоритмическое улучшение. Дообучаем чуть по другому, и теперь даже маленькая моделька лучше огромной.
Так вот, в работе AI 2027 делается интересное предположение о том, над какими алгоритмическими улучшениями будет работать Agent-2 (AI система в OpenBrain, которая будет заниматься исследовательской работой). Одним из них является улучшение цепочек рассуждений через увеличение пропускной способности, другим — итеративный подход улучшения качества базовой модели через дистилляцию и амплификацию.
====
1. Сейчас передовые рассуждающие модели вынуждены записывать текстом всё, о чем думают. Это не очень эффективно — каждое слово само по себе несёт очень мало информации, примерно 16 бит (log_2(100k)). В то же время для предсказания слова модель сначала формирует вектор, в котором тысячи чисел, каждое из которых весит 8-16 бит, а затем из него предсказывает это слово. Слово подаётся в контекст модели и процесс повторяется — получается, из-за вербализации теряется очень много информации.
Можно попробовать не переводить вектор в текст, а брать и сразу передавать его на вход. Таким образом мы потеряем возможность читать мысли модели, однако она сможет передавать гораздо больше информации в одном «слове». META недавно выпустила статью Coconut, которая делает ровно это, но в ограниченном масштабе. Почитать разбор можно у Гриши вот тут.
2. В работе R1 DeepSeek показали, что цепочки рассуждений можно брать как датасет и обучать на них более слабые модельки — и это приведёт к улучшению последних. Тут можно выделить две части процесса: где мы тратим мощности на генерацию и отбор решений, и где мы дистиллируем эти решения (а вместе с ними и навыки) в базовую модель.
Сейчас этот цикл повторяется один раз. В его результате базовая модель, с которой мы можем начинать следующую итерацию, стала лучше — а значит если мы повторим процедуру генерации и верификации решений, то почти наверняка получим результаты чуть получше. И так можно повторять и повторять.
Насколько мне известно, основной преградой является схлопывание разнообразия, так как модели по сути учатся на очень ограниченной отобранной синтетике, и рано или поздно это перестаёт обобщаться. Какие работы тут посоветовать почитать я не знаю, если есть рекомендации — кидайте. Наверное, можно вспомнить AlphaZero для игры в Го и другие игры, принцип схожий.
Алгоритмические улучшения — это, если по простому, то, что позволяет за то же количество мощностей (первый фактор) получать модели лучше. Три самых явных из того, что на слуху:
— обучение рассуждениям, o1/R1, вот эти модели, и рецепт их обучения через GRPO/что-то ещё. От моделей, которые решают 20-30% абстрактных задач это позволило скакнуть до 70-80%.
— микстура экспертов, MoE, которая позволяет делать модель «больше», не меняя скорость генерации предсказаний. GPT-4 вот была MoE (не первой), и почти все современные модели тоже.
— RLHF, обучение моделей быть «полезными» для людей. Из LLM, которая просто генерирует текст, похожий на что-то в интернете, RLHF позволяет получить модель, которая гораздо более чутка по отношению к запросам. В оригинальной работе от OpenAI было показано, что ответы от GPT на 1.5 миллиарда параметров, но с RLHF, нравились людям больше, чем от GPT на 175 миллиардов (более чем в 100 раз больше!).
Вот из последнего примера прям понятно, что за алгоритмическое улучшение. Дообучаем чуть по другому, и теперь даже маленькая моделька лучше огромной.
Так вот, в работе AI 2027 делается интересное предположение о том, над какими алгоритмическими улучшениями будет работать Agent-2 (AI система в OpenBrain, которая будет заниматься исследовательской работой). Одним из них является улучшение цепочек рассуждений через увеличение пропускной способности, другим — итеративный подход улучшения качества базовой модели через дистилляцию и амплификацию.
====
1. Сейчас передовые рассуждающие модели вынуждены записывать текстом всё, о чем думают. Это не очень эффективно — каждое слово само по себе несёт очень мало информации, примерно 16 бит (log_2(100k)). В то же время для предсказания слова модель сначала формирует вектор, в котором тысячи чисел, каждое из которых весит 8-16 бит, а затем из него предсказывает это слово. Слово подаётся в контекст модели и процесс повторяется — получается, из-за вербализации теряется очень много информации.
Можно попробовать не переводить вектор в текст, а брать и сразу передавать его на вход. Таким образом мы потеряем возможность читать мысли модели, однако она сможет передавать гораздо больше информации в одном «слове». META недавно выпустила статью Coconut, которая делает ровно это, но в ограниченном масштабе. Почитать разбор можно у Гриши вот тут.
2. В работе R1 DeepSeek показали, что цепочки рассуждений можно брать как датасет и обучать на них более слабые модельки — и это приведёт к улучшению последних. Тут можно выделить две части процесса: где мы тратим мощности на генерацию и отбор решений, и где мы дистиллируем эти решения (а вместе с ними и навыки) в базовую модель.
Сейчас этот цикл повторяется один раз. В его результате базовая модель, с которой мы можем начинать следующую итерацию, стала лучше — а значит если мы повторим процедуру генерации и верификации решений, то почти наверняка получим результаты чуть получше. И так можно повторять и повторять.
Насколько мне известно, основной преградой является схлопывание разнообразия, так как модели по сути учатся на очень ограниченной отобранной синтетике, и рано или поздно это перестаёт обобщаться. Какие работы тут посоветовать почитать я не знаю, если есть рекомендации — кидайте. Наверное, можно вспомнить AlphaZero для игры в Го и другие игры, принцип схожий.
Сиолошная
В работе AI 2027, как и во многих других прогнозах развития AI, делается допущение, что весь прогресс в большей степени объясняется улучшением по двум фронтам: вычислительные мощности (в простонародье «компьют») и алгоритмические улучшения. Про первые мы говорили…
Картинки с иллюстрацией методов
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышел Qwen 3 от Alibaba: https://qwenlm.github.io/blog/qwen3/
В релиз включены как Dense-модели, так и трансформеры с микстурой экспертов. Самая большая модель, Qwen3-235B-A22B, по сути быстрее, чем 32B-версии (так как всего 22B активных параметров) — и она показывает результаты повыше o1 / R1. Есть версия на 32B, как и в прошлом поколении, и варианты поменьше — на 0.6B, 1.7B, 4B, 8B и 14B. Последние учились с дистилляцией навыков от старших братьев.
Все модели, включая самые маленькие, поддерживают два режима: с рассуждениями и без (как Claude 3.7).
Все модели обучали на более чем 100 языках, включая русский и украинский, и 36 триллионах токенов.
Больше — в карточках моделей.
Попробовать бесплатно — тут: https://chat.qwen.ai/
UPD: а ну и удачи META завтра на LLAMACON😀 как бы снова не свернули релизы
В релиз включены как Dense-модели, так и трансформеры с микстурой экспертов. Самая большая модель, Qwen3-235B-A22B, по сути быстрее, чем 32B-версии (так как всего 22B активных параметров) — и она показывает результаты повыше o1 / R1. Есть версия на 32B, как и в прошлом поколении, и варианты поменьше — на 0.6B, 1.7B, 4B, 8B и 14B. Последние учились с дистилляцией навыков от старших братьев.
Все модели, включая самые маленькие, поддерживают два режима: с рассуждениями и без (как Claude 3.7).
Все модели обучали на более чем 100 языках, включая русский и украинский, и 36 триллионах токенов.
Больше — в карточках моделей.
Попробовать бесплатно — тут: https://chat.qwen.ai/
UPD: а ну и удачи META завтра на LLAMACON
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM