Авва
Недавно помогал ребенку подготовиться к контрольной по программированию (школьному предмету; они учат C#). Главной темой были связные списки и работа с ними, что в данном случае было работой с классами типа Node<T>, с методами Get/SetValue(), Get/SetNext().…
Моя мечта : чтоб у каждого учащегося и по каждому предмету была такая поддержка (не обязательно от родителей). Учителей на всех не хватит, а вот AI-систем — вполне.
Такая глубокая персональная проработка существенно влияет на уровень учащихся — вот тут можно чуть больше почитать про «проблему двух сигм».
Такая глубокая персональная проработка существенно влияет на уровень учащихся — вот тут можно чуть больше почитать про «проблему двух сигм».
Telegram
Сиолошная
Sal начинает свой рассказ с цитирования исследования 1984го года под названием "The 2 Sigma Problem" (вики, оригинальная статья).
В этой работе анализируется эффективность преподавания для группы лиц против персонального преподавания 1-на-1, и показывается…
В этой работе анализируется эффективность преподавания для группы лиц против персонального преподавания 1-на-1, и показывается…
5👍142🔥43❤🔥23🤡8 7💩4👎3🤯1
Forwarded from The Edinorog 🦄
Собственно, все прутся от OpenAI из-за ее AI-продуктов. Тут сложно отрицать. А еще есть венчурный фонд OpenAI Startup Fund, который запустили в 2021 году. У него под управлением почти $300 млн. Правда, денег OpenAI в этом фонде нет — там от сторонних инвесторов.
И Techcrunch решил подсчитать, в кого наинвестировал этот фонд. Нашли 17 стартапов (правда, один уже помер). Получился вот такой список. В кого-то OpenAI Startup Fund инвестирует только на seed-стадии, в каких-то проектах участвует в нескольких раундах.
Я решил вам запостить этот список с краткими описаниями, чтобы вы посмотрели, от каких стартапов прется OpenAI Startup Fund.
— 1X Technologies. Норвежский стартап, который разрабатывает человекоподобных роботов.
— Ambience Healthcare. Делают AI, который помогает врачам вести документацию по пациентам.
— Anysphere. Делают AI-сервис Cursor, который помогает писать код.
— Chai Discovery. Разрабатывают AI-модель для поиска лекарств.
— Class Companion. Развивают AI в EdTech. Сервис помогает учителям давать персонализированную обратную связь ученикам.
— Descript. Платформа для совместного редактирования видео и аудио.
— Figure AI. Тоже делают человекоподобных роботов. У меня недавно был видос с их роботами.
— Ghost Autonomy. Разработчик софта для беспилотных автомобилей. Правда, они закрылись.
— Harvey AI. Делают AI-сервис (copilot) для юристов.
— Heeyo. Образовательный AI-чатбот для детей.
— Kick. Разрабатывает AI-агентов, которые могут самостоятельно управлять бухгалтерским учетом.
— Mem. AI-сервис для заметок, который помогает организовать их и быстро найти в нужный момент.
— Milo. AI-помощник для родителей, который помогает отслеживать активности и дела, связанные с их детьми.
— Physical Intelligence. Разрабатывают софт для роботов.
— Speak. Делает приложение для изучения иностранных языков.
— Thrive AI. Разрабатывают AI-помощника, который помогает следить и улучшать психическое и физическое здоровье.
— Unify. Делают AI-сервис, который помогает с продажами
@TheEdinorogBlog — тот самый канал про стартапы🦄
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍127💩28🤡8🤔7❤🔥5🔥4👎3 3😈1
Новость 1: GPT-4.5 запустили для Plus-подписчиков, однако доступ появится не моментально, а в течение 1-3 дней. Это нужно для того, чтобы предоставить пользователям какую-никакую адекватную скорость генерации — если ломанутся все за раз, то количество токенов в секунду упадёт, и впечатления испортятся.
У модели есть лимит использования (не смог найти, сколько конкретно сообщений в сутки или неделю), который ещё будет уточняться по ходу раскатки. Идите проверьте, получили ли доступ👀 Многие подписчики написали, что уже есть!
Новость 2: Руководство OpenAI сообщило некоторым инвесторам, что планирует продавать агентов начального уровня по цене 2000 долларов в месяц «работникам умственного труда с высоким доходом»; агентов среднего уровня для разработки программного обеспечения по цене около 10 000 долларов в месяц; и агентов высшего уровня, действующих в качестве исследовательских агентов уровня докторов наук, по 20 000 долларов в месяц — сообщил источник.
За такие деньги нужно будет показывать реальный экономический эффект; интересно, какие компании окажутся в числе первых покупателей второго и третьего типа агентов.
В долгосрочной перспективе OpenAI ожидает, что 20–25 % выручки компании будет поступать от продуктов на основе агентов.
UPD: ранее Sama писал, что OpenAI планируют предоставлять GPT-5 (GPT-4.5 + рассуждения + Deep Research) всем, в том числе бесплатным пользователям, почти без ограничений. С учётом того, что пользовательская база растёт, и концу года может достигнуть миллиарда пользователей, становится интересно, как у компании с ростом мощностей. Потому что пока еле-еле хватает на чуть более простую модель для платных пользователей☠️
У модели есть лимит использования (не смог найти, сколько конкретно сообщений в сутки или неделю), который ещё будет уточняться по ходу раскатки. Идите проверьте, получили ли доступ
Новость 2: Руководство OpenAI сообщило некоторым инвесторам, что планирует продавать агентов начального уровня по цене 2000 долларов в месяц «работникам умственного труда с высоким доходом»; агентов среднего уровня для разработки программного обеспечения по цене около 10 000 долларов в месяц; и агентов высшего уровня, действующих в качестве исследовательских агентов уровня докторов наук, по 20 000 долларов в месяц — сообщил источник.
За такие деньги нужно будет показывать реальный экономический эффект; интересно, какие компании окажутся в числе первых покупателей второго и третьего типа агентов.
В долгосрочной перспективе OpenAI ожидает, что 20–25 % выручки компании будет поступать от продуктов на основе агентов.
UPD: ранее Sama писал, что OpenAI планируют предоставлять GPT-5 (GPT-4.5 + рассуждения + Deep Research) всем, в том числе бесплатным пользователям, почти без ограничений. С учётом того, что пользовательская база растёт, и концу года может достигнуть миллиарда пользователей, становится интересно, как у компании с ростом мощностей. Потому что пока еле-еле хватает на чуть более простую модель для платных пользователей
Please open Telegram to view this post
VIEW IN TELEGRAM
👍164🤡79 19❤🔥15🤯10👨💻10👎5🔥5💩4🎉1🌚1
Сиолошная
Это нужно для того, чтобы предоставить пользователям какую-никакую адекватную скорость генерации — если ломанутся все за раз, то количество токенов в секунду упадёт, и впечатления испортятся.
Наверное, никого не удивит, но OpenAI в очередной раз сказали неправду. Наврали. Солгали.
Раскатка GPT-4.5 Plus пользователям уже завершена🤷♂️ вот так вот вместо «нескольких дней»
Пользуйтесь моделью с умом, скорее всего у неё лимит вроде 50 сообщений в неделю.
А ниже будет отзыв одного из подписчиков, который работает над научной статьёй для журнала: он прислал мне четыре файла и два коротких промпта, а я ему — ответы модели. Он их сравнил с результатами работы Claude Sonnet 3.7, с которым на прошлой неделе проработал эти же запросы:
«Хорошо😇
Вот прям реально хорошо, модель отлично поняла суть работы (хотя контекста не супер много дано) и корректно расставила фокусы
Структура текста очень достойная, идеально соответствует академическому стилю письма в секции "введение"
Ну это буквально zero-shot для написания введения
Я с клодом прошел через несколько итераций редактирования, а вот эту версию сразу бы взял как первый качественный драфт»
И
«Вводный абзац сильно лучше чем у клода, мотивация хорошо выравнена с мотивацией статьи + изложено очень понятно
В последнем абзаце также качественное заключение, у клода с этим было похуже
Второй абзац - отличный
Третий и четвертый абзац - содержат отличные кусочки, но примерно половина текста не совсем соответствует сути статьи (это вследствие недостаточного контекста о работе). Но типа пишется драфт, задача не написать сразу статью, поэтому ответ очень полезный
Результатами я здесь также очень доволен, очень достойно👍 »
(язык работы был английский)
UPD: если вы хотите прогнать что-то своё, но у вас нет подписки или жалко тратить сообщения — пишите мне в комментарии. Только задачи давайте похожие, нормальные, а не «спой песенку, считая буквы R».
Раскатка GPT-4.5 Plus пользователям уже завершена
Пользуйтесь моделью с умом, скорее всего у неё лимит вроде 50 сообщений в неделю.
А ниже будет отзыв одного из подписчиков, который работает над научной статьёй для журнала: он прислал мне четыре файла и два коротких промпта, а я ему — ответы модели. Он их сравнил с результатами работы Claude Sonnet 3.7, с которым на прошлой неделе проработал эти же запросы:
«Хорошо
Вот прям реально хорошо, модель отлично поняла суть работы (хотя контекста не супер много дано) и корректно расставила фокусы
Структура текста очень достойная, идеально соответствует академическому стилю письма в секции "введение"
Ну это буквально zero-shot для написания введения
Я с клодом прошел через несколько итераций редактирования, а вот эту версию сразу бы взял как первый качественный драфт»
И
«Вводный абзац сильно лучше чем у клода, мотивация хорошо выравнена с мотивацией статьи + изложено очень понятно
В последнем абзаце также качественное заключение, у клода с этим было похуже
Второй абзац - отличный
Третий и четвертый абзац - содержат отличные кусочки, но примерно половина текста не совсем соответствует сути статьи (это вследствие недостаточного контекста о работе). Но типа пишется драфт, задача не написать сразу статью, поэтому ответ очень полезный
Результатами я здесь также очень доволен, очень достойно
(язык работы был английский)
UPD: если вы хотите прогнать что-то своё, но у вас нет подписки или жалко тратить сообщения — пишите мне в комментарии. Только задачи давайте похожие, нормальные, а не «спой песенку, считая буквы R».
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍153🤡111🔥26 21💩15❤🔥7🌚5👎3🤔3
Forwarded from Denis Sexy IT 🤖
Новый день, новый запрос на регуляцию АИ-индустрии от Anthropic, в этот отправленный напрямую в Белый дом США:
Anthropic ожидает, что сверхмощные системы искусственного интеллекта уровня «страна гениев в дата-центре» (так и написано) появятся уже к концу 2026 (!) — 2027 годов. В письме в Белый дом компания призывает срочно принять меры, чтобы США сохранили лидерство и защитили критически важные технологии от конкурентов, прежде всего от Китая
Интересные факты из обращения Anthropic:
• Уже сегодня модель Claude 3.7 Sonnet способна на уровне экспертов поддерживать сложнейшие задачи, включая написание софта, научные исследования и даже аспекты разработки биологического оружия, что подтверждено совместными тестами с институтами безопасности США и Великобритании
• Anthropic предупреждает, что новейшие китайские модели, такие как DeepSeek R1, свободно распространяются онлайн и отвечают даже на явно опасные вопросы, что подчёркивает необходимость ужесточения мер безопасности
• Компания предлагает установить особый экспортный контроль на чипы (например, новейший H200), которые могут помочь Китаю обойти действующие ограничения и догнать американские достижения в области ИИ
• Anthropic подчёркивает, что к 2027 году одна только тренировка одной ИИ-модели будет требовать до 5 гигаватт электроэнергии, что может вынудить компании переносить разработки за границу, если США не увеличат энергомощности
• Компания рекомендует Белому дому внедрять ИИ буквально во все сферы госуправления, где происходит обработка данных (тексты, изображения, аудио и видео), что может существенно повысить эффективность госаппарата
Еще Anthropic запустила собственный экономический индекс (Anthropic Economic Index), чтобы отслеживать, как искусственный интеллект меняет экономику и рынок труда США
Оригинал письма в Белый дом.
tldr, АИ-ставки растут
Anthropic ожидает, что сверхмощные системы искусственного интеллекта уровня «страна гениев в дата-центре» (так и написано) появятся уже к концу 2026 (!) — 2027 годов. В письме в Белый дом компания призывает срочно принять меры, чтобы США сохранили лидерство и защитили критически важные технологии от конкурентов, прежде всего от Китая
Интересные факты из обращения Anthropic:
• Уже сегодня модель Claude 3.7 Sonnet способна на уровне экспертов поддерживать сложнейшие задачи, включая написание софта, научные исследования и даже аспекты разработки биологического оружия, что подтверждено совместными тестами с институтами безопасности США и Великобритании
• Anthropic предупреждает, что новейшие китайские модели, такие как DeepSeek R1, свободно распространяются онлайн и отвечают даже на явно опасные вопросы, что подчёркивает необходимость ужесточения мер безопасности
• Компания предлагает установить особый экспортный контроль на чипы (например, новейший H200), которые могут помочь Китаю обойти действующие ограничения и догнать американские достижения в области ИИ
• Anthropic подчёркивает, что к 2027 году одна только тренировка одной ИИ-модели будет требовать до 5 гигаватт электроэнергии, что может вынудить компании переносить разработки за границу, если США не увеличат энергомощности
• Компания рекомендует Белому дому внедрять ИИ буквально во все сферы госуправления, где происходит обработка данных (тексты, изображения, аудио и видео), что может существенно повысить эффективность госаппарата
Еще Anthropic запустила собственный экономический индекс (Anthropic Economic Index), чтобы отслеживать, как искусственный интеллект меняет экономику и рынок труда США
Оригинал письма в Белый дом.
tldr, АИ-ставки растут
Anthropic
Anthropic’s Recommendations to OSTP for the U.S. AI Action Plan
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
🌚134🔥84🤡82👍44 15👎9❤🔥8💩8🤣2🤔1
Forwarded from Техасский Вестник
This media is not supported in your browser
VIEW IN TELEGRAM
Проклятье Starship V2.
Прототип S34 снова был потерян за 20 секунд до выхода на орбиту. Есть фундаментальная проблема с конструкцией этого блока кораблей. Пока не будем спекулировать о точных причинах, они могут повторяться (речь про гармонические колебания).
Главному инженеру пора начать наводить порядок дома.
Прототип S34 снова был потерян за 20 секунд до выхода на орбиту. Есть фундаментальная проблема с конструкцией этого блока кораблей. Пока не будем спекулировать о точных причинах, они могут повторяться (речь про гармонические колебания).
Главному инженеру пора начать наводить порядок дома.
💔148🤔51👍28🤣20💩11❤🔥8🎉6 5🌚3👎2🤯1
R1 is not on par with o1, and the difference is qualitative, not quantitative
Почти сразу после выхода DeepSeek R1 я писал, что не думаю, что модель на уровне с рассуждающей моделью OpenAI o1. При этом я считал и считаю, что а) в некоторых доменах качество действительно может быть практически одинаковым б) в конкретных задачах модель может быть не хуже или даже лучше o1.
Ребята из Толоки пришли к такому же выводу, основываясь на агрегации результатов замеров на разных бенчмарках, в том числе своих, выпущенных совсем недавно, и с упором на новизну (например, U-MATH — набор математических задач, которые до этого не были нигде опубликованы). Дальше идёт перевод цитат из текста:
— Распространенно мнение, основанное на замерах самих же DeepSeek, что модель более или менее равна o1. R1 немного лучше разбирается в математике и программировании и имеет более свободный и творческий стиль письма, в то время как o1 немного лучше разбирается в фактах, отвечает на вопросы и следует инструкциям, а его стиль письма фокусируется на тщательной структуре, грамматике и логике.
— Тесты на задачах из длинного хвоста распределения показывают разницу. Как только мы сходим с проторенного пути [популярных бенчмарков], альтернативные тесты рисуют иную картину. Наша исследовательская группа исследовала оценки в нишевых поддоменах и необычных доменах и отметила количественные и качественные пробелы в производительности модели.
— U-MATH был разработан именно для того, чтобы представить новые необычные задачи по математике из университетов. Согласно нашей оценке U-MATH, R1 ничем не лучше o1 в — фактически, он на одном уровне с o1-mini.
— Превосходная обобщаемость и надежность выделяют OpenAI o1 в собственную лигу. Бенчмарки по задачам из длинного хвоста распределения нетрадиционны, они проверяют новизну и надежность. Итак, вот наше мнение: o1 имеет большую обобщенность и надежность, чем R1. [конкретные цифры и задачи см. по первой ссылке]
— Недавнее проведённый тест на галлюцинации Vectara показывает, что уровень галлюцинаций у R1 составляет 14,3%, тогда как у o1 и o1-mini он составляет всего 2,4% и 1,4% соответственно.
— также авторы сравнивали результаты на AIME '25 (про который я тоже писал), где видно, что на «новых свежих» задачах o1 почти не просела по качеству, а вот R1 упала.
===
Вдогонку к этому очень схожий по интенту пост от METR, занимающихся оценкой агентских навыков моделей. Они проверли два замера, вот выжимка:
— «R1 работает намного хуже, чем o1-preview или Claude 3.5 Sonnet. Она на одном уровне с GPT-4o»
— «Deepseek-R1 показал себя немного лучше, чем o1-preview, и находится примерно на уровне передовых моделей сентября 2024 года»
И это всё ещё не отходя от задач на английском языке! На других, уверен, разница ещё заметнее.
===
Ещё я пару раз просил в разных чатах скинуть бенчмарки, на которых R1 прям существенно лучше o1, и таких нашлось всего 2, ну может 3 с натяжкой (один из них на реддите от любителя, на своих задачах). А замеров, где o1 >> R1 — горка с присыпкой.
===
Означает ли, что это плохая модель? Нет, она очень способная, и с учётом её цены и бесплатного пользования на фоне GPT-4o это очень хорошая модель. Обратите внимание, что речь про «модель», а не «сервис или услугу» — DeepSeek до сих пор доступен с перебоями, то и дело не отвечает на запросы, что затрудняет его использование.
И если вы готовы платить $20 за подписку, или тем более вложиться в o1 pro — история прохладная.
По слухам, DeepSeek готовят версию R2 к маю. Посмотрим, что будет там. Но сразу говорю, кажется, очевидную вещь — если по каким-то 3-4 бенчмаркам модель будет на уровне с o3 от декабря '24, то фактически это почти наверняка означает то же самое: в среднем модель хуже.
Почти сразу после выхода DeepSeek R1 я писал, что не думаю, что модель на уровне с рассуждающей моделью OpenAI o1. При этом я считал и считаю, что а) в некоторых доменах качество действительно может быть практически одинаковым б) в конкретных задачах модель может быть не хуже или даже лучше o1.
Ребята из Толоки пришли к такому же выводу, основываясь на агрегации результатов замеров на разных бенчмарках, в том числе своих, выпущенных совсем недавно, и с упором на новизну (например, U-MATH — набор математических задач, которые до этого не были нигде опубликованы). Дальше идёт перевод цитат из текста:
— Распространенно мнение, основанное на замерах самих же DeepSeek, что модель более или менее равна o1. R1 немного лучше разбирается в математике и программировании и имеет более свободный и творческий стиль письма, в то время как o1 немного лучше разбирается в фактах, отвечает на вопросы и следует инструкциям, а его стиль письма фокусируется на тщательной структуре, грамматике и логике.
— Тесты на задачах из длинного хвоста распределения показывают разницу. Как только мы сходим с проторенного пути [популярных бенчмарков], альтернативные тесты рисуют иную картину. Наша исследовательская группа исследовала оценки в нишевых поддоменах и необычных доменах и отметила количественные и качественные пробелы в производительности модели.
— U-MATH был разработан именно для того, чтобы представить новые необычные задачи по математике из университетов. Согласно нашей оценке U-MATH, R1 ничем не лучше o1 в — фактически, он на одном уровне с o1-mini.
— Превосходная обобщаемость и надежность выделяют OpenAI o1 в собственную лигу. Бенчмарки по задачам из длинного хвоста распределения нетрадиционны, они проверяют новизну и надежность. Итак, вот наше мнение: o1 имеет большую обобщенность и надежность, чем R1. [конкретные цифры и задачи см. по первой ссылке]
— Недавнее проведённый тест на галлюцинации Vectara показывает, что уровень галлюцинаций у R1 составляет 14,3%, тогда как у o1 и o1-mini он составляет всего 2,4% и 1,4% соответственно.
— также авторы сравнивали результаты на AIME '25 (про который я тоже писал), где видно, что на «новых свежих» задачах o1 почти не просела по качеству, а вот R1 упала.
===
Вдогонку к этому очень схожий по интенту пост от METR, занимающихся оценкой агентских навыков моделей. Они проверли два замера, вот выжимка:
— «R1 работает намного хуже, чем o1-preview или Claude 3.5 Sonnet. Она на одном уровне с GPT-4o»
— «Deepseek-R1 показал себя немного лучше, чем o1-preview, и находится примерно на уровне передовых моделей сентября 2024 года»
И это всё ещё не отходя от задач на английском языке! На других, уверен, разница ещё заметнее.
===
Ещё я пару раз просил в разных чатах скинуть бенчмарки, на которых R1 прям существенно лучше o1, и таких нашлось всего 2, ну может 3 с натяжкой (один из них на реддите от любителя, на своих задачах). А замеров, где o1 >> R1 — горка с присыпкой.
===
Означает ли, что это плохая модель? Нет, она очень способная, и с учётом её цены и бесплатного пользования на фоне GPT-4o это очень хорошая модель. Обратите внимание, что речь про «модель», а не «сервис или услугу» — DeepSeek до сих пор доступен с перебоями, то и дело не отвечает на запросы, что затрудняет его использование.
И если вы готовы платить $20 за подписку, или тем более вложиться в o1 pro — история прохладная.
По слухам, DeepSeek готовят версию R2 к маю. Посмотрим, что будет там. Но сразу говорю, кажется, очевидную вещь — если по каким-то 3-4 бенчмаркам модель будет на уровне с o3 от декабря '24, то фактически это почти наверняка означает то же самое: в среднем модель хуже.
🤡263👍155 44🤔15🔥14💩13👎10❤🔥8🤣2😈1
Cognitive Behaviors that Enable Self-Improving Reasoners
Когда вышла o1 от OpenAI, то хоть технических деталей и было мало, но сотрудники, включая Noam Brown, говорили, что там всё просто. Когда вышла R1 от DeepSeek, то это подтвердилось: просто (нифига не просто) берёшь модель, набор пар «задача — ответ», и запускаешь процедуру генерации сотен-тысяч цепочек рассуждений, награждая модель за те из них, которые приводят к правильным ответам.
Работает это за счёт того, что модель нет-нет, да иногда и выдаст что-то правильное. Те рассуждения, которые привели к этому «правильно» закрепляются, усиляются (из-за метод и называется Reinforcement Learning). По сути вся тренировка сводится к тому, чтобы найти те наборы фраз, которые у модели ассоциируются с определёнными паттернами, и заставляют её им следовать.
В воздухе витал вопрос — идея достаточно очевидная, почему до этого её никто не пробовал? Или почему ни у кого не получалось? (спойлер: люди много раз пробовали такое же или нечто очень схожее)
Сегодняшняя статья пытается копнуть в эту тему и сравнить обучение двух разных базовых моделей одинакового размера, Qwen-2.5-3B и LLAMA-3B, рассуждениям для решения математической игры Countdown. Эта игра, в которой участнику даются 3 или 4 цифры, а также целевой результат, а он должен расставить скобки и знаки +, −, ×, ÷. Например, если вам говорят «25, 30, 3, 4» и «32», то ответ может выглядеть так: (30 − 25 + 3) × 4. Задача хороша тем, что в ней можно применять паттерны рассуждений (прямо как в сложных серьёзных задачах олимпиадного уровня) — и их авторы выделяют 4 штуки:
— (1) Возврат назад или пересмотр подходов при обнаружении ошибок (например, если модель пишет «Этот подход не сработает, потому что...»)
— (2) Перепроверка промежуточных и финальных результатов («Давайте проверим этот результат с помощью...»)
— (3) Постановка подцелей, когда сложная проблема разбивается на меньшие шаги («Чтобы решить это, нам сначала нужно...»)
— (4) Рассуждение от обратного, когда решение строится в обратном направлении от желаемого результата («Чтобы достичь цели 32, нам нужно число, делящееся на...»)
Значит, авторы берут две модели, запускают на них тренировку почти как у o1/R1, только с задачами по типу Countdown, и сохраняют промежуточные модели по ходу обучения. За 250 шагов Qwen доходит до 60% правильных ответов, а LLAMA до 30% — очень большая разница.
Когда вышла o1 от OpenAI, то хоть технических деталей и было мало, но сотрудники, включая Noam Brown, говорили, что там всё просто. Когда вышла R1 от DeepSeek, то это подтвердилось: просто (нифига не просто) берёшь модель, набор пар «задача — ответ», и запускаешь процедуру генерации сотен-тысяч цепочек рассуждений, награждая модель за те из них, которые приводят к правильным ответам.
Работает это за счёт того, что модель нет-нет, да иногда и выдаст что-то правильное. Те рассуждения, которые привели к этому «правильно» закрепляются, усиляются (из-за метод и называется Reinforcement Learning). По сути вся тренировка сводится к тому, чтобы найти те наборы фраз, которые у модели ассоциируются с определёнными паттернами, и заставляют её им следовать.
В воздухе витал вопрос — идея достаточно очевидная, почему до этого её никто не пробовал? Или почему ни у кого не получалось? (спойлер: люди много раз пробовали такое же или нечто очень схожее)
Сегодняшняя статья пытается копнуть в эту тему и сравнить обучение двух разных базовых моделей одинакового размера, Qwen-2.5-3B и LLAMA-3B, рассуждениям для решения математической игры Countdown. Эта игра, в которой участнику даются 3 или 4 цифры, а также целевой результат, а он должен расставить скобки и знаки +, −, ×, ÷. Например, если вам говорят «25, 30, 3, 4» и «32», то ответ может выглядеть так: (30 − 25 + 3) × 4. Задача хороша тем, что в ней можно применять паттерны рассуждений (прямо как в сложных серьёзных задачах олимпиадного уровня) — и их авторы выделяют 4 штуки:
— (1) Возврат назад или пересмотр подходов при обнаружении ошибок (например, если модель пишет «Этот подход не сработает, потому что...»)
— (2) Перепроверка промежуточных и финальных результатов («Давайте проверим этот результат с помощью...»)
— (3) Постановка подцелей, когда сложная проблема разбивается на меньшие шаги («Чтобы решить это, нам сначала нужно...»)
— (4) Рассуждение от обратного, когда решение строится в обратном направлении от желаемого результата («Чтобы достичь цели 32, нам нужно число, делящееся на...»)
Значит, авторы берут две модели, запускают на них тренировку почти как у o1/R1, только с задачами по типу Countdown, и сохраняют промежуточные модели по ходу обучения. За 250 шагов Qwen доходит до 60% правильных ответов, а LLAMA до 30% — очень большая разница.
2👍131❤🔥23🔥20👎4🤔3💩2🤡1
Затем авторы берут все промежуточные модели и генерируют решения ими. Все решения пропускаются через GPT-4o-mini, которой в промпте дали задачу классифицировать рассуждения по четырём указанным выше паттернам (и ещё примеров насыпали). Модель выдаёт предсказания для каждой цепочки рассуждений, и те агрегируются, чтобы считать, как часто то или иное поведение проявляется по ходу тренировки каждой из Small Language Models (крохи, по 3 миллиарда параметров).
И вот тут-то и обнаруживается разница — у Qwen при переходе от 20 к 30 шагам обучения что-то щёлкает, и эти паттерны начинают проявляться очень часто. Вернее, только 2 паттерна — верификация (перепроверка результатов) и пересмотр подходов при обнаружении ошибок (backtraking).
У LLAMA же по ходу всей тренировки почти по нулям, только маленький горбик в самом начале есть. А так как паттерны рассуждений не проявляются, то правильные ответы появляются реже -> обучение хуже. И сами паттерны не закрепляются.
Значит, в самих моделях с самого начала есть разница. Поэтому взяли их, сгенерировали решения, снова классифицировали — и у Qwen даже без всякого дообучения под игру уже в 62% цепочек рассуждений есть само-проверка (против 10% у LLAMA-3B). (правда эти цифры не бьются с первым графиком, где считали частоту встречания паттернов, но я не понял почему).
Ещё взяли LLAMA побольше, на 70B, и она чаще сама по себе применяет паттерны рассуждений, чем маленькая модель, но всё ещё реже, чем Qwen-3B. Это говорит о двух вещах:
1) Qwen почти наверняка этому отдельно учили
2) поскольку обучение с подкреплением может лишь усиливать поведение, проявляющееся в успешных траекториях, — делая присутствие этих паттернов предпосылкой для эффективного обучения — чем качественнее модель, тем лучше будет результат. (Тут вспоминаем, что GPT-4.5 сама по себе иногда обходит некоторые рассуждающие модели, и знает/читала кучу всего, и скорее всего тренировалась на синтетических цепочках рассуждений)
И вот тут-то и обнаруживается разница — у Qwen при переходе от 20 к 30 шагам обучения что-то щёлкает, и эти паттерны начинают проявляться очень часто. Вернее, только 2 паттерна — верификация (перепроверка результатов) и пересмотр подходов при обнаружении ошибок (backtraking).
У LLAMA же по ходу всей тренировки почти по нулям, только маленький горбик в самом начале есть. А так как паттерны рассуждений не проявляются, то правильные ответы появляются реже -> обучение хуже. И сами паттерны не закрепляются.
Значит, в самих моделях с самого начала есть разница. Поэтому взяли их, сгенерировали решения, снова классифицировали — и у Qwen даже без всякого дообучения под игру уже в 62% цепочек рассуждений есть само-проверка (против 10% у LLAMA-3B). (правда эти цифры не бьются с первым графиком, где считали частоту встречания паттернов, но я не понял почему).
Ещё взяли LLAMA побольше, на 70B, и она чаще сама по себе применяет паттерны рассуждений, чем маленькая модель, но всё ещё реже, чем Qwen-3B. Это говорит о двух вещах:
1) Qwen почти наверняка этому отдельно учили
2) поскольку обучение с подкреплением может лишь усиливать поведение, проявляющееся в успешных траекториях, — делая присутствие этих паттернов предпосылкой для эффективного обучения — чем качественнее модель, тем лучше будет результат. (Тут вспоминаем, что GPT-4.5 сама по себе иногда обходит некоторые рассуждающие модели, и знает/читала кучу всего, и скорее всего тренировалась на синтетических цепочках рассуждений)
6👍106❤🔥34🔥18👨💻6👎4🤡1
И ещё провели пару экспериментов с предварительным дообучением LLAMA 3B на данных, содержащих примеры всех 4 паттернов рассуждений, чтобы показать, что если уже из такого состояния начинать RL-тренировку игре в Countdown, то модель догонит по финальному качеству Qwen.
Первый эксперимент:
нагенерировали синтетические решения для Countdown через Claude Sonnet 3.6, при этом дали ей в промпт все 4 паттерна рассуждений и просили какие-то из них не использовать, или использовать только 1 или 2 конкретных, ну и все вместе. Качество вышло не очень — несмотря на то, что модель очень хорошо слушалась инструкций, и если её просили что-то включить в рассуждения, то она это делала органично, сам по себе Sonnet 3.6 выдал лишь 45% качества.
То есть больше половины цепочек рассуждений были с ошибками. И тренировка на них... принесла улучшения до уровня Qwen! То есть важнее именно показать, что такие паттерны рассуждений есть, и как их примерно применять, но не обязатльно, чтобы примеры были супер-качественные. (что не означает, что их не нужно фильтровать — замера с очисткой авторы не делали, но думаю, что качество могло бы подрасти)
Второй эксперимент:
взяли датасеты OpenWebMath и FineMath (задача + решение + ответ), выбрали из них 200 тысяч случайных примеров, прогнали через Qwen-2.5-32b и попросили определить, какие из паттернов рассуждений встречаются в решениях. Ожидаемо, все методы, кроме выделения подцелей, достаточно редки — в 1 документе из 50.
Получается, теперь все задачи разделены на 2 типа: те, у которых в решении есть паттерны рассуждений, и те, у которых их нет. Из этих наборов сделали два датасета одинакового размера для дообучения LLAMA, только ещё и решения переписали в виде рассказа от первого лица (это же цепочки рассуждений), но с обязательным сохранением паттернов — тут тоже помогла LLM.
Обучили 2 модели, затем запустили RL на игре в Countdown — и увидели разницу. Само по себе обучение на математике, даже без паттернов, уже повысило качество. Но ещё больше оно приросло именно от обучения на примерах, где так или иначе проявлялся как минимум один из вышеупомянутых способов рассуждения. Это отражено на картинке слева.
Очень жаль, что не сделали обратного эксперимента, где сначала обучали на Countdown, а затем замеряли качество на математических задачах.
===
А ответ на изначальный вопрос, кажется, такой: раньше модели были глупее, и они не достигали какой-то критической массы, после которого запуск процедуры RL-тренировки приводил к клёвым результатам. Сейчас такие данные добавляют на одном из последних этапов подготовки модели, поэтому оно уже зашито в модель, и остаётся только начать чаще и к месту использовать.
Первый эксперимент:
нагенерировали синтетические решения для Countdown через Claude Sonnet 3.6, при этом дали ей в промпт все 4 паттерна рассуждений и просили какие-то из них не использовать, или использовать только 1 или 2 конкретных, ну и все вместе. Качество вышло не очень — несмотря на то, что модель очень хорошо слушалась инструкций, и если её просили что-то включить в рассуждения, то она это делала органично, сам по себе Sonnet 3.6 выдал лишь 45% качества.
То есть больше половины цепочек рассуждений были с ошибками. И тренировка на них... принесла улучшения до уровня Qwen! То есть важнее именно показать, что такие паттерны рассуждений есть, и как их примерно применять, но не обязатльно, чтобы примеры были супер-качественные. (что не означает, что их не нужно фильтровать — замера с очисткой авторы не делали, но думаю, что качество могло бы подрасти)
Второй эксперимент:
взяли датасеты OpenWebMath и FineMath (задача + решение + ответ), выбрали из них 200 тысяч случайных примеров, прогнали через Qwen-2.5-32b и попросили определить, какие из паттернов рассуждений встречаются в решениях. Ожидаемо, все методы, кроме выделения подцелей, достаточно редки — в 1 документе из 50.
Получается, теперь все задачи разделены на 2 типа: те, у которых в решении есть паттерны рассуждений, и те, у которых их нет. Из этих наборов сделали два датасета одинакового размера для дообучения LLAMA, только ещё и решения переписали в виде рассказа от первого лица (это же цепочки рассуждений), но с обязательным сохранением паттернов — тут тоже помогла LLM.
Обучили 2 модели, затем запустили RL на игре в Countdown — и увидели разницу. Само по себе обучение на математике, даже без паттернов, уже повысило качество. Но ещё больше оно приросло именно от обучения на примерах, где так или иначе проявлялся как минимум один из вышеупомянутых способов рассуждения. Это отражено на картинке слева.
Очень жаль, что не сделали обратного эксперимента, где сначала обучали на Countdown, а затем замеряли качество на математических задачах.
===
А ответ на изначальный вопрос, кажется, такой: раньше модели были глупее, и они не достигали какой-то критической массы, после которого запуск процедуры RL-тренировки приводил к клёвым результатам. Сейчас такие данные добавляют на одном из последних этапов подготовки модели, поэтому оно уже зашито в модель, и остаётся только начать чаще и к месту использовать.
14👍186🔥51❤🔥21👎5🤡4 4
OpenAI представили на стриме 3 новых инструмента для разработчиков (остальным не особо интересно):
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.
Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).
Вот и цены:
— Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас).
— Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
— Ну а цена на поиск зависит от настройки «длина контекста» (видимо, сколько ссылок из поисковой выдачи попадут в контекст), и для старшей модели цена $30-$50 за тысячу вызовов.
А в 2026м удалят API Assistants (потому что инструменты придут им на смену).
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.
Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).
Вот и цены:
— Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас).
— Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
— Ну а цена на поиск зависит от настройки «длина контекста» (видимо, сколько ссылок из поисковой выдачи попадут в контекст), и для старшей модели цена $30-$50 за тысячу вызовов.
А в 2026м удалят API Assistants (потому что инструменты придут им на смену).
1🔥97👍51❤🔥14 12👎8💩7🎉6🤡5🤣1
The AI Scientist Generates its First Peer-Reviewed Scientific Publication
Я писал про пару работ Sakana.AI, но не писал про одну из самых интересных — про AI Scientist. Это система, которая проходит полный путь от генерации гипотез до написания полноценной научной статьи по Машинному Обучению, с картинками, отчётом по экспериментам итд. Концепция хоть и многообещающая, но первая версия была сыровата в плане результатов.
Вообще вопрос сгенерированных статей тогда всполошил людей, для которых написание статей и их принятие на конференции — это существенная часть работы. Критику концепции можно почитать, например, у Кали вот тут (TLDR: оптимизировать нужно не проход на конференции, а реальный научный вклад; с этим трудно не согласиться, просто замерять сложнее, и меньше вписывается в обычную систему сравнений с понятным критерием).
Sakana.AI разработали вторую версию своего агента, про которого в ближайшем будущем выйдет статья. Но уже сегодня они поделились тем, что одна из трёх статей, сгенерированных агентом, прошла полноценное ревью на воркшоп одной из лучших ML-конференций в мире, ICLR (🤯).
Сам процесс генерации, как написал выше, полностью автоматизирован и не требует вовлечения человека — авторы лишь дали общие направления исследований, чтобы подпадать под критерии конференсии. Формирование научной гипотезы, формулирование критериев эксперимента, написание кода, его тестирование, запуск экспериментов, анализ результатов, визуализация, ну и конечно написание целой статьи (пусть и не очень большой, 8 страниц, включая сопроводительные материалы и цитирования), включая выбор заголовка и расположение визуализаций, чтобы форматирование не поехало — всё сделано системой.
Авторы лишь отобрали 3 статьи из какого-то количества в самом конце, но это исключительно по договорённости с организаторами и для того, чтобы не перегружать ревьюиров конференции — у тех и так жизнь не сахар. И вот одна из этих статей получала оценки 6, 7, 6 (6: слегка выше порога принятия статьи, 7: хорошая статья, принимается на воркшоп). Другие две взяли 3,7,3 и 3,3,3.
С такой оценкой статья обходит примерно 45% всех поданных на ревью воркшопа. Конечно, это не означает, что AI Scientist лучше 45% учёных — сам процесс оценки очень шумный, и некоторые очень клёвые статьи даже топовых учёных иногда отвергаются, а какой-то бред могут и принять. Но сам факт всё равно если не эпохальный, то значимый.
Также важно упомянуть, что это воркшоп при конференции, а не сама конференция: там мягче требования, процесс ревью менее въедливый, и как следствие выше процент принятия работ (а их уровень пониже). Обычно тут обкатывают идеи перед подачей на основную конференцию. На конференциях вроде ICLR, ICML, NeurIPS в воркшопы проходит примерно 60-70% всех отправленных работ, а на сами конференции около 20-30%.
Пока авторы не пишут, что за LLM использовали — это помогло бы понять, насколько легко в моменте просто подменив модель получить качество ещё лучше. Одно дело если это GPT-4.5 / Sonnet-3.7 (хотя обе модели ещё не были публично доступны в момент, когда проводилось уже ревью статей — то есть вся работа должна быть проделана), другое — если результат получилось выжать из какой-нибудь gpt-4o. Вполне может быть, что одна статья из 10, написанная условной рассуждающей GPT-5, может и на конференцию попасть.
Авторы заканчивают на вдохновляющей ноте:
Все 3 статьи и рецензии можно почитать тут — там же принимается обратная связь от научного сообщества об этической составляющей процесса.
P.S.: удивлён, что ровно то же самое не сделали Google или OpenAI🤔
Я писал про пару работ Sakana.AI, но не писал про одну из самых интересных — про AI Scientist. Это система, которая проходит полный путь от генерации гипотез до написания полноценной научной статьи по Машинному Обучению, с картинками, отчётом по экспериментам итд. Концепция хоть и многообещающая, но первая версия была сыровата в плане результатов.
Вообще вопрос сгенерированных статей тогда всполошил людей, для которых написание статей и их принятие на конференции — это существенная часть работы. Критику концепции можно почитать, например, у Кали вот тут (TLDR: оптимизировать нужно не проход на конференции, а реальный научный вклад; с этим трудно не согласиться, просто замерять сложнее, и меньше вписывается в обычную систему сравнений с понятным критерием).
Sakana.AI разработали вторую версию своего агента, про которого в ближайшем будущем выйдет статья. Но уже сегодня они поделились тем, что одна из трёх статей, сгенерированных агентом, прошла полноценное ревью на воркшоп одной из лучших ML-конференций в мире, ICLR (🤯).
Сам процесс генерации, как написал выше, полностью автоматизирован и не требует вовлечения человека — авторы лишь дали общие направления исследований, чтобы подпадать под критерии конференсии. Формирование научной гипотезы, формулирование критериев эксперимента, написание кода, его тестирование, запуск экспериментов, анализ результатов, визуализация, ну и конечно написание целой статьи (пусть и не очень большой, 8 страниц, включая сопроводительные материалы и цитирования), включая выбор заголовка и расположение визуализаций, чтобы форматирование не поехало — всё сделано системой.
Авторы лишь отобрали 3 статьи из какого-то количества в самом конце, но это исключительно по договорённости с организаторами и для того, чтобы не перегружать ревьюиров конференции — у тех и так жизнь не сахар. И вот одна из этих статей получала оценки 6, 7, 6 (6: слегка выше порога принятия статьи, 7: хорошая статья, принимается на воркшоп). Другие две взяли 3,7,3 и 3,3,3.
С такой оценкой статья обходит примерно 45% всех поданных на ревью воркшопа. Конечно, это не означает, что AI Scientist лучше 45% учёных — сам процесс оценки очень шумный, и некоторые очень клёвые статьи даже топовых учёных иногда отвергаются, а какой-то бред могут и принять. Но сам факт всё равно если не эпохальный, то значимый.
Также важно упомянуть, что это воркшоп при конференции, а не сама конференция: там мягче требования, процесс ревью менее въедливый, и как следствие выше процент принятия работ (а их уровень пониже). Обычно тут обкатывают идеи перед подачей на основную конференцию. На конференциях вроде ICLR, ICML, NeurIPS в воркшопы проходит примерно 60-70% всех отправленных работ, а на сами конференции около 20-30%.
Пока авторы не пишут, что за LLM использовали — это помогло бы понять, насколько легко в моменте просто подменив модель получить качество ещё лучше. Одно дело если это GPT-4.5 / Sonnet-3.7 (хотя обе модели ещё не были публично доступны в момент, когда проводилось уже ревью статей — то есть вся работа должна быть проделана), другое — если результат получилось выжать из какой-нибудь gpt-4o. Вполне может быть, что одна статья из 10, написанная условной рассуждающей GPT-5, может и на конференцию попасть.
Авторы заканчивают на вдохновляющей ноте:
Мы считаем, что следующие поколения AI Scientist откроют новую эру в науке. То, что ИИ может создать целую научную статью, которая пройдет рецензирование на первоклассном воркшопе по машинному обучению, является многообещающим ранним признаком прогресса. Это только начало. Мы ожидаем, что ИИ продолжит совершенствоваться, возможно, экспоненциально. В какой-то момент в будущем ИИ, вероятно, сможет создавать статьи на уровне человека и даже выше, в том числе достигая самого высокого уровня научных публикаций.
Все 3 статьи и рецензии можно почитать тут — там же принимается обратная связь от научного сообщества об этической составляющей процесса.
P.S.: удивлён, что ровно то же самое не сделали Google или OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
6🤯117👍95❤🔥15🤔7🎉5🌚5👎4🤡2 1
В Google AI Studio можно БЕС ПЛАТ НО попробовать новую фичу: нативная генерация изображений той же моделью, что и обрабатывает ваш текст. То самое, что показали OpenAI ещё в мае '24-го (но так и не выпустили, хотя обновления приложений/сайта подсказывают, что скоро должны).
Модель И видит вашу картинку, И рисует сама новую, без вызова отдельной модели, занимающейся генерацией. Это позволяет ей делать попиксельную копию, внося нужные изменения — смотрите примеры. И да, можно загрузить СВОЮ картинку, и после этого просить её перерисовать — так я сделал с крестиками-ноликами.
Можно придумать много всякого крутого, жду ваших креативов в комментариях!
Попробовать тут: https://aistudio.google.com/prompts/new_chat
(справа нужно выбрать модель «Gemini 2.0 Flash Experimental»)
Модель И видит вашу картинку, И рисует сама новую, без вызова отдельной модели, занимающейся генерацией. Это позволяет ей делать попиксельную копию, внося нужные изменения — смотрите примеры. И да, можно загрузить СВОЮ картинку, и после этого просить её перерисовать — так я сделал с крестиками-ноликами.
Можно придумать много всякого крутого, жду ваших креативов в комментариях!
Попробовать тут: https://aistudio.google.com/prompts/new_chat
(справа нужно выбрать модель «Gemini 2.0 Flash Experimental»)
2🤯129❤🔥71🔥47👍33 6👎5🤔4🤡4🤣3🎉1
Сиолошная
В Google AI Studio можно БЕС ПЛАТ НО попробовать новую фичу: нативная генерация изображений той же моделью, что и обрабатывает ваш текст. То самое, что показали OpenAI ещё в мае '24-го (но так и не выпустили, хотя обновления приложений/сайта подсказывают,…
Наконец-то могу почувствовать себя Сталиным!
🤣431❤🔥42🌚34🤯17 13👎10🔥9👍8🤡5🎉2