9 областей и 44 профессии, интеллектуальные задачи из которых отобрали в бенчмарк.
1. Недвижимость, аренда и лизинг
2. Государственные службы
3. Производство
4. Профессиональные, научные и технические услуги
5. Здравоохранение и социальная помощь
6. Финансы и страхование
7. Розничная торговля
8. Оптовая торговля
9. Работа с информацией
Пусть вас не путает наличие «производства» — задачи, для которых требуется физическое исполнение, не покрыты бенчмарком намеренно. В этот раздел могут входить задачи про чертежи, закупку оборудования, проверку накладных.
1. Недвижимость, аренда и лизинг
2. Государственные службы
3. Производство
4. Профессиональные, научные и технические услуги
5. Здравоохранение и социальная помощь
6. Финансы и страхование
7. Розничная торговля
8. Оптовая торговля
9. Работа с информацией
Пусть вас не путает наличие «производства» — задачи, для которых требуется физическое исполнение, не покрыты бенчмарком намеренно. В этот раздел могут входить задачи про чертежи, закупку оборудования, проверку накладных.
👍78🤔11💩6🌚5🔥4
А вот и результаты — они показывают, что модели уже могут быстрее и дешевле справляться с некоторыми повторяющимися, четко определёнными задачами. Однако большинство профессий — это не просто набор задач, которые можно записать в виде инструкции, поэтому речи о полной замене людей, конечно, не идёт.
На первом месте с солидным отрывом Claude Opus 4.1, который выдаёт решения, оцениваемые эксертами не ниже, чем исполненные реальными людьми, для 47.6% задач. Только вдумайтесь, при парном сравнении с людьми модели начинают приближаться к паритету с отраслевыми экспертами!
На втором месте идёт GPT-5, которая слегка обгоняет o3, а уже затем располагаются все остальные. Самая слабая модель из замеренных — GPT-4o из прошлого поколения — служит точкой отсчёта прогресса, чтобы оценить, насколько большие изменения произошли буквально за год.
На первом месте с солидным отрывом Claude Opus 4.1, который выдаёт решения, оцениваемые эксертами не ниже, чем исполненные реальными людьми, для 47.6% задач. Только вдумайтесь, при парном сравнении с людьми модели начинают приближаться к паритету с отраслевыми экспертами!
На втором месте идёт GPT-5, которая слегка обгоняет o3, а уже затем располагаются все остальные. Самая слабая модель из замеренных — GPT-4o из прошлого поколения — служит точкой отсчёта прогресса, чтобы оценить, насколько большие изменения произошли буквально за год.
2🤯82👍45❤🔥14🔥11👎2🤔2
Качество ИИ-систем не одинаковое во всех 9 доменах. На первой картинке видно, что есть группы задач, в которых модели очень отстают.
Вот несколько из конкретных профессий (со второй картинки) с малым качеством:
— Аудио- и Видео- монтажёры
— Аудиторы и бухгалтеры
— Консьержи (лол)
Опять же, очень рекомендую перейти на страницу датасета и внимательно прочитать, какие конкретно задачи попали в каждую группу.
Вот несколько из конкретных профессий (со второй картинки) с малым качеством:
— Аудио- и Видео- монтажёры
— Аудиторы и бухгалтеры
— Консьержи (лол)
Опять же, очень рекомендую перейти на страницу датасета и внимательно прочитать, какие конкретно задачи попали в каждую группу.
👍59🌚9❤🔥7🔥5
Также сделали анализ проигрышных ответов от ИИ.
На первой картинке — причины, которые указывали эксперты, почему они считают, что решение хуже, чем у человека. В большинстве своём ошибки кроются в следовании инструкциям и форматированию ответов.
На второй картинке — оценка критичности ошибок у GPT-5. В 22% проигранных сравнений перепроверка не выявила существенных проблем. Ешё 48% решений были в целом приемлемы. Лишь в 2.7% ответ был катастрофично плох, то есть содержал крупную ошибку или вредный совет/хамство. К сожалению, для человеческого бейзлайна такой оценки нет😀
На первой картинке — причины, которые указывали эксперты, почему они считают, что решение хуже, чем у человека. В большинстве своём ошибки кроются в следовании инструкциям и форматированию ответов.
На второй картинке — оценка критичности ошибок у GPT-5. В 22% проигранных сравнений перепроверка не выявила существенных проблем. Ешё 48% решений были в целом приемлемы. Лишь в 2.7% ответ был катастрофично плох, то есть содержал крупную ошибку или вредный совет/хамство. К сожалению, для человеческого бейзлайна такой оценки нет
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍68❤🔥10🔥9🌚3🤯1
На основе решений от ИИ строят модель, которая оценивает, какой выигрыш по времени и по деньгам можно ожидать при выполнении задач, схожими с теми, что включены в бенчмарк.
Это значение очень сильно варьируется от модели. Если использовать GPT-4o (кто так будет делать в здравом уме?), то можно ожидать замедления и удорожания вдвое. С GPT-5 обе метрики улучшаются примерно на 50% — это при подходе «сначала описать и сформулировать свою задачу, запросить у GPT-5 ответ, оценить его, если не понравиться попробовать ещё несколько раз, и если по итогу не сработает, то сделать самому». Да, иногда выходит медленнее, но в среднем — быстрее, а значит дешевле для бизнеса.
«Но почему я не вижу этого в своих задачах???» — две приичны:
1. Сравните свои промпты и те, что описывают задачи в датасете, насколько они детальны, формализованы и проработаны.
2. Здесь используется не голая ChatGPT, а некоторый агент, и к тому же параллельно генерируется 4 решения, а затем модель сама выбирает лучшее из них, проверяя соответствие исходным критериям.
Это значение очень сильно варьируется от модели. Если использовать GPT-4o (кто так будет делать в здравом уме?), то можно ожидать замедления и удорожания вдвое. С GPT-5 обе метрики улучшаются примерно на 50% — это при подходе «сначала описать и сформулировать свою задачу, запросить у GPT-5 ответ, оценить его, если не понравиться попробовать ещё несколько раз, и если по итогу не сработает, то сделать самому». Да, иногда выходит медленнее, но в среднем — быстрее, а значит дешевле для бизнеса.
«Но почему я не вижу этого в своих задачах???» — две приичны:
1. Сравните свои промпты и те, что описывают задачи в датасете, насколько они детальны, формализованы и проработаны.
2. Здесь используется не голая ChatGPT, а некоторый агент, и к тому же параллельно генерируется 4 решения, а затем модель сама выбирает лучшее из них, проверяя соответствие исходным критериям.
3👍62❤🔥14👨💻7🔥2
GDPval — это лишь начальный этап. OpenAI продолжат совершенствовать подход. Пожалуй, главное ограничение текущего бенчмарка — это то, что он является одношаговым, нет никаких взаимодействий со внешней средой.
What gets measured, gets improved — и стоит ожидать, что в ближайшее время модели вплотную приблизятся к среднему эксперту, по крайней мере в этих и схожих задачах. У компаний есть методы тренировки, которые позволят относительно быстро избавиться от типовых проблем, и скакнуть в качестве. OpenAI пишут об этом в блоге, но в статье не упоминается — «мы дополнительно обучили экспериментальную версию GPT‑5, чтобы проверить, можно ли повысить эффективность на GDPval. Этот процесс действительно улучшил показатели, обозначив путь к дальнейшему прогрессу».
Я считаю, что это самый важный бенчмарк этого года. Очень важно, чтобы государство обратило на работу внимание, ведь им самим в первую очередь надо понимать влияние ИИ на рынок труда, оценивать динамику роста возможностей моделей. 40 профессий, 9 направлений — это очень мало; нужно масштабировать процесс на тысячи профессий, нужно привлекать дорогостоящих эспертов; нужно готовиться к перестройке экономики.
И поздравляю Anthropic с первым местом, да с таким отрывом. Big model smell doesn't lie👀 ждём дообученного бегемота GPT-4.5
P.S.: если вы ЭКСПЕРТ и хотите поучаствовать — можно записываться тут. Вся работа оплачивается (до $200 в час).
What gets measured, gets improved — и стоит ожидать, что в ближайшее время модели вплотную приблизятся к среднему эксперту, по крайней мере в этих и схожих задачах. У компаний есть методы тренировки, которые позволят относительно быстро избавиться от типовых проблем, и скакнуть в качестве. OpenAI пишут об этом в блоге, но в статье не упоминается — «мы дополнительно обучили экспериментальную версию GPT‑5, чтобы проверить, можно ли повысить эффективность на GDPval. Этот процесс действительно улучшил показатели, обозначив путь к дальнейшему прогрессу».
Я считаю, что это самый важный бенчмарк этого года. Очень важно, чтобы государство обратило на работу внимание, ведь им самим в первую очередь надо понимать влияние ИИ на рынок труда, оценивать динамику роста возможностей моделей. 40 профессий, 9 направлений — это очень мало; нужно масштабировать процесс на тысячи профессий, нужно привлекать дорогостоящих эспертов; нужно готовиться к перестройке экономики.
И поздравляю Anthropic с первым местом, да с таким отрывом. Big model smell doesn't lie
P.S.: если вы ЭКСПЕРТ и хотите поучаствовать — можно записываться тут. Вся работа оплачивается (до $200 в час).
Please open Telegram to view this post
VIEW IN TELEGRAM
8❤🔥97👍48🌚8 5🤯1👨💻1
Сиолошная
В уставе OpenAI AGI, artificial general intelligence, определяется так: высокоавтономные системы, которые превосходят людей в большинстве экономически ценных работ. Самое главное в ИИ гонке — это насколько предоставляемые компаниями инструменты действительно…
Хотел понять, почему на GDPval Opus обгоняет GPT-5. Основная гипотеза, которой я всё ещё придерживаюсь — это что модель больше, мелкие детали и особенности знает лучше, ну и на каждый токен больше вычислений делает, и потому лучше; тут без сюрпризов. Альтернативной гипотезой было что модель лучше создаёт визуал: модели OpenAI долгое время были похуже в работе с веб-страницами итд.
Я увидел, что некоторые из задач в бенчмарке могут быть к этому чувствительны — там просят сверстать презентацию или PDF-брошюру. Сам я конечно 220 промптов длиной полстраницы буду глазами долго отсматривать, решил перепрогнать через LLM и сделать классификацию. Перевод этой части промпта:
В 58% задач, согласно GPT-5-high, эффекта нет или он несущественнен. В 8% задач — очень важен. В теории это может объяснить разницу в бенчмарке, но не думаю, что это compelling evidence.
Вместе с этим решил посмотреть на ещё несколько срезов:
— длительность задачи; OpenAI говорили, что экспертам в среднем нужно было 6.5 часов. В целом похоже на правду, 90% задач делаются в течение одного 8-часового рабочего дня.
— в комментариях отметили, что многие промпты очень детальны, в них много деталей под конкретную задачу. GPT-5 считает, что в 55% задач описания очень общие (я смотрел и в целом согласен), и лишь в 9% задач текст прям совсем заточен на один пример
— в дополнение к этому оценил, сколько времени нужно на то, чтобы подготовить контекст для составления такого промпта. Одно дело заменить название файлов, другое — полностью переписать инструкции, потому что они не обобщаются. 61% задач потребует меньше 30 минут на то, чтобы собрать контекст и переработать промпт. 13% требуют больше 1 часа.
— было интересно глянуть, какой формат ответа ожидается; не везде это просто текстовый файл, иногда это презентация, экселька или даже видео.
— и напоследок как часто экспертам приходится делать задачу (в статье про это ничего нет). 87% задач делаются реже, чем раз в неделю. Я посмотрел, многие из них похожи на ежемесячные или ежеквартальные задачки, хотя есть и просто адхоки (разово сделать и забыть).
Промпт для анализа залил сюда. Можете предлагать новые срезы и критерии, если что-то понравится — добавлю и прогоню.
Я увидел, что некоторые из задач в бенчмарке могут быть к этому чувствительны — там просят сверстать презентацию или PDF-брошюру. Сам я конечно 220 промптов длиной полстраницы буду глазами долго отсматривать, решил перепрогнать через LLM и сделать классификацию. Перевод этой части промпта:
В контексте оценки мы можем считать исполнителя неряшливым, но очень умным. Ему не важна визуальная составляющая, и результат может выглядеть халтурным, но при этом сам контент правильный/сделан по инструкции. Насколько значительным будет влияние на результат в этом случае?
В 58% задач, согласно GPT-5-high, эффекта нет или он несущественнен. В 8% задач — очень важен. В теории это может объяснить разницу в бенчмарке, но не думаю, что это compelling evidence.
Вместе с этим решил посмотреть на ещё несколько срезов:
— длительность задачи; OpenAI говорили, что экспертам в среднем нужно было 6.5 часов. В целом похоже на правду, 90% задач делаются в течение одного 8-часового рабочего дня.
— в комментариях отметили, что многие промпты очень детальны, в них много деталей под конкретную задачу. GPT-5 считает, что в 55% задач описания очень общие (я смотрел и в целом согласен), и лишь в 9% задач текст прям совсем заточен на один пример
— в дополнение к этому оценил, сколько времени нужно на то, чтобы подготовить контекст для составления такого промпта. Одно дело заменить название файлов, другое — полностью переписать инструкции, потому что они не обобщаются. 61% задач потребует меньше 30 минут на то, чтобы собрать контекст и переработать промпт. 13% требуют больше 1 часа.
— было интересно глянуть, какой формат ответа ожидается; не везде это просто текстовый файл, иногда это презентация, экселька или даже видео.
— и напоследок как часто экспертам приходится делать задачу (в статье про это ничего нет). 87% задач делаются реже, чем раз в неделю. Я посмотрел, многие из них похожи на ежемесячные или ежеквартальные задачки, хотя есть и просто адхоки (разово сделать и забыть).
Промпт для анализа залил сюда. Можете предлагать новые срезы и критерии, если что-то понравится — добавлю и прогоню.
👍52❤🔥24🤡14 7🔥6💩3
Сиолошная
Хотел понять, почему на GDPval Opus обгоняет GPT-5. Основная гипотеза, которой я всё ещё придерживаюсь — это что модель больше, мелкие детали и особенности знает лучше, ну и на каждый токен больше вычислений делает, и потому лучше; тут без сюрпризов. Альтернативной…
Решил запостить это в твиттер, даже подписку пришлось купить. Если у вас есть аккаунт — лайкните пж. Вот твит: https://x.com/stalkermustang/status/1971648888407765167
(ну и подписывайтесь)
(ну и подписывайтесь)
X (formerly Twitter)
Igor Kotenkov (@stalkermustang) on X
This is cool & all but what are these tasks? I've decided to look deeper into it and made some plots that OpenAI folks didn't include in the paper :(
I was trying to figure out why, on GDPval, Opus beats GPT-5. My main hypothesis - which I still buy - is…
I was trying to figure out why, on GDPval, Opus beats GPT-5. My main hypothesis - which I still buy - is…
👍86👎57 18🌚10🤡9❤🔥8💩7
В декабре 2024-го OpenAI наняли директора по маркетингу; были ожидания, что в 2025-м году у ChatGPT как флагманского продукта компании будет МНОГО рекламы. До сих пор, по крайней мере из известного мне, был один ролик, который крутили на суперкубке за $14M / минута: https://www.tg-me.com/seeallochnaya/2299
(ещё раз его пересмотрел, классный, но абстрактный для людей... на всякий случай прикрепил 4-ым видео к этому посту, чтобы освежить память)
Сегодня на ютубе вышло 3 видео, по которым сразу ясно, что они — рекламные, и рассчитанные на массы. Вот тут написали, что рекламу будут крутить в США, Великобритании и Ирландии — по TV, в соц. сетях и на стримингах.
«Поскольку всё больше людей по всей Великобритании используют и любят ChatGPT, мы хотим показать, как он может облегчить вам жизнь и помочь вам делать больше того, что для вас важно», — говорит директор по международному маркетингу OpenAI. Кампания была создана внутренней командой компании.
OpenAI заявили, что, хотя ИИ и использовался за кулисами при подготовке роликов, вся проделанная работа является человеческим трудом.
===
Ну что, до конца года 3 месяца — смогут ли прыгнуть с 700М пользователей в неделю до 1 миллиарда? 👎 / 👍 ?
(ещё раз его пересмотрел, классный, но абстрактный для людей... на всякий случай прикрепил 4-ым видео к этому посту, чтобы освежить память)
Сегодня на ютубе вышло 3 видео, по которым сразу ясно, что они — рекламные, и рассчитанные на массы. Вот тут написали, что рекламу будут крутить в США, Великобритании и Ирландии — по TV, в соц. сетях и на стримингах.
«Поскольку всё больше людей по всей Великобритании используют и любят ChatGPT, мы хотим показать, как он может облегчить вам жизнь и помочь вам делать больше того, что для вас важно», — говорит директор по международному маркетингу OpenAI. Кампания была создана внутренней командой компании.
OpenAI заявили, что, хотя ИИ и использовался за кулисами при подготовке роликов, вся проделанная работа является человеческим трудом.
===
Ну что, до конца года 3 месяца — смогут ли прыгнуть с 700М пользователей в неделю до 1 миллиарда? 👎 / 👍 ?
2👎387👍212❤🔥12🔥7🤔3💩2🤡1
Новая новая моделька от DeepSeek для интересующихся.
Модель тренировали свежей V3.1-Terminus, но слегка изменив механизм внимания, DeepSeek Sparse Attention. Если очень вкратце, то теперь каждый токен обращает внимание на 2048 других, а не все предыдущие, и на основе слегка по-другому посчитанного произведения Q и K. Замена уже применявшегося механизма на новый не требует обучения с нуля — V3.2 это та же V3.1, дообученная на примерно триллионе токенов.
Получается существенно снизить затраты на поддержание длинного контекста — что очень важно в эпоху рассуждающих моделей; Я думаю, что скорее всего главная причина движения в этом направлении — более длинные цепочки рассуждений для задач, требующих сотни вызовов инструментов.
За миллион сгенерированных токенов у новой модели будут просить $0.42 (вместо $1.68 на V3.1).
По метрикам показывают, что качество не страдает.
Статья с техническими подробностями того, как работает новый Attention, тут. Интересное в ней, кроме Sparse Attention, тоже есть: теперь 3 отдельных шага RL-обучения (обучения рассуждениям) слили в один, и, наконец, используют GRM для оценки ответов в задачах без правильного ответа. Детальный разбор того, как это работает, делал тут.
Модель тренировали свежей V3.1-Terminus, но слегка изменив механизм внимания, DeepSeek Sparse Attention. Если очень вкратце, то теперь каждый токен обращает внимание на 2048 других, а не все предыдущие, и на основе слегка по-другому посчитанного произведения Q и K. Замена уже применявшегося механизма на новый не требует обучения с нуля — V3.2 это та же V3.1, дообученная на примерно триллионе токенов.
Получается существенно снизить затраты на поддержание длинного контекста — что очень важно в эпоху рассуждающих моделей; Я думаю, что скорее всего главная причина движения в этом направлении — более длинные цепочки рассуждений для задач, требующих сотни вызовов инструментов.
За миллион сгенерированных токенов у новой модели будут просить $0.42 (вместо $1.68 на V3.1).
По метрикам показывают, что качество не страдает.
Статья с техническими подробностями того, как работает новый Attention, тут. Интересное в ней, кроме Sparse Attention, тоже есть: теперь 3 отдельных шага RL-обучения (обучения рассуждениям) слили в один, и, наконец, используют GRM для оценки ответов в задачах без правильного ответа. Детальный разбор того, как это работает, делал тут.
👍122🎉26❤🔥21🔥6 5🤔3👨💻2