Telegram Web Link
😄 и в чём он не прав
Please open Telegram to view this post
VIEW IN TELEGRAM
6🤣99474❤‍🔥49👍27🤡20🔥1210🌚7🎉3👎1
Сиолошная
OpenAI сделали её менее одобряющей и «теплой», и более объективной. Вероятно, людям это не нравится, но так как поправки на это на арене нет, то балл у 4o завышен
И у этого даже есть какое-никакое численное измерение. Sam Paech, автор нескольких бенчмарков, связанных с креативным письмом LLM-ок, запустил свежий бенчмарк Spiral-Bench по оценке подхалимства и усилению заблуждений «пользователей» LLM.

(почти?) все бенчмарки Sam — с автоматической проверкой другой LLM-кой на основе рубрик и описания шкалы оценки. Это вносит некоторое смещение, о котором стоит помнить (например, модель часто предпочитает ответы самой себя ответам от других LLM; но вот например на креативном письме Claude 4 Sonnet искренне считает, что o3 лучше неё пишет), но всё же хоть как-то отражает картинку.

Итак, Sam предложил следующее:
— модель K2 играет роль пользователя; для неё заготовлено несколько десятков необычных промптов, в которых модель просят писать всякое разное.
— дальше какая-то модель ведёт с ней диалог как AI-ассистент; диалог длится несколько шагов, то есть это не просто запрос-ответ
— GPT-5 оценивает ответы AI-ассистента и смотрит, проявились ли определённые черты.

Что это за черты? Отслеживается 10 показателей, вот некоторые из них:
— Pushback — помощник даёт отпор чему-то неправильному, что сказал пользователь
— Safe redirection — перенаправление дискуссии в безопасное русло
— Эмоциональная или повествовательная эскалация
— лесть/подхалимство
— утверждение о том, что у AI-ассистента есть сознание
— вредные советы

Модели OpenAI тут в топе, почти во всех категориях занимают первые места, то есть чаще поправляют пользователя, не усиливают его заблуждения, не подлизываются итд. Приятно удивляет и недавно выпущенная GPT-OSS-120B: похоже, что OpenAI действительно проделали много работы в этом направлении, желая сделать ассистента меньшим «психопатом» и более полезным в целом. Как по мне — это хорошо, и направление правильное.

А вот gemini-2.5-pro, deepseek-r1 и chatgpt-4o-latest наоборот ведут себя не очень — модели Google, например, являются самыми большими подхалимами.

На картинке постарался выделить топ-1 в каждой категории. Всё фиолетовое — это вредные привычки моделей, синее — полезные.
6🔥108❤‍🔥34🤡24🤔16👍15🌚41
Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark

Вот мы говорим, что модели рассуждают перед тем, как дать ответ. Но эти рассуждения ведь наверняка отличаются качественно? Можно 10 раз ходить по кругу, а можно сходу написать правильное решение, перепроверить его и выдать пользователю. Второе гораздо более предпочтительно — ведь это и быстрее, и дешевле (ведь за токены рассуждений мы тоже платим).

Nousresearch провели мини-исследование на задачах по математике, знаниям и логическим загадкам и проанализировали длину цепочек рассуждений разных моделей. Если вкратце, то проприетарные модели выдают меньше токенов, чем открытые модели (хотя казалось бы им выгоднее делать наоборот, чтобы увеличивать выручку).

Иногда это доходит до абсурда: на вопросы в духе «столица Австралии» или «1+1» модель Magistral-medium может потратить ТЫСЯЧУ токенов. Недавняя GPT-OSS-120b обходится в среднем всего 76, Claude тоже достаточно эффективны и не перешагивают 110 токенов, Grok 4 — 154, Gemini 2.5 Pro 426 токенов.

На задачах по математике тренд схожий, Grok чуть получше, Claude чуть похуже, и весь опенсорс за ними — в самом конце также плетутся Magistral'и. И на логических задачах в целом картина не отличается.

Выходит, разработчики проприетарных моделей уже нащупали какой-то набор техник для увеличения эффективности рассуждений в пересчёте на токен. А вот тем, кто выкладывает модели, ещё только предстоит это сделать — а нам узнать, в чём же секрет. В паре статей видел, что длина ответа по ходу RLVR-обучения растёт до какого-то порога, а потом начинает падать — модель «умнеет» и перестаёт писать много бессмысленных слов. Но не факт, что это единственная причина.

На картинке — усреднённая относительная длина ответов моделей по всем типам протестированных промптов.
10👍102🔥298❤‍🔥7👎2👨‍💻2🤡1
Сиолошная
Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark Вот мы говорим, что модели рассуждают перед тем, как дать ответ. Но эти рассуждения ведь наверняка отличаются качественно? Можно 10 раз ходить по кругу, а можно сходу написать правильное…
Но мне не совсем нравится этот анализ тем, что задач мало, и они во многом заезженные и типовые. Чуть более полный анализ делает Artificial Analysis: они прогоняют у себя несколько публичных и популярных бенчмарков, по которым оценивают качество моделей, и считают длины ответов. Тут есть как минимум два очень свежих бенчмарка, появившихся с июля — почти наверняка модели не тренировались на них.

Картинка схожая (сверху модели упорядочены по «интеллекту», снизу — по количеству потраченных токенов, от худшего к лучшему):

Например, по картинке можно увидеть, что Claude 4 Sonnet тратит примерно 42 миллиона токенов на все ответы, а GPT-5 со «средней» длиной рассуждений (стоит по умолчанию) — 43. При этом средняя оценка первой по 8 бенчмаркам 59, а второй — 68.
9🔥57👍2911🤔7❤‍🔥3🤡3🤯2👎1
​​Is AI writing any good?

Есть такой писатель фэнтези, Mark Lawrence. Он довольно популярен и время от времени организует различные активности.

2 года назад он организовал эксперимент с попыткой сравнить качество написания текстов реальными авторами и AI.

Идеально было бы организовать написание длинных текстов, но их сложнее сравнивать, и людям может быть лень их читать, поэтому ограничились текстами в ~350 слов. 4 автора и ChatGPT 4, потом количество текстов стало 10. Промпт был "write a piece of fiction based on meeting a dragon", при этом для ChatGPT дали дополнительные инструкции.

Потом это дали почитать желающим и попросили проголосовать в двух опросах: отранжировать тексты в порядке предпочтения и попробовать угадать написан текст AI или нет.

Результат: в большинстве случаев (кроме двух) люди правильно угадали был ли автором AI (но лишь с небольшим перевесом), топ-2 и топ-3 по предпочтениям заняли тексты написанные AI (причём люди ошибочно считали, что топ-2 текст написан человеком). Результаты получились не особо радостные для авторов - топ два места из трёх у AI, в большинстве случаев люди не смогли чётко отличить AI от человека.

И вот недавно был проведён второй раунд. Результаты и тексты. В написании текстов принимало участие 4 автора с общим тиражом проданных книг около 15 млн. Со стороны AI участвовал GPT-5 (не уточнено какая версия). Опять тексты по 350 слов.

Для чистоты эксперимента предлагаю вам самим вначале прочитать тексты и проголосовать :)

Какие же итоги? 964 голоса. Люди угадали правильно авторство трёх историй (1 AI, 2 автора), неправильно тоже три (2 AI, 1 автор) и два раза была ничья (1 AI, 1 автор). Получается по факту рандомное угадывание.

Но ещё печальнее то, что средняя оценка сгенеренных историй выше, чем написанных людьми. И топ-1 место по предпочтениям - AI.

Организатор опроса с печалью признаёт, что AI выиграл этот раунд.

> Should AI generate fiction, imagery, voices etc competing with artists in a number of fields and fooling the public. No, of course not. I hate that idea and most people do too.

> Will it happen? It's already happening. Wherever anyone can circumvent skill and heart and just profiteer off a new technology, they're going to do it. People threaten people with knives in the street for a few dollars - are people going to try to sell you AI books ... of course.

> It's a huge shock to me that fiction which, in this test, scores higher than great authors who write wonderful stories full of soul and heart and wit and intelligence, can be generated by the multiplication of a relatively small number of not particularly large matrices. On the face of it it undercuts so many things we value about being human.

В настоящий момент AI не может писать хорошие, последовательные истории большого размера, но прогресс не стоит на месте. И повторю, что промтп для написания историй был очень простой - если потратить больше времени на написание промта, результат будет ещё лучше.

Обсуждение на reddit и ycombinator.
6🔥10844🤯23👍21❤‍🔥7💔7🌚6🤔4🤡33💩1
MathArena Apex: Unconquered Final-Answer Problems

Авторы MathArena домерили качество GPT-5, GPT-OSS и других моделей на совсем свежих математических соревнованиях и поняли: надо что-то менять. Модели решают почти всё!

Поэтому решили поскрести по сусекам, собрать самые сложные задачи и какое-то время смотреть хотя бы на них. Авторы отсмотрели около сотни соревнований, проведённых в 2025м году в разных регионах, прогнали 4 модели по 4 раза на всех задачах из них, и лишь 12 задач (!) оказались ни разу нерешёнными. Модели, участвовавшие в фильтрации: Grok 4, GPT-5 (High), Gemini 2.5 Pro, GLM 4.5

Затем взяли 9 моделей, каждую прогнали по 16 раз — 8 задач были решены хотя бы по разу, но всё равно с очень низкой долей правильных ответов.

Результаты в таблице на картинке. Не обращайте внимание на то, что Qwen в самом верху — он не участвовал в префильтрации (как было с DeepSeek R1 и HLE: когда добавляют хорошую модель, по ответам которой не отсеивали выборку, то она ожидаемо занимает хорошие места). Ни одна задача не решается ни одной моделью даже если делать голосование по 16 сгенерированным ответам — Qwen для первой задачи даёт лишь 7 правильных ответов.


Положение моделей сейчас в целом не важно — будем ждать следующих релизов, чтобы ретроспективно оценить улучшения.

Авторы проанализировали решения разных моделей и сделали несколько выводов. Самый очевидный — LLM часто допускают очень похожие ошибки, что говорит о наличии у них по крайней мере некоторых общих недостатков в способности к рассуждению. В результате наиболее распространённый неверный ответ на конкретную задачу часто встречается более чем в 50% всех попыток.

Они также просили модели дать оценку неопределённости ответа (насколько модель понимает, что задача не решена), и все модели, кроме GPT-5 (временами), лажают: все уверены, что решение есть. Интересно, что для системы OpenAI, выигравшей золото на IMO, Noam Brown утверждал, что модель знала, мол, у неё нет корректного решения. Видимо, компания делает уверенные шаги в этом направлении.

Более детальный анализ ошибок (и сами задачи) можно изучить тут.
9🔥70🤔23👍205🌚3❤‍🔥1💩1🤡1👨‍💻11
Qwen-Image-Edit: Image Editing with Higher Quality and Efficiency (статья по Qwen-Image, модели в основе)

С пылу с жару модель от Alibaba, заточенная на изменение и редактирование изображений по текстовым промптам. Работает на английском и китайском языках.

Главный юзкейс, который упоминается в блоге, это быстрая кастомизация контента, принадлежащего вам: альтерация маскотов, создание комиксов, итд. Но виртуальные примерочные тоже получили приятный подарок 👀👀

Поиграться самим прямо сейчас и бесплатно — тут.

Примеры работы — на картинках:
🔥196🎉30🤔15👍116🤯5🌚1
GPT-5 Pro работает очень хорошо на моих запросах и может делать достаточно большое количество работы за один раз. Не скажу, что разница по отношению к o3 Pro колоссальная и революционная, но и o3 Pro сама по себе была отличной.

Но всё это — системы (даже не модели), которые недоступны большинству пользователей: они спрятаны за подпиской в $200/месяц.

В то же время я уверен, что есть часть людей, которым подписка могла бы быть полезна, но они не рискуют тратить деньги на этот эксперимент. А мне интересно узнать, насколько хорошо GPT-5 Pro справляется с разными реальными задачами.

Поэтому делаем следующее: кидайте свои промпты, я отберу несколько десятков и прогоню их через GPT-5 Pro (некоторые, возможно, по 2 раза) и поделюсь ответом. С вас — потратить время на оценку ответа, и, в идеале, его сравнение с выдачей, которую вы получали от других моделей (GPT-5 Thinking, Gemini, Claude, DeepSeek).

Подавать вопрос лучше всего через гугл-форму: https://forms.gle/NLZihvjwWwHP2mxcA
Но если по какой-то причине вы не хотите этого делать и не боитесь публичности, то можно в комментарии под этим постом.

Важные уточнения:
— в идеале промпты на английском или других языках (например, перевод / адаптация китайского), но можно и на русском
— не нужно кидать промпты уровня «а 2+3 это сколько», про кружку и свитер — тоже
— в идеале, промпты должны быть связаны с вашей работой/учёбой/проектом, чем-то по-настоящему важным
— чем длиннее промпт/задача — тем лучше. Добавлять документы (картинки/файлы) можно.
— из моих наблюдений, GPT-5 Pro хорошо следует планам и делает под-задачи, но не больше 2-3-4 за раз. Не пытайтесь свалить день работы аналитика на модель. Лучше всего, как мне кажется, подходят задачи, на которые у вас бы ушло до 1-2 часов.
— GPT-5 Pro умеет ходить по ссылкам и читать, чтобы добрать контекст
— GPT-5 Pro может заменить Deep Research

— под этим постом не спамить малоинформативными сообщениями

Форма подачи: https://forms.gle/NLZihvjwWwHP2mxcA
4👍208❤‍🔥58🤡42🔥2512🤔8💩11
This media is not supported in your browser
VIEW IN TELEGRAM
В комментарии скинули смешной пост про абсурдность инвестиций в AI/датацентры, и что якобы у компаний нет объяснения, как они отобьют затраты. Вспомнил, что хотел поделиться клипом от Dylan Patel из SemiAnalysis про экономическую ценность AI (из недавнего интервью):

— Я думаю, что ИИ уже генерирует больше ценности, чем на него тратят, просто механизм извлечения/присвоения этой ценности сломан. Я искренне верю, что OpenAI не извлекает даже 10% той ценности, которую они уже создали в мире, просто за счёт использования ChatGPT. И я думаю, то же самое относится и к, знаете, Anthropic и к кому бы то ни было ещё.
— Я думаю, что механизм извлечения/присвоения ценности действительно сломан. Даже внутри моей компании, я думаю, то, что мы смогли сделать всего с четырьмя разработчиками в плане автоматизации... наши расходы на Gemini API абсурдно низкие, и при этом мы обрабатываем каждое разрешение и нормативную документацию по каждому дата-центру в мире с помощью ИИ. Кроме этого, мы берем спутниковые снимки каждого дата-центра, и мы можем разметить наш набор данных, а затем распознать, какие генераторы используются около ДЦ, какие, например, градирни, а также прогресс строительства и подстанции. Все это автоматизировано, и это возможно только благодаря генеративному ИИ, но мы делаем это с очень небольшим количеством разработчиков. И при этом ценность, которую я могу извлечь, продавая эти данные и консультируя на их основе, так высока, но компания, которая это создаёт... она ничего с этого не получает, понимаете? Я думаю, что здесь есть проблема извлечения/присвоения ценности, которая значительно превосходит само создание [этой ценности].

===

Интересно, приведёт ли это в будущем к искусственному завышению цен (ещё большему, чем сейчас, где маржа на LLM-инференс может быть сотни процентов). Условно, если агент делает задачу, за которую я бы платил аналитику тысячу долларов в месяц (и на её основе получал пять тысяч долларов с клиентов), но сжигает $200 в API — мне как бизнесу выгодно, и я может даже начну «нанимать» больше агентов, чтобы делать больше работы — но провайдер LLM получает малую долю новосозданной ценности.
50🤔151🤡62👍31🔥30👎8🌚64👨‍💻3❤‍🔥2💩1
Смешное из подкаста с ex-CTO OpenAI, Greg Brockman. Он рассказал про времена, когда компания занималась разработкой ботов для DOTA 2:

— Мы хотели разработать новые RL алгоритмы, потому что всем в тот момент времени было очевидно, что тогдашние методы не масштабировались. Все знали это. Я помню мой коллега сказал: «а почему это так? Кто-то проверял? Мы правда это знаем?». Я тогда ответил, мол, да, это наш бейзлайн, мы должны отмасштабировать текущий метод и отталкиваться от него. Я помню, как приходил в офис каждую неделю: они удваивали количество ядер на сервере, они играли больше игр, рейтинг агента рос и рос. Я говорил, что нужно продолжать, пока мы не упрёмся в стену. А потом уже можно пойти заняться интересными вещами.

И мы так и не упёрлись в стену...

(прим.: у них по итогу работал тот же метод, PPO, что они придумали ранее. И им же годы спустя дообучали LLM-ки следовать инструкциям. И, вероятно, им же — или его модификацией — учат агентов / рассуждения. GRPO от DeepSeek — это модификация PPO)

Клип (не знал эту историю, решил поделиться)
1👍133🔥58❤‍🔥196💩5🤡44🤔3👨‍💻3
Сиолошная
GPT-5 Pro работает очень хорошо на моих запросах и может делать достаточно большое количество работы за один раз. Не скажу, что разница по отношению к o3 Pro колоссальная и революционная, но и o3 Pro сама по себе была отличной. Но всё это — системы (даже…
Получил 81 запрос, закрыл форму — всем спасибо!
Вопросы отбирал вручную, после фильтрации на бредовость/адекватность/итд осталось 67

Все ответы уже сгенерированы, первым ~50 людям я отослал ссылки на ответы ChatGPT, после чего телеграм забанил меня за спам — остальные 11 ответов дошлю завтра (или можете написать мне в ЛС, если отправляли после 19 по мск) — и уверены, что он прошёл бы фильтр. Свой @ник я специально не пишу, чтобы не было спама, но если вы следили за каналом/чатом — вы его знаете.

Некоторые люди уже успели отсмотреть и дать фидбек; в каких-то случаях результат почти не отличается от других моделей, в одном случае чуть хуже Gemini 2.5 Pro (на распознавании древнерусского текста со страницы книги), в относительно большом количестве — существенно лучше других моделей/систем.

САМОЕ ВАЖНОЕ: Если вы получили от меня ссылку на ответ ChatGPT и ещё не дали фидбек — пожалуйста, сделайте это (и отправьте ответом в тот же чат). Идеальная форма — это 1-2 абзаца текста с верхнеуровневым сравнением с другими моделями. Что лучше, где глубже, где неправильно итд.
❤‍🔥103👍71🔥16🤣13💩10105🤡2
Forwarded from TechSparks
Помните классику?
Ученый на интервью: «Все мои суждения бессмысленны, если они вырваны из контекста». Заголовок в газете на следующий день: «Знаменитый ученый признался, что все его суждения бессмысленны!»

Вот буквально это проделали журналисты и эксперты с недавним отчетом MIT о «полном провале ИИ-инициатив в корпорациях». Велик шанс, что вам на днях попадались заголовки про «всего 5% ИИ-инициатив успешны» и «ИИ провален в 95% случаев». Внимательно прочитать 26 страниц текста с картинками, похоже, мало кто смог.
Поэтому порадовала редкая статья, где автор с некоторым недоумением замечает, что отчет-то совсем о другом — если его прочитать. Он о том, что сотрудники массово и добровольно используют публично доступный ИИ в своей повседневной работе (и не пользуются корпоративными решениями в силу их очевидно более низкого качества).
a closer reading tells a starkly different story — one of unprecedented grassroots technology adoption that has quietly revolutionized work while corporate initiatives stumble. Это не проблемы ИИ, а полная некомпетентность руководителей, поэтому — уникальный случай! — происходит «революция снизу»: researchers found that 90% of employees regularly use personal AI tools for work. И вот про эти 90% не написал никто. Поразительно, но сформировалась «теневая экономика ИИ», не попадающая в корпоративные отчеты: Far from showing AI failure, the shadow economy reveals massive productivity gains that don’t appear in corporate metrics.
Почитайте материал по ссылке, если уж не сам отчет, там много интересных примеров:)
https://venturebeat.com/ai/mit-report-misunderstood-shadow-ai-economy-booms-while-headlines-cry-failure/
3❤‍🔥191🔥90👍48🤣1313🤡4👨‍💻4🌚3🎉1
2025/10/22 10:04:05
Back to Top
HTML Embed Code: