Принёс интересной инфографики в картинках и таблицах из свежего поста SemiAnalysis:
1) изменение в веб-трафике между февралём и маем 2025-го. DeepSeek единственный, кто просел, а прирост OpenAI хоть и не кажется значительным в процентах (из-за высокой базы), но в абсолютах обгоняет всех остальных вместе взятых
2) Доля API DeepSeek в генерации токенов их же моделей (по данным OpenRouter). То есть из всех токенов R1/V3 лишь 16% приносят деньги китайской компании
3) Почему? Потому что у других провайдеров за ту же цену можно найти генерацию быстрее.
4) Падение скорости генерации Claude Sonnet 4 с момента релиза. Скорее всего это означает, что Anthropic не хватает ресурсов для поддержания спроса, поэтому они начинают увеличивать количество одновременных генераций, что ведёт к падению скорости
5) А вот это прям новая для меня информация, посмотрите насколько меньше токенов нужно генерировать рассуждающим моделям Anthropic и OpenAI для того, чтобы висеть в топах бенчмарков. То есть они почти не тратят «слова» на ненужные рассуждения. Это влияет на выходную стоимость и на скорость: даже если номинально цена выше условной R1 (за миллион токенов), получение результата лучше может стоить дешевле — и происходить быстрее
Ещё в посте упоминали детали сделки OpenAI + Google: первые будут арендовать мощности у вторых, несмотря на то, что по сути они конкуренты. Однако речь идёт только о GPU, а не TPU (специальные чипы гугла)
1) изменение в веб-трафике между февралём и маем 2025-го. DeepSeek единственный, кто просел, а прирост OpenAI хоть и не кажется значительным в процентах (из-за высокой базы), но в абсолютах обгоняет всех остальных вместе взятых
2) Доля API DeepSeek в генерации токенов их же моделей (по данным OpenRouter). То есть из всех токенов R1/V3 лишь 16% приносят деньги китайской компании
3) Почему? Потому что у других провайдеров за ту же цену можно найти генерацию быстрее.
4) Падение скорости генерации Claude Sonnet 4 с момента релиза. Скорее всего это означает, что Anthropic не хватает ресурсов для поддержания спроса, поэтому они начинают увеличивать количество одновременных генераций, что ведёт к падению скорости
5) А вот это прям новая для меня информация, посмотрите насколько меньше токенов нужно генерировать рассуждающим моделям Anthropic и OpenAI для того, чтобы висеть в топах бенчмарков. То есть они почти не тратят «слова» на ненужные рассуждения. Это влияет на выходную стоимость и на скорость: даже если номинально цена выше условной R1 (за миллион токенов), получение результата лучше может стоить дешевле — и происходить быстрее
Ещё в посте упоминали детали сделки OpenAI + Google: первые будут арендовать мощности у вторых, несмотря на то, что по сути они конкуренты. Однако речь идёт только о GPU, а не TPU (специальные чипы гугла)
6👍130🔥44🤔12👨💻8🤡2
Уже давно и много раз обсуждали, что LMArena теряет смысл — большая часть запросов достаточно общая, «от любителей», и даже маленькие модели научились на них достаточно неплохо отвечать. И это не говоря про то, что отдельные модели просто тюнят под арену, искусственно завышая оценку.
Одним из решений могут стать арены с куда меньшим набором участников (~сотня человек), которые являются экспертами в своих областях. Следуя этой идее Allen AI Institute представили SciArena — платформу для оценки моделей в задаче генерации ответа с опорой на литературу.
Сначала в ответ на запрос отрабатывает retrieval agent — агент, который находит 30 абзацев из разной научной литературы, которая может быть уместна для ответа. Эта часть одинакова для всех моделей, все входные данные одни и те же.
А дальше две случайные модели генерируют по источникам ответ, расставляя цитаты. Дальше есть стадия пост-процессинга, где унифицируется формат ответа / расставление цитат, но это не так интересно.
В итоге 102 доверенных исследователя, работающих в разных дисциплинах, суммарно сделали более 13000 запросов и отметили, какие из результатов им нравятся. OpenAI o3 сильно вырывается вперёд:
— 59% побед против C4 Opus
— 80% побед против Gemini 2.5 Pro
Авторы посмотрели 200 ответов о3, чтобы понять, почему так:
(1) более детальная проработка цитируемых статей: модель o3 последовательно предоставляет более глубокие объяснения и более богатые технические идеи, извлеченные из справочной литературы;
(2) более профессиональная и точная терминология: модель o3 имеет тенденцию использовать специфичный для предметной области словарь и технически точные формулировки, уменьшая двусмысленность и повышая ясность;
(3) четкое структурированное представление: ответы o3 лучше организованы, улучшая как читаемость, так и синтез сложной информации;
(4) более полный охват: для таких типов вопросов, как «Проблемы и ограничения» и «Оценка современного уровня техники», ответы o3 заметно более полны, охватывая более широкий круг вопросов, которые могут быть интересны пользователям.
Блогпост, статья
Одним из решений могут стать арены с куда меньшим набором участников (~сотня человек), которые являются экспертами в своих областях. Следуя этой идее Allen AI Institute представили SciArena — платформу для оценки моделей в задаче генерации ответа с опорой на литературу.
Сначала в ответ на запрос отрабатывает retrieval agent — агент, который находит 30 абзацев из разной научной литературы, которая может быть уместна для ответа. Эта часть одинакова для всех моделей, все входные данные одни и те же.
А дальше две случайные модели генерируют по источникам ответ, расставляя цитаты. Дальше есть стадия пост-процессинга, где унифицируется формат ответа / расставление цитат, но это не так интересно.
В итоге 102 доверенных исследователя, работающих в разных дисциплинах, суммарно сделали более 13000 запросов и отметили, какие из результатов им нравятся. OpenAI o3 сильно вырывается вперёд:
— 59% побед против C4 Opus
— 80% побед против Gemini 2.5 Pro
Авторы посмотрели 200 ответов о3, чтобы понять, почему так:
(1) более детальная проработка цитируемых статей: модель o3 последовательно предоставляет более глубокие объяснения и более богатые технические идеи, извлеченные из справочной литературы;
(2) более профессиональная и точная терминология: модель o3 имеет тенденцию использовать специфичный для предметной области словарь и технически точные формулировки, уменьшая двусмысленность и повышая ясность;
(3) четкое структурированное представление: ответы o3 лучше организованы, улучшая как читаемость, так и синтез сложной информации;
(4) более полный охват: для таких типов вопросов, как «Проблемы и ограничения» и «Оценка современного уровня техники», ответы o3 заметно более полны, охватывая более широкий круг вопросов, которые могут быть интересны пользователям.
Блогпост, статья
1👍189❤🔥43🔥24 18🤡14 5🌚3💩2🤔1
Уже совсем скоро, 14-го июля, из API исчезнет GPT-4.5, самая большая модель OpenAI. Будет ли она заменена на что-то более продвинутое (пятёрку? 😑 ) сразу или лишь в будущем — пока не ясно, но OpenAI вернулись из отпуска и готовы писать в твиттер работать
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍117🔥44🌚16🤣14 13❤🔥9💔4
1. OpenAI планируют на следующей неделе выложить модель, сравнимую с o3-mini, в открытый доступ.
2. OpenAI близки к запуску своего браузера, который призван конкурировать с Chrome. Браузер должен «коренным образом изменить способ, которым пользователи сёрфят интернет»
3. Через 6.5 часов xAI планируют показать Grok 4. Ожидания пока такие же, что и от Grok 3 (цитирую сообщения из лички): «покажут что самая лучшая модель, доступ по API будет неюзабельный, с нулевыми лимитами, а на всех выходящих после релиза модели бенчмарках Grok 4 будет внизу или хотя бы на уровне с уже доступными моделями». Но посмотрим, как пройдёт.
2. OpenAI близки к запуску своего браузера, который призван конкурировать с Chrome. Браузер должен «коренным образом изменить способ, которым пользователи сёрфят интернет»
3. Через 6.5 часов xAI планируют показать Grok 4. Ожидания пока такие же, что и от Grok 3 (цитирую сообщения из лички): «покажут что самая лучшая модель, доступ по API будет неюзабельный, с нулевыми лимитами, а на всех выходящих после релиза модели бенчмарках Grok 4 будет внизу или хотя бы на уровне с уже доступными моделями». Но посмотрим, как пройдёт.
1❤🔥115👍80 48🤣22🌚13🔥8💩6🤡3👨💻3 3
Из свежего поста Astralcodexten:
===
Сам же пост - про трёхлетнюю ставку на развитие text-2-image моделей, которые будут гораздо точнее следовать промптам и соблюдать заданную композицию (чего, по мнению оппонента, не произойдёт, ведь модели - тупые попугаи).
Хорошо описывает прогресс и развитие за последние годы, есть над чем посмеяться (над старыми моделями).
Мы всё ещё ведем тот же спор: является ли ИИ «стохастическим попугаем», который никогда не сможет выйти за рамки «простого сопоставления шаблонов» в область «реального понимания».
Моя позиция всегда заключалась в том, что фундаментальной разницы нет: вы просто переходите от сопоставления поверхностных шаблонов к более глубоким, и когда шаблоны настолько глубоки, насколько могут сопоставить люди, мы называем это «реальным пониманием». Сейчас это не совсем так — существует определённая форма мыслительной деятельности, которую люди всё ещё выполняют гораздо лучше, чем ИИ, — но, опять же, это (большая) разница в степени, а не в природе.
===
Сам же пост - про трёхлетнюю ставку на развитие text-2-image моделей, которые будут гораздо точнее следовать промптам и соблюдать заданную композицию (чего, по мнению оппонента, не произойдёт, ведь модели - тупые попугаи).
Хорошо описывает прогресс и развитие за последние годы, есть над чем посмеяться (над старыми моделями).
2👍114🔥24❤🔥14 7 2👎1
Forwarded from БлоGнот
xAI впервые вышла в лидеры рынка ИИ — Grok 4 набрал 73 балла в Intelligence Index, опередив o3 (70), Gemini 2.5 Pro (70) и Claude 4 Opus (64). Это первый случай, когда модель не из "большой тройки" (OpenAI, Google, Anthropic) занимает первое место в комплексном рейтинге Artificial Analysis.
Grok 4 показал рекордные 88% в GPQA Diamond и 94% в AIME 2024. Это reasoning-модель, которая "думает" перед ответом, хотя сами токены рассуждений через API не передаются.
Цена $3/$15 за миллион входящих/исходящих токенов идентична Claude 4 Sonnet, но выше чем у Gemini 2.5 Pro ($1.25/$10) и o3 ($2/$8). Скорость 75 токенов в секунду уступает o3 (188) и Gemini 2.5 Pro (142), но опережает Claude 4 Opus Thinking (66).
Контекстное окно 256K токенов — меньше чем у Gemini 2.5 Pro (1M), но больше чем у конкурентов (200K у Claude и o3, 128K у R1). Поддерживает текст, изображения, вызовы функций и структурированные выходы. Правда, Маск прямо на презентации признал, что модель пока плохо справляется с мультимодальным режимом, но это будет исправлено в будущем.
https://x.com/artificialanlys/status/1943166841150644622
Grok 4 показал рекордные 88% в GPQA Diamond и 94% в AIME 2024. Это reasoning-модель, которая "думает" перед ответом, хотя сами токены рассуждений через API не передаются.
Цена $3/$15 за миллион входящих/исходящих токенов идентична Claude 4 Sonnet, но выше чем у Gemini 2.5 Pro ($1.25/$10) и o3 ($2/$8). Скорость 75 токенов в секунду уступает o3 (188) и Gemini 2.5 Pro (142), но опережает Claude 4 Opus Thinking (66).
Контекстное окно 256K токенов — меньше чем у Gemini 2.5 Pro (1M), но больше чем у конкурентов (200K у Claude и o3, 128K у R1). Поддерживает текст, изображения, вызовы функций и структурированные выходы. Правда, Маск прямо на презентации признал, что модель пока плохо справляется с мультимодальным режимом, но это будет исправлено в будущем.
https://x.com/artificialanlys/status/1943166841150644622
X (formerly Twitter)
Artificial Analysis (@ArtificialAnlys) on X
xAI gave us early access to Grok 4 - and the results are in. Grok 4 is now the leading AI model.
We have run our full suite of benchmarks and Grok 4 achieves an Artificial Analysis Intelligence Index of 73, ahead of OpenAI o3 at 70, Google Gemini 2.5 Pro…
We have run our full suite of benchmarks and Grok 4 achieves an Artificial Analysis Intelligence Index of 73, ahead of OpenAI o3 at 70, Google Gemini 2.5 Pro…
1🔥202👍71❤🔥19 10🤔9 7
Нашёл интересный график. Есть такой бенчмарк, GPQA, в нём достаточно сложные вопросы (...были) и 4 варианта ответа, из которых надо выбрать. По сути, тест.
Насколько проседают модели, если не давать им варианты ответа и просить выбрать, а просто давать генерировать решение и ответ, а затем извлекать его и проверять?
Модели, ожидаемо, проседают, но из списка всех LLM, которые протестировали авторы, в топе o4-mini-high, а Grok 4 внезапно падает даже ниже Grok 3 mini.
Источник
Насколько проседают модели, если не давать им варианты ответа и просить выбрать, а просто давать генерировать решение и ответ, а затем извлекать его и проверять?
Модели, ожидаемо, проседают, но из списка всех LLM, которые протестировали авторы, в топе o4-mini-high, а Grok 4 внезапно падает даже ниже Grok 3 mini.
Источник
2👍120🌚46🔥22 17🤔8🤡7💩4 3❤🔥2👎1
В фильмах/играх/сериалах про зомби мне нравится смотреть на описание того, как мир спотыкается и валится в пропасть . Попросил o3/o3-pro/4.5 накидать список, где момент самого начала зомби‑апокалипсиса поставлен особенно зрелищно, напряжённо и запоминается именно тем чувством «мир рушится прямо сейчас». Ниже — микс из нескольких ответов с моей фильтрацией (в случайном порядке):
1. 28 Days / Weeks Later (не смотрел, откладывал на будущее)
2. The Last of Us (начало сериала, хотя серия про геев-выживальщиков тоже частично описывает начало апокалипсиса)
3. Dawn of the Dead (не смотрел, добавил себе)
4. Train to Busan
5. World War Z
6. Telltale’s The Walking Dead
7. Fear the Walking Dead (даже не знал что такое есть, гляну «S1E1 Pilot, последняя треть эпизода + S1E3 уличные беспорядки»)
А что больше всего нравится вам? (можно не из списка)
1. 28 Days / Weeks Later (не смотрел, откладывал на будущее)
2. The Last of Us (начало сериала, хотя серия про геев-выживальщиков тоже частично описывает начало апокалипсиса)
3. Dawn of the Dead (не смотрел, добавил себе)
4. Train to Busan
5. World War Z
6. Telltale’s The Walking Dead
7. Fear the Walking Dead (даже не знал что такое есть, гляну «S1E1 Pilot, последняя треть эпизода + S1E3 уличные беспорядки»)
А что больше всего нравится вам? (можно не из списка)
👎120👍39🤔36🤣14💩10🤡5🌚5
На неделе MoonshotAI представили Kimi-K2, огромную модель на 1 триллион параметров, оптимизированную на агентские задачи. По архитектуре модель фактически повторяет DeepSeek V3 со слегка изменёнными некоторыми параметрами в конфигурации.
Модель как бы не обучена рассуждать, поэтому авторы сравнивают её с non-thinking вариантами других моделей, но как по мне это лукавство. K2 была дообучена с RLVR и с инструментами во время ответа. Но числа на бенчмарках всё равно впечатляют. Чуть больше можно почитать, например, в соседнем канале.
(тут не могу не вспомнить, что META всё ещё не выпустила рассуждающую модель😀 😀 😀 и агентскую тоже. Ну ща, исследователи купят домики на бонусы и начнут работать, ждём LLAMA-5)
Так вот, почему пишу пост. Из технического блога хотел поделиться тремя вещами:
1. Узнал про ACEBench, духовного наследника крутого τ -Bench. В обоих бенчмарках есть симулируемый пользователь, который ведёт диалог с LLM, которую оценивают. Этакое прокси к real world usage, позволяющее проводить не статическую оценку. Статью почитаю, разбор не обещаю.
2. Авторы кратко рассказывают, как делают Agentic Capabilities в K2 — они как раз, вдохновились ACEBench. Пайплайн изображён на картинке, почитать подробнее тут. Важно, что вся оценка перформанса основана на рубриках. Рубрики — это инструкции, описывающие, как нужно оценить ответ с разных сторон. Оценка проводится самой LLM по этой инструкции. OpenAI, да и другие игроки, почти наверняка идут таким же путём. Думаю, что у кого качественнее и дайверснее рубрики — тот и будет делать круче модели, прокачивая рассуждения во всё большем и большем количестве доменов.
3. Демки агентских способностей на сайте! Обязательно зайдите и потыкайте, выглядит очень прикольно, как из одного простого промпта собирается целая игра или сайт, которые выглядят неплохо. Попробую сам потыкать (используя API, конечно — где мне 1T модель развернуть?).
Дракон удар🇨🇳
Модель как бы не обучена рассуждать, поэтому авторы сравнивают её с non-thinking вариантами других моделей, но как по мне это лукавство. K2 была дообучена с RLVR и с инструментами во время ответа. Но числа на бенчмарках всё равно впечатляют. Чуть больше можно почитать, например, в соседнем канале.
(тут не могу не вспомнить, что META всё ещё не выпустила рассуждающую модель
Так вот, почему пишу пост. Из технического блога хотел поделиться тремя вещами:
1. Узнал про ACEBench, духовного наследника крутого τ -Bench. В обоих бенчмарках есть симулируемый пользователь, который ведёт диалог с LLM, которую оценивают. Этакое прокси к real world usage, позволяющее проводить не статическую оценку. Статью почитаю, разбор не обещаю.
2. Авторы кратко рассказывают, как делают Agentic Capabilities в K2 — они как раз, вдохновились ACEBench. Пайплайн изображён на картинке, почитать подробнее тут. Важно, что вся оценка перформанса основана на рубриках. Рубрики — это инструкции, описывающие, как нужно оценить ответ с разных сторон. Оценка проводится самой LLM по этой инструкции. OpenAI, да и другие игроки, почти наверняка идут таким же путём. Думаю, что у кого качественнее и дайверснее рубрики — тот и будет делать круче модели, прокачивая рассуждения во всё большем и большем количестве доменов.
3. Демки агентских способностей на сайте! Обязательно зайдите и потыкайте, выглядит очень прикольно, как из одного простого промпта собирается целая игра или сайт, которые выглядят неплохо. Попробую сам потыкать (используя API, конечно — где мне 1T модель развернуть?).
Дракон удар
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥48👍26🔥14👎2🤯2 2
Три картинки из свежего блога Semianalysis:
1. Самые крупные датацентры для тренировки моделей на конец 2026-го года. По плану, META запустит Prometheus. Где-то в параллель будет достраиваться Hyperion с прицелом на сдачу в конце 2027-го.
2. Самые крупные тренировочные кластеры для моделей следующего поколения и динамика их добавления у разных компаний.
3. Датацентр в палатках, META перенимает эстафету быстрого запуска мощностей у xAI и Elon Musk: В этом проекте главное не красота или избыточность, а быстрота добавления новых GPU в систему.
===
Так что META может стать тир-1 игроком в GenAI на рубеже '26-'27-ых годов: талант получен, мощности обеспечены, осталось экзекутить.
1. Самые крупные датацентры для тренировки моделей на конец 2026-го года. По плану, META запустит Prometheus. Где-то в параллель будет достраиваться Hyperion с прицелом на сдачу в конце 2027-го.
2. Самые крупные тренировочные кластеры для моделей следующего поколения и динамика их добавления у разных компаний.
3. Датацентр в палатках, META перенимает эстафету быстрого запуска мощностей у xAI и Elon Musk: В этом проекте главное не красота или избыточность, а быстрота добавления новых GPU в систему.
===
Так что META может стать тир-1 игроком в GenAI на рубеже '26-'27-ых годов: талант получен, мощности обеспечены, осталось экзекутить.
🤯65🔥32🌚10 5🤔3 3👍2🤡1
Впервые за 2 с копейкой года использования макбука на M2 Max услышал, как работает система охлаждения. Причиной стало выполнение команды 🤦♂️
видимо, пора переходить на M4...
pip install duckdb
и попытка Building wheel for duckdb
Please open Telegram to view this post
VIEW IN TELEGRAM