Сиолошная

Принёс интересной инфографики в картинках и таблицах из свежего поста SemiAnalysis:

1) изменение в веб-трафике между февралём и маем 2025-го. DeepSeek единственный, кто просел, а прирост OpenAI хоть и не кажется значительным в процентах (из-за высокой базы), но в абсолютах обгоняет всех остальных вместе взятых

2) Доля API DeepSeek в генерации токенов их же моделей (по данным OpenRouter). То есть из всех токенов R1/V3 лишь 16% приносят деньги китайской компании

3) Почему? Потому что у других провайдеров за ту же цену можно найти генерацию быстрее.

4) Падение скорости генерации Claude Sonnet 4 с момента релиза. Скорее всего это означает, что Anthropic не хватает ресурсов для поддержания спроса, поэтому они начинают увеличивать количество одновременных генераций, что ведёт к падению скорости

5) А вот это прям новая для меня информация, посмотрите насколько меньше токенов нужно генерировать рассуждающим моделям Anthropic и OpenAI для того, чтобы висеть в топах бенчмарков. То есть они почти не тратят «слова» на ненужные рассуждения. Это влияет на выходную стоимость и на скорость: даже если номинально цена выше условной R1 (за миллион токенов), получение результата лучше может стоить дешевле — и происходить быстрее

Ещё в посте упоминали детали сделки OpenAI + Google: первые будут арендовать мощности у вторых, несмотря на то, что по сути они конкуренты. Однако речь идёт только о GPU, а не TPU (специальные чипы гугла)

6👍130🔥44🤔12👨‍💻8🤡2

28.4K views18:43

Сиолошная

Уже давно и много раз обсуждали, что LMArena теряет смысл — большая часть запросов достаточно общая, «от любителей», и даже маленькие модели научились на них достаточно неплохо отвечать. И это не говоря про то, что отдельные модели просто тюнят под арену, искусственно завышая оценку.

Одним из решений могут стать арены с куда меньшим набором участников (~сотня человек), которые являются экспертами в своих областях. Следуя этой идее Allen AI Institute представили SciArena — платформу для оценки моделей в задаче генерации ответа с опорой на литературу.

Сначала в ответ на запрос отрабатывает retrieval agent — агент, который находит 30 абзацев из разной научной литературы, которая может быть уместна для ответа. Эта часть одинакова для всех моделей, все входные данные одни и те же.

А дальше две случайные модели генерируют по источникам ответ, расставляя цитаты. Дальше есть стадия пост-процессинга, где унифицируется формат ответа / расставление цитат, но это не так интересно.

В итоге 102 доверенных исследователя, работающих в разных дисциплинах, суммарно сделали более 13000 запросов и отметили, какие из результатов им нравятся. OpenAI o3 сильно вырывается вперёд:
— 59% побед против C4 Opus
— 80% побед против Gemini 2.5 Pro

Авторы посмотрели 200 ответов о3, чтобы понять, почему так:
(1) более детальная проработка цитируемых статей: модель o3 последовательно предоставляет более глубокие объяснения и более богатые технические идеи, извлеченные из справочной литературы;
(2) более профессиональная и точная терминология: модель o3 имеет тенденцию использовать специфичный для предметной области словарь и технически точные формулировки, уменьшая двусмысленность и повышая ясность;
(3) четкое структурированное представление: ответы o3 лучше организованы, улучшая как читаемость, так и синтез сложной информации;
(4) более полный охват: для таких типов вопросов, как «Проблемы и ограничения» и «Оценка современного уровня техники», ответы o3 заметно более полны, охватывая более широкий круг вопросов, которые могут быть интересны пользователям.

Блогпост, статья

1👍189❤‍🔥43🔥2418🤡145🌚3💩2🤔1

26.3K views22:21

Сиолошная

Уже совсем скоро, 14-го июля, из API исчезнет GPT-4.5, самая большая модель OpenAI. Будет ли она заменена на что-то более продвинутое (пятёрку? 😑) сразу или лишь в будущем — пока не ясно, но OpenAI вернулись из отпуска и готовы ~~писать в твиттер~~ работать

Please open Telegram to view this post

VIEW IN TELEGRAM

7👍117🔥44🌚16🤣1413❤‍🔥9💔4

23.7K views16:56

Сиолошная

1. OpenAI планируют на следующей неделе выложить модель, сравнимую с o3-mini, в открытый доступ.
2. OpenAI близки к запуску своего браузера, который призван конкурировать с Chrome. Браузер должен «коренным образом изменить способ, которым пользователи сёрфят интернет»
3. Через 6.5 часов xAI планируют показать Grok 4. Ожидания пока такие же, что и от Grok 3 (цитирую сообщения из лички): «покажут что самая лучшая модель, доступ по API будет неюзабельный, с нулевыми лимитами, а на всех выходящих после релиза модели бенчмарках Grok 4 будет внизу или хотя бы на уровне с уже доступными моделями». Но посмотрим, как пройдёт.

1❤‍🔥115👍8048🤣22🌚13🔥8💩6🤡3👨‍💻33

24.9K views20:26

Сиолошная

Из свежего поста Astralcodexten:

Мы всё ещё ведем тот же спор: является ли ИИ «стохастическим попугаем», который никогда не сможет выйти за рамки «простого сопоставления шаблонов» в область «реального понимания».

Моя позиция всегда заключалась в том, что фундаментальной разницы нет: вы просто переходите от сопоставления поверхностных шаблонов к более глубоким, и когда шаблоны настолько глубоки, насколько могут сопоставить люди, мы называем это «реальным пониманием». Сейчас это не совсем так — существует определённая форма мыслительной деятельности, которую люди всё ещё выполняют гораздо лучше, чем ИИ, — но, опять же, это (большая) разница в степени, а не в природе.

===

Сам же пост - про трёхлетнюю ставку на развитие text-2-image моделей, которые будут гораздо точнее следовать промптам и соблюдать заданную композицию (чего, по мнению оппонента, не произойдёт, ведь модели - тупые попугаи).

Хорошо описывает прогресс и развитие за последние годы, есть над чем посмеяться (над старыми моделями).

2👍114🔥24❤‍🔥1472👎1

20.6K views08:30

Сиолошная

Forwarded from БлоGнот

xAI впервые вышла в лидеры рынка ИИ — Grok 4 набрал 73 балла в Intelligence Index, опередив o3 (70), Gemini 2.5 Pro (70) и Claude 4 Opus (64). Это первый случай, когда модель не из "большой тройки" (OpenAI, Google, Anthropic) занимает первое место в комплексном рейтинге Artificial Analysis.

Grok 4 показал рекордные 88% в GPQA Diamond и 94% в AIME 2024. Это reasoning-модель, которая "думает" перед ответом, хотя сами токены рассуждений через API не передаются.

Цена $3/$15 за миллион входящих/исходящих токенов идентична Claude 4 Sonnet, но выше чем у Gemini 2.5 Pro ($1.25/$10) и o3 ($2/$8). Скорость 75 токенов в секунду уступает o3 (188) и Gemini 2.5 Pro (142), но опережает Claude 4 Opus Thinking (66).

Контекстное окно 256K токенов — меньше чем у Gemini 2.5 Pro (1M), но больше чем у конкурентов (200K у Claude и o3, 128K у R1). Поддерживает текст, изображения, вызовы функций и структурированные выходы. Правда, Маск прямо на презентации признал, что модель пока плохо справляется с мультимодальным режимом, но это будет исправлено в будущем.

https://x.com/artificialanlys/status/1943166841150644622

X (formerly Twitter)

Artificial Analysis (@ArtificialAnlys) on X

xAI gave us early access to Grok 4 - and the results are in. Grok 4 is now the leading AI model.

We have run our full suite of benchmarks and Grok 4 achieves an Artificial Analysis Intelligence Index of 73, ahead of OpenAI o3 at 70, Google Gemini 2.5 Pro…

1🔥202👍71❤‍🔥1910🤔97

18.7K views19:37

Сиолошная

Нашёл интересный график. Есть такой бенчмарк, GPQA, в нём достаточно сложные вопросы (...были) и 4 варианта ответа, из которых надо выбрать. По сути, тест.

Насколько проседают модели, если не давать им варианты ответа и просить выбрать, а просто давать генерировать решение и ответ, а затем извлекать его и проверять?

Модели, ожидаемо, проседают, но из списка всех LLM, которые протестировали авторы, в топе o4-mini-high, а Grok 4 внезапно падает даже ниже Grok 3 mini.

Источник

2👍120🌚46🔥2217🤔8🤡7💩43❤‍🔥2👎1

17.8K views20:20

Сиолошная

В фильмах/играх/сериалах про зомби мне нравится смотреть на описание того, как мир спотыкается и валится в пропасть . Попросил o3/o3-pro/4.5 накидать список, где момент самого начала зомби‑апокалипсиса поставлен особенно зрелищно, напряжённо и запоминается именно тем чувством «мир рушится прямо сейчас». Ниже — микс из нескольких ответов с моей фильтрацией (в случайном порядке):

1. 28  Days  / Weeks Later (не смотрел, откладывал на будущее)
2. The  Last of Us (начало сериала, хотя серия про геев-выживальщиков тоже частично описывает начало апокалипсиса)
3. Dawn of  the  Dead (не смотрел, добавил себе)
4. Train  to  Busan
5. World  War  Z
6. Telltale’s The  Walking  Dead
7. Fear the Walking Dead (даже не знал что такое есть, гляну «S1E1 Pilot, последняя треть эпизода + S1E3 уличные беспорядки»)

А что больше всего нравится вам? (можно не из списка)

👎120👍39🤔36🤣14💩10🤡5🌚5

14.2K views12:09

Сиолошная

На неделе MoonshotAI представили Kimi-K2, огромную модель на 1 триллион параметров, оптимизированную на агентские задачи. По архитектуре модель фактически повторяет DeepSeek V3 со слегка изменёнными некоторыми параметрами в конфигурации.

Модель как бы не обучена рассуждать, поэтому авторы сравнивают её с non-thinking вариантами других моделей, но как по мне это лукавство. K2 была дообучена с RLVR и с инструментами во время ответа. Но числа на бенчмарках всё равно впечатляют. Чуть больше можно почитать, например, в соседнем канале.

(тут не могу не вспомнить, что META всё ещё не выпустила рассуждающую модель 😀

😀

😀 и агентскую тоже. Ну ща, исследователи купят домики на бонусы и начнут работать, ждём LLAMA-5)

Так вот, почему пишу пост. Из технического блога хотел поделиться тремя вещами:

1. Узнал про ACEBench, духовного наследника крутого τ -Bench. В обоих бенчмарках есть симулируемый пользователь, который ведёт диалог с LLM, которую оценивают. Этакое прокси к real world usage, позволяющее проводить не статическую оценку. Статью почитаю, разбор не обещаю.

2. Авторы кратко рассказывают, как делают Agentic Capabilities в K2 — они как раз, вдохновились ACEBench. Пайплайн изображён на картинке, почитать подробнее тут. Важно, что вся оценка перформанса основана на рубриках. Рубрики — это инструкции, описывающие, как нужно оценить ответ с разных сторон. Оценка проводится самой LLM по этой инструкции. OpenAI, да и другие игроки, почти наверняка идут таким же путём. Думаю, что у кого качественнее и дайверснее рубрики — тот и будет делать круче модели, прокачивая рассуждения во всё большем и большем количестве доменов.

3. Демки агентских способностей на сайте! Обязательно зайдите и потыкайте, выглядит очень прикольно, как из одного простого промпта собирается целая игра или сайт, которые выглядят неплохо. Попробую сам потыкать (используя API, конечно — где мне 1T модель развернуть?).

Дракон удар 🇨🇳

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥48👍26🔥14👎2🤯22

12.7K viewsedited 14:13

Сиолошная

Kimi-VL

🤣3914🌚5👎11

12.8K views14:14

Сиолошная

Три картинки из свежего блога Semianalysis:

1. Самые крупные датацентры для тренировки моделей на конец 2026-го года. По плану, META запустит Prometheus. Где-то в параллель будет достраиваться Hyperion с прицелом на сдачу в конце 2027-го.

2. Самые крупные тренировочные кластеры для моделей следующего поколения и динамика их добавления у разных компаний.

3. Датацентр в палатках, META перенимает эстафету быстрого запуска мощностей у xAI и Elon Musk: В этом проекте главное не красота или избыточность, а быстрота добавления новых GPU в систему.

===

Так что META может стать тир-1 игроком в GenAI на рубеже '26-'27-ых годов: талант получен, мощности обеспечены, осталось экзекутить.

🤯65🔥32🌚105🤔33👍2🤡1

7.84K views20:24

Сиолошная

Впервые за 2 с копейкой года использования макбука на M2 Max услышал, как работает система охлаждения. Причиной стало выполнение команды pip install duckdb и попытка Building wheel for duckdb

🤦‍♂️

~~видимо, пора переходить на M4...~~

Please open Telegram to view this post

VIEW IN TELEGRAM

27🤣6🌚4🤔2

2.02K views00:20

2025/07/14 01:58:10
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>