Telegram Web Link
А вот и бенчи DeepSeek R1 0528

Прокачали знатно — модель теперь уверенно обходит Qwen 3 235B, но отстаёт от Gemini 2.5 Pro и o3, хоть и не так сильно. Прирост во многом объясняется выросшим количеством размышлений — в среднем 23к токенов, против 12к токенов у прошлой версии. Кроме прокачки по бенчам, модель теперь меньше галлюцинирует и лучше делает фронтенд (но до клода очевидно не дотягивает).

Кроме релиза большой версии, цепочки рассуждений из новой DeepSeek R1 дистиллировали в Qwen 3 8B. После такого тюна модель стала заметно лучше на математических бенчах. Уже можно скачать с 🤗.

Большая модель
8B дистил

@ai_newz
Сегодня GPT-3 исполнилось пять лет

Хороший повод вспомнить насколько всё сильно изменилось за эти пять лет. Старушка GPT-3 это LLM на 175 миллиардов параметров, с датасетом всего лишь в 300 миллиардов токенов и длиной контекста в 2048 токенов. Со времени релиза размеры датасетов и длина контекста выросли многократно — Qwen 3 тренировали на 36 триллионах токенов, а у последних версий Gemini и GPT 4.1 по миллиону токенов контекста.

Сейчас у нас есть модели со в сто раз меньшим количеством параметров и с уровнем интеллекта на уровне GPT-3, благодаря росту размеров и качества датасетов. Но эти новые модели умеют гораздо больше. У новых моделей всё чаще есть мультимодальность причём часто не только на вход, но и на выход — модели могут не только понимать, но и нативно генерировать изображения и звук.

Но самое главное — кардинально изменился подход к обучению. Если GPT-3 была чисто авторегрессионной моделью, предсказывающей следующий токен, то современные модели проходят через сложный процесс посттрейна. Их учат следовать инструкциям, отвечать на вопросы и выполнять задачи, а не просто продолжать текст. RLHF и подобные методы сделали модели полезными ассистентами, а не генераторами правдоподобного текста. Но на этом всё не остановилось — за последний год многие модели научили ризонингу, за чем последовал огромный прогресс в верифицируемых доменах вроде кода и математики.

Изменилось и то, как мы используем эти модели. GPT-3 умела только генерировать текст, а современные LLM стали полноценными агентами. Они могут хорошо искать в интернете, вызывают функции и API, пишут и исполняют код прямо в процессе ответа. Function calling и протоколы вроде MCP дали возможность моделям не просто рассказать как решить задачу, но и решить её — написать код, запустить его, проанализировать результаты и исправить ошибки.

Параллельно произошла революция в железе. В 2020 году кластер OpenAI из 10 тысяч V100 считался очень большим. Сегодня xAI планирует кластер на миллион GPU, для OpenAI строят Stargate, а другие компании рутинно оперируют сотнями тысяч ускорителей. Но дело не только в масштабе — изменился сам подход к вычислениям. Модели теперь тренируют в fp8, тогда как даже в 2020 году очень часто использовали fp32, но и это не предел — первые эксперименты с fp4 показывают многообещающие результаты (тык, тык). Агрессивная квантизация позволила запускать модели в 4 битах практически без потери качества, сжав их в разы.

И что особенно важно — всё это стало доступным. Если GPT-3 был закрытым API за деньги, то сегодня модели уровня GPT-3.5 можно запустить на своём телефоне. Open-source сообщество догоняет корпорации, а инструменты для файнтюнинга позволяют адаптировать модели под любые задачи. AI перестал быть игрушкой для избранных и реально стал массовым.

Вот э тайм ту би элайв!

@ai_newz
Помните как Claude 4 уведомлял власти если видел серьёзное правонарушение?

После выхода system card многие возмутились — ведь LLM всё ещё часто галлюцинируют и могут что-то не так понять, а потом разбирайся с органами. Но когда такой же промпт попробовали дать другим моделям, они, внезапно, тоже начали стучать регуляторам. Но это не замечали, потому что лишь Anthropic решили протестировать модель на такое.

Из этого всего сделали даже шуточный бенчмарк — Snitch Bench, который проверяет насколько часто модель будет пытаться уведомлять регуляторов, если увидит (якобы) серьёзное правонарушение. Больше всех закрывает глаза на преступления o4-mini, а вот мимо последних Claude и Gemini 2.0 Flash уже не пройдёшь.

Бенч

@ai_newz
Нейродайджест за неделю (#71)

LLM
- DeepSeek R1 обновили — теперь обходит Qwen 3 235B, но всё ещё за Gemini 2.5 Pro и o3. Больше размышляет и меньше галлюцинирует. Есть дистиллированная 8B версия.
- Grok интегрируют в Telegram — по заявлению Павла Дурова, летом появится глубокая интеграция Telegram получит $300m и долю в xAI. Сделка ещё не подписана, но вроде её собираются скоро подписать.
- GPT-3 стукнуло 5 лет — большой разбор того, как далеко шагнули LLM за эти годы: от 175B параметров и 2k контекста до мультимодальности, агентов, RLHF, и опенсорса, доступного каждому.

Железо
- NVIDIA готовит китайские GPU — B40/6000D на Blackwell, но с порезанными спеками, чтобы обойти санкции США.

Ликбез
- Стэнфордский курс по LLM — CS336 "Language Modeling from Scratch": от сбора данных до развертывания. Все материалы, код и лекции в открытом доступе. Практика с Transformer, FlashAttention 2 и RL.

Интересное
- Snitch Bench: кто из LLM стучит чаще? — после истории с Claude 4, который уведомлял власти, создали шуточный бенчмарк. Проверяет, как часто модели сообщают о (мнимых) правонарушениях. o4-mini самый лояльный, а последние Claude и Gemini 2.0 Flash — самые бдительные.

> Читать дайджест #70

#дайджест
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI дают доступ к Codex подписчикам Plus

Доступ уже раскатывают, лимиты "щедрые", но во время высокой нагрузки их будут резать для Plus юзеров. Ещё докинули кучу quality of life фич — агенту теперь можно давать указания голосом и включить доступ к интернету. Плюс Codex теперь не будет спамить пулреквестами, а сможет обновлять существующие.

chatgpt.com/codex

@ai_newz
Claude Code теперь доступен подписчикам Pro (план за $20)

Лимиты должны позволить Claude 4 Sonnet работать в небольших кодбазах час-два, лимиты сбрасываются каждые 5 часов. Opus остаётся прерогативой Max плана ($100/$200), как и повышенные рейтлимиты. Конкуренция работает — вчера OpenAI дали доступ к Codex для Plus подписчиков, а сегодня Anthropic отвечает.

Для того чтобы начать использовать нужно установить CLI тулу и залогиниться туда со своим аккаунтом Anthropic. А результаты своего вайбкодинга с Claude Code можете скидывать в комменты.

npm install -g @anthropic-ai/claude-code


@ai_newz
Gemini 2.5 Pro обновили

Сильный прирост по бенчам, Gemini 2.5 Pro теперь обходит текущую версию o3. Модель уже доступна в ai.studio, по первым ощущениям мне она нравится больше чем более ранние версии — по крайней мере она слушается когда просишь её не спамить код комментами. А ещё, как и 2.5 Flash, это гибридная модель, у которой можно устанавливать бюджет на ризонинг. Генерацию изображений для Gemini Pro так и не завезли.

@ai_newz
Создатели Cursor привлекли $900m по оценке в $9.9B

У них всё хорошо — вчера вышла версия 1.0 редактора, куда добавили память и возможность агенту пользоваться Jupyter Notebooks. Компания довольно агрессивно хантит, утащили даже лида разработки моделей из Midjourney. Но они могут себе это позволить — проецируемая выручка превысила $500m в год, правда непонятно сколько из этих денег идёт в карман провайдеров моделей.

А тем временем у главного конкурента Cursor, Windsurf, проблемы — Anthropic забирают доступ к своему API. Дело в поглощении Windsurf OpenAI — слухи о сделке ходят уже больше месяца, хоть и никакого подтверждения закрытия сделки не было. Видимо Anthropic уверенны что сделка состоится — "Было бы странно если бы мы продавали OpenAI доступ к Claude", прокомментировал Джаред Каплан, Chief Science Officer в Anthropic.

@ai_newz
Нейродайджест за неделю (#72)

Инструменты для (вайб)кодинга

- OpenAI открыли Codex для Plus подписчиков — "щедрые" лимиты с урезанием при высокой нагрузке. Добавили голосовые команды, доступ к интернету и возможность обновлять существующие PR вместо спама новыми.
- Claude Code для Pro подписчиков — ответ Anthropic на ход OpenAI. План за $20 даёт доступ к Claude 4 Sonnet для работы в небольших кодбазах 1-2 часа, лимиты сбрасываются каждые 5 часов. Opus остаётся только для Max плана ($100/$200).
- Создатели Cursor закрыли ещё раунд — вышла версия 1.0 с памятью и поддержкой Jupyter. Выручка превысила $500m/год. У конкурента Windsurf проблемы: Anthropic забирают API из-за возможного поглощения OpenAI.

LLM
- Gemini 2.5 Pro обновили — сильный прирост по бенчам, теперь обходит текущую версию o3. Гибридная модель с настраиваемым бюджетом на reasoning. Доступна в AI Studio.

Читать дайджест #71

#дайджест
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Камбэк Рокета

Банк закрылся ещё в 21 году, но теперь с двух ног готов вернуться в игру. На своем лендинге они оставили заметки разработчиков, в которых размышляют об умной аналитике финансов, кастомизируемом интерфейсе.

Аналитика финансов звучит интересно — excel уже как-то поднадоел, плюс вручную все вбивать. В других банках вроде бы есть что-то похожее, но данные отображаются криво, и сложно оценить реальные траты. В общем, нормальных решений пока не нашлось (есть, конечно всякие приложеньки, но это все не то...).

Ну а полная кастомизация звучит как дикая песочница. Вот бы был свой Linux среди банков.

И вишенка на торте — это рекомендации. Куда же без них, но концепт интересный с точки зрения того, что только у банка есть инфа о том, на что вы реально тратите деньги. Так что в теории эти рекомендации должны быть полезными (во всяком случае, точно полезнее ленты в Тиктоке).

Все это пока лишь размышления Рокета, но вектор мысли интересный. Посмотрим, что будет дальше.

@ai_newz
эйай ньюз
Video message
CVPR 2025

Коротко, что это за конференция: CVPR — самая крупная и самая престижная конференция по компьютерному зрению и AI. У нее самый высокий импакт-фактор среди всех конференций и журналов (вообще), выше нее только публикация в журнале Nature.

2-3 публикации на CVPR обычно гарантируют автору защиту PhD диссертации.

На нее съезжаются учёные и инженеры со всего мира, чтобы показать новые идеи и модели. Часто там появляются технологии, которые потом становятся важными для всей индустрии. Спонсируется все это дело Биг-Техом и стартапами поменьше. На воркошопах и туториалах выступают топовые ученые, там можно встретить и Яна ЛеКуна, и Шмидхубера, и других.

[Серия постов про мою поездку на CVPR 2023]

--

Кроме докладов и постеров, самая интересная часть любой конференции – это конечно же нетворкинг.
[Пост про то как нетворкать на конференциях]

⭐️Я уже в пути, на конфе буду презентовать 2 статьи. Поэтому, если вы тоже будете в Нэшвилле на этой неделе, то залетайте в чатик, будем знакомиться. Я как всегда буду организовывать CVPR эйай-ньюз тусу: ссылка на чат.

#конфа
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Тем временем прошла WWDC от Apple

Самая интересная ИИ фича с WWDC — Foundation Models Framework

Apple теперь дают доступ к LLM в Apple Intelligence сторонним разработчикам. Хоть и LLM у эппла не лучшие, но они доступны оффлайн, на куче устройств и абсолютно бесплатно. Из фич в фреймворке доступен как минимум тулюз и guided generation, подробности расскажут чуть позже.

Бета доступна разработчикам уже сегодня. Хороший такой способ неплохо сэкономить на API костах и проще интегрировать LLM в приложения (чтобы начать использовать фреймворк нужно всего лишь три строчки кода на Swift).

Блогпост

@ai_newz
Magistral — Mistral наконец-то сделали ризонера

И сразу же стало понятно почему они так медлили — это катастрофа. Magistral Medium не может обогнать даже январскую DeepSeek R1 в одинаковых условиях, что уже говорить про R1-0528, которую они не могут догнать даже с maj@64. Доступна модель лишь в API, при цене в $2/$5 за миллион токенов, то есть она дороже o4-mini ($1.1/$4.4) и почти на уровне новых цен на o3 ($2/$8), а это всё модели на голову или две лучше.

Выпустили они и открытую модель — Magistral Small, 24B модель, которая отстаёт на большинстве бенчей даже от Qwen 3 8B (8B просто не замеряли на Aider, так что обогняет ли она Magistral и там непонятно). А ведь существуют и Qwen 3 побольше.

Из хорошего — они опубликовали пейпер о тренировке модели, где довольно детально описали процесс тренировки. А благодаря партнёрству с Cerebras, в LeChat Magistral работает крайне быстро — больше 1000 токенов в секунду (правда бесплатным юзерам дают лишь 3 таких запроса в день).

UPD: Magistral Medium тренировали исключительно при помощи RL, без SFT, так что сравнивать её стоит скорее с R1-Zero. Может когда-то они докинут SFT и модель станет более адекватно работать.

Пейпер
Блогпост
Веса Magistral Small
Веса Qwen 3 8B

@ai_newz
OpenAI релизнули o3 pro

Доступ к модели уже дают Pro подписчикам и в API. Модель заметно дешевле o1 pro — $20/$80 за миллион токенов, по сравнению с $150/$600 у o1 pro.

Одновременно с этим в 5 раз снизили цену на обычную o3 — теперь она стоит $2/$8 за миллион токенов. То есть o3 pro ровно в 10 раз дороже.

@ai_newz
Авито показали технологическую внутрянку компании

На фестивале Data Fest Авито показали, как работают языковые и визуальные модели, обучаются агенты поддержки, функционируют бизнес-метрики внедрения. А еще — чем занимаются стажеры в компании.

Выяснилось, что собственный токенизатор модели требует на русском языке в среднем на 29% меньше токенов. Это делает модель до двух раз быстрее чем Qwen такого же размера. В итоге на фесте A-Vibe заняла первое место среди небольших моделей в бенчмарке MERA. Кстати, стажеры в компании тоже занимаются обучением A-Vibe. Для них нет тестовых проектов — ребята сразу попадают в гущу событий.

Визуальная модель не отстает от языковой: она умеет делать описание изображения, распознавать текст, считать объекты на фото и даже определять названия брендов. Быстрый токенизатор опять же помогает выполнять все эти задачи в ускоренном режиме.

А для автоматизации 80-95% рутинных задач Авито создал ML-платформу. Платформа объединяет хранилище готовых признаков, систему разметки с взаимным контролем качества между людьми и ИИ, а также open-source решение Aqueduct для оптимизации инференса, экономящее до 30% ресурсов. Конечная цель ー no-code интерфейс, позволяющий любому сотруднику запускать модели без написания кода.

@ai_newz
OpenAI ещё раз удвоили лимиты на o3 для Plus подписчиков

Как оказалось обычным подписчикам вчера тоже завезли подарочек — теперь в неделю дают 200 сообщений, вместо 100 (изначально вообще было 50). А как часто вы утыкались в лимиты?

@ai_newz
2025/07/07 08:11:42
Back to Top
HTML Embed Code: