Telegram Web Link
Через o3 минуты стрим у OpenAI

Обещают показать "новые модели" из линейки o, скорее всего речь идёт о полноценной o3 и o4-mini.

https://www.youtube.com/watch?v=sq8GBPUb3rk

@ai_newz
🤩38😁29🔥19👍53🦄2
o3 и o4-mini от OpenAI релизятся

Главная фишка — новые модели натренировали использовать тулы прямо во время ризонинга. То есть они могут не только искать в интернете, но и исполнять код и пользоваться другими тулами. Обе модели мультимодальные и могут использовать это во время размышлений.

По бенчам — разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. Но оно и не удивительно — на тренировку o3 ушло более чем в 10x больше компьюта чем у o1.

Модели начинают раскатывать уже в ChatGPT для Pro и Plus планов, остальным через неделю. Лимиты такие же как у прошлых моделей. Для Pro подписчиков обещают и o3-pro, но релизнут её немного позже.

В API релизят тоже сегодня, но пока что без тулюза. Цена за o3 — $10/$40 за миллион токенов, это на треть дешевле чем o1 и в 15 (!) раз дешевле o1-pro. При этом o1 для решения задачи нужно больше токенов чем o3, поэтому o1 собираются полностью заменить на o3. А вот o3-mini стоит столько же сколько o4-mini — $1.1/$4.4 за миллион токенов, но интеллекта на доллар там тоже больше, из-за чего и o3-mini полностью заменят на o4-mini.

@ai_newz
🔥170👍5010🤩9🦄8🤯7😁6
А вот и первые независимые бенчи o4-mini

Artificial Analysis уже протестили o4-mini и прямо сейчас тестят o3. Модель очень хорошо себя показывает на всех бенчах, но есть и отличия — по сравнению с данными OpenAI HLE заметно выше, а GPQA немного ниже. Но это нормально — результаты на бенчмарках всегда немного отличаются между разными прогонами, особенно когда сетап немного отличается.

В целом вышла очень хорошая модель — даже лучше чем o3 на визуальных тасках, судя по заявлениям сотрудников OpenAI. А теперь представьте что сможет полноценная o4.

@ai_newz
77🔥49👍31😱6😁3🦄2💔1
Релиз Gemini 2.5 Flash

Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она далеко ушла от 2.0 Flash, да даже от январского Flash Thinking отрыв гигантский. Но по сравнению с o4-mini модель меркнет — у OpenAI и модель сильнее, и нет странных ограничений, вроде невозможности подрубить и поиск и исполнение кода одновременно. Но у Gemini 2.5 Flash всё же есть что-то, чего нет у o4-mini — детальный бюджет на размышления в токенах, прямо как в Sonnet 3.7 (но в 2.5 Pro не добавили).

Попробовать модельку можно прямо сейчас в AI Studio. Если вы не гоняете тысячи запросов по API, то Gemini 2.5 Pro для вас доступна бесплатно, которая, хоть и уступает o3, остаётся лучшей бесплатной моделью. Даже по скорости она не сильно медленнее версии Flash — на моих промптах 2.5 Pro думает всего на 10-20% дольше, при сильно лучше ответах. Всё равно, пока ждёшь, можно погенерить что-то в Veo 2, которую недавно добавили и туда.

Но крышку в гвоздь гроба забивает цена — для обычного не-ризонинг режима она в полтора раза выше чем у 2.0. Но главная проблема в ризонинг режиме — за него просят $3.5 за миллион токенов, что немногим ниже чем $4.4 за o4-mini. Но даже эту разницу в цене может легко съесть разница в длине размышлений модели, но без тестов тут сложно судить. С уверенностью можно сказать одно — не будь таких драконовских цен на размышления, модель была бы сильно интереснее. Но все же для некоторых задач при вызовах по API, она может конкурировать с o4-mini.

@ai_newz
❤‍🔥54👍36🔥2420🦄5🤯2💔1
Нейродайджест за неделю (#65)
Жаркая неделя для ЛЛМ

LLM
- GPT-4.1 — превосходит 4o во всем, гораздо лучше следует промпту и 1М контекста по API.
- YandexGPT 5 с reasoning — открыли публичный бета‑тест, это первый ризонер на ру рынке.
- BitNet 1.58 — спустя год Microsoft выложили обещанные веса. Мощнейшая оптимизация, но есть нюансы.
- Anthropic Research Beta — все то же самое, но этот ещё и может пошерстить персональные данные.
- o3 и o4-mini — OpenAI снова показали, кто здесь батюшка: разнос бенчей, нативно используют тулы прямо во время ризонинга. Вот аналитика от Artificial Analysis.
- Gemini 2.5 Flash — дитя pro версии, значительно лучше предшественника 2.0, конкурент o4‑mini.

Генеративные модели
- Seedream 3.0 от ByteDance — Темная лошадка под именем Mogao, которая заняла первое место на Image Arena, оказалась детищем Тиктока. Данных нет, но она всё ещё делит топ с GPT‑4o.

Прочее
- Stargete под вопросом? — Про влияние Трампа на рынок AI.

> Читать дайджест #64

#дайджест
@ai_newz
1🔥58188👍6🦄3
🚨 Стелс GenAI стартап ищет Principal/Lead AI Engineer и Backend Engineer 🚨

Ребята (ex-FAANG) собирают очень сильную команду в европейском стелс-стартапе, где строят модели для image/video generation с фокусом на генерацию людей. Обучают Foundation-модели с нуля, включая весь стек: от сбора и разметки датасетов масштаба миллиардов изображений до pre-training, post-training, fine-tuning и distillation.

Как Principal AI Engineer Вы сможете возглавить небольшую команду и влиять на все: от архитектуры и пайплайна до финального продукта.

Что ожидаем от кандидата:
• 5+ лет опыта в deep learning (LLM/GenAI).
• Опыт в тренировке диффузионных или flow-based моделей — огромный плюс.
• Большим плюсом будет:
• опыт распределенной тренировки large-scale моделей (multi-node / 128+ GPUs),
• опыт дизайна архитектур моделей,
• опыт ведения небольшой команды.

Команда 🔥
У ребят очень мощный состав, в том числе выходцы из DeepMind, Meta и др. Команда работает удалённо, преимущественно в EU time zone, с выездами на оффсайты.

Условия:
• Вилка: $150k – $300k.
• Дают опционы — настоящие, не фантики.
• Много свободы, крутая миссия, настоящий шанс построить что-то фундаментальное.
• Возможна релокация в Европу.



Также ребята ищут
🛠 Python Backend Engineer (Kubernetes, Highload, ML APIs)

Что предстоит делать:
• Разрабатывать highload Python-сервисы для ML-инференса.
• Оборачивать ML-инференс в API и разворачивать в прод с использованием Kubernetes/Docker.
• Настраивать очереди задач, логирование, мониторинг.

Идеальный кандидат:
• 5+ лет опыта в backend/system engineering, глубокий опыт в системном дизайне.
• Уверенное владение Python (или другим OOP-языком: Go, Rust, Java).
• Строил масштабируемые системы с нагрузкой и сложной логикой (распределённые очереди, сложные API, кэширование, пайплайны).
• Работал с ML-инфраструктурой или API над ML-инференсом — большой плюс.
• Умеет разбираться в сложных задачах и брать на себя ответственность, без микроменеджмента.

Мы предлагаем:
• Свободу в архитектурных решениях.
• Участие в создании масштабного продукта с нуля.
• Вилка: $100k – $200k и опционы.
Возможна релокация в Европу.


По обеим вакансиям, чтобы податься нужно заполнить гугл форму, а затем написать в ЛС 👉 @genai_max.
В сообщении прикрепляйте LinkedIn/резюме/портфолио – всё, что может показать, насколько вы круты.

Я лично рекомендую этих ребят. Знаю команду и знаю, над чем работают — это будет огонь!

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥97👍41😁1514🦄14💔1
Мини-отчет о моих свеже-опубликованных статьях. Этот год выдался очень продуктивным и мы сильно попотели нашим статьям очень повезло. В итоге у нас 3/3 статей принято на топовые конференции, и все три получили дополнительные awards. Я работал в основном над генерацией картинок и видео, и немного над ускорением LLM.

1️⃣Autoregressive Distillation of Diffusion Transformers – CVPR25, Oral

TL;DR статьи: В обычной диффузии мы семплируем картинки по шагам, где следующий семпл зависит только от одного предыдущего. Мы же дисстилировали diffusion transformer в авторегрессионную архитектуру (как LLM), где используется вся история семплов,и это позволило существенно увеличить качество картинки при очень быстрой генерации в 3–4 шага. Получили SOTA в своем размере на Imagenet-256 и на text2image генерации в 3 шага (1.7B параметров).

Наша статья получила на CVPR высшую награду – Oral (это 18-минутная презентация со сцены, куда выбирают только самые лучшие работы), тогда как остальные статьи просто вывешивают постеры. Oral на CVPR получают < 1% из всех засабмиченых статей.

В этой статье я последний автор – это тот, кто вел и руководил проектом (по сути профессорская роль). Я придумал идею, выдал бейзлайн модели и расписал своему интерну Юнгмину (первому автору) какие эксперименты нужно провести, и какие цели мы преследуем в этом ресерче. А Юнгмин виртуозно все реализиовал, выдавив весь сок из модели на бенчмарках.


Мой интерн выложил даже код.

2️⃣ FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute – CVPR25, Spotlight

TL;DR статьи: Ускорили diffusion transformer. Мы показали ,как запускать text2image и tex2video генерацию на 80%, 60% либо 40% компьюта с минимальными потерями в качестве. Достигается это за счет того что мы адаптивно меняем размер DiT патча во время инференса.

Тоже статейка с нашим интерном. Она тоже получила Award - Spotlight. Это презентация работы со сцены на 4 минут. Spotlight получили < 3% лучших статей из 13 тысяч засабмиченных.

3️⃣ Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment – ICLR25, Oral

TL;DR статьи: Метод семплинга, которыйсильно ускоряет большие LLM. Мы ускорили Llama-3.1 405B в 9× раз с помощью использовани 8b модели в качестве драфта, практичесик без потерь в качестве.

Тут было много драмы, статья с двух ног влетела в топ-3 сильнейших статей по LLM на ICLR на основе среднего рейтинга ревьюеров (еще до вынесения решения.) Я уж думал будет железный Oral, но в итоге дали всего-лишь Spotlight. Мы подрасстроились, а через несколько недель пришло письмо, что статью все-таки выбрали на Oral (на ICLR это 12-минутная презентация). В этом году Oral получили только top 1.8% лучших статей! Интерн будет презентовать ее через пару дней в Сингапуре – я, к сожалению, до туда не долетел. Но, надеюсь, увидимся на CVPR в Нэшвилле!

#резерч #personal #конфа
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
27🔥43266👍62🦄13❤‍🔥6🫡5🤯4😱4🤩4🙏2
OpenAI запустили API для генерации картинок через GPT

Модель обозвали GPT-Image-1. Кроме резолюшена позволяют выбрать и качество — от low до high. Крайне вероятно что это как-то обозначает именно количество ризонинга, но мы очень мало чего знаем о внутреннем устройстве GPT чтобы судить об архитектуре.

Прайсинг может кусаться — цена на high quality может доходить до 25 центов за картинку. Для сравнения: за картинку из Imagen 3 или HiDream-I1-Dev просят 3 цента, за Recraft V3 — 4 цента. Но это не значит, что GPT не может конкурировать по цене — low режим стоит всего 1-2 цента за картинку, а medium в районе 7.

Как сильно отличаются картинки на разных уровнях качества — пока непонятно. В любом случае, GPT-Image-1 куда гибче конкурентов из-за своей архитектуры, то есть даже low качество может быть очень полезным. А за high качество, в отсутствии конкуренции, заламывать можно очень высокие цены. Появится конкуренция — цены заметно скинут, маржа у OpenAI такое позволяет, ждём Gemini 2.5 Pro Image Generation.

@ai_newz
👍116🔥5015🤩5🦄4💯2
OpenAI удвоили лимиты на o3 и o4-mini для Plus подписчик

Теперь у подписчиков есть 100 запросов к o3 к неделю, 100 запросов к o4-mini-high в день и целых 300 запросов в день к обычной o4-mini. В основном рад за лимиты o3, остальных моделей в принципе хватало.

А насколько вы чувствуете эти лимиты?

@ai_newz
👍168🔥62🤩1910🦄6😁5🫡4💔1
Learn your reference model for real good alignment

Ресерчеры из T-Bank AI Research представили новый метод дообучения языковых моделей. Они адаптировали Trust Region (TR) к задаче алайнмента LLM. Ключевая идея — обновление референсной policy в процессе обучения вместо её фиксации.

Метод реализуется двумя способами. Мягкое обновление смешивает параметры текущей модели с референсной через коэффициент α. Жёсткое обновление заменяет референсную policy текущей через τ шагов. Оптимальные параметры: α ≈ 0,6, τ ≈ 512.

Тесты на Llama-3 показали превосходство TR-DPO, TR-IPO и TR-KTO над базовыми версиями. Прирост на бенчмарках AlpacaEval 2 и Arena-Hard достиг 10,8%. При равном отклонении от исходной политики TR-модели демонстрируют лучшие человеческие метрики.

Пейпер изменил устоявшийся взгляд на отклонение от изначальной политики. Проблема овероптимизации связана со смещением вероятностной массы к OOD-примерам. TR-метод противостоит этому явлению, требуя лишь настройки α и τ.

Подход улучшил показатели на 8-15% при суммаризации Reddit TL;DR с Pythia 6.9B. У метода есть и ограничения: большие τ неэффективны на малых датасетах, а тестирование через GPT-4 вызывает вопросы. Статью вчера представили на ICLR, куда поехала и одна из моих статей.

Пейпер

@ai_newz
🔥173👍4925😁8🫡5😱2😍2
OpenAI дали бесплатный доступ к облегчённому Deep Research

Новая lightweight модель, основанная на o4-mini, позволила дать доступ всем пользователям, даже бесплатным. Бенчмарк дали ровно один — по нему новая модель чуть хуже по качеству чем обычный Deep Research, но даёт заметное улучшение по сравнению с o4-mini, при этом отставая от o3. Но, в отличие от o3, lightweight модель даёт формат deep research, который местами очень нужен.

Доступ уже раскатывают, но доступно всё ещё не всем, дают пять запросов в месяц (до апдейта Plus подписчикам давали 10). Платных пользователей тоже не оставили в обиде — после того как истекают запросы к большому Deep Research, пользователей переключают на облегчённую версию. Это позволило увеличить лимиты с 10 до 25 на Plus и Team подписке и с 100 до 250 на Pro подписке, правда лимит теперь для обеих моделей.

Что-то много у них релизов на этой неделе, похоже OpenAI получили гигантскую поставку GPU

@ai_newz
🔥101👍42😍1110😁3🙏1🦄1
Media is too big
VIEW IN TELEGRAM
Runway GEN-4 References🔥🔥🔥

К конкурсу видео фильмов GEN-48 Runway раскатили новую старую фичу references, которую презентовали на релизе. Но она сделана для генерации картинок, а не сразу в видео, как это у Kling, там я уже писал почему это не удобно. По принципу работы очень похоже на IP-Adapter, но продвинутый. Принимает на вход до трех изображаний причем сохраняет все мельчайшие детали лица, не крутит их как 4o или Midjourney (последние обещают выпустить что-то похожее), но главная фишка в том что эта штука может и отходить от референса и генерить например фон или areal view бэкграунда (см видос). Штука очень полезная как для продуктовой съемки так и для фильмов.

Ну и на десерт, сейчас всем учасникам GEN-48 дают 300 ТЫСЯЧ кредитов, чтобы вы понимали тир unlimited дает чуть больше 2000 и режим медлинной очереди. Но эти кредиты доступны только следующие 48 часов.
UPD: Поезд ушёл(


Конечно всё нужно тестить, так что жду ваши примеры в комментариях.

Регистрация

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
41🔥23👍18
Нейродайджест за неделю (#66)

OpenAI
- API для Image Generation через GPT — на высоких настройках качества очень дорого, но конкурентов по функционалу нет.
- Удвоили лимиты для o3 и o4-mini — теперь можно почти не переходить на более слабые модели.
- Облегчённый Deep Research — доступен даже бесплатным пользователям, а платные получили расширенные лимиты.

Видео
- Референсы для Runway — увы, фича работает на генерации картинок, что даёт не очень хорошие результаты. Но лучше, чем ничего.

Статьи
- Мини-отчёт по моим статьям — три моих статьи приняли на топовые конфы: ICLR и CVPR.
- Learn your reference model for real good alignment — новый метод файнтюна, основанный на Trust Region.

> Читать дайджест #65

#дайджест
@ai_newz
👍54🔥23183
Видео дайджест

Я не знаю, какая муха укусила китайцев, но те всей толпой опять поражают количеством новых моделек. Я даже решил подождать, может ещё чё выйдет (так и вышло!)

Так что немного с опозданием, но вот небольшой обзор всех новых опенсорсных моделек и других плюшек.


SkyReels-V2
Новая (возможно SOTA) опен-сорс видео-модель с LLM и MoE под капотом. Две версии на 1.3B и 14B параметров (влезают в 15 и 52 ГБ VRAM). Разрешение до 720p. Из фишек — может генерить бесконечные фильмы при помощи Diffusion Forcing. Ещё есть SkyCaptioner-V1 для разметки видосов.
SkyReelsSkyCaptioner-V1


FramePack
Ещё одна SOTA (ну скажем для слабого железа) в видео-генерации. От разработчика ControlNet Forge и IC Light. Тоже генерит бесконечные видосы. Очень шустрая: 13B влезают в 6 ГБ VRAM. Тюнится батчами по 64 штуки на 8×A100/H100; на RTX 4090 генерит со скоростью ~2.5 сек/кадр. Из фишек: next-frame prediction с динамической степенью детализации, в зависимости от важности кадра для предсказания следующего. Anti-drifting sampling — двусторонняя выборка, которая как раз и позволяет генерить бесконечные видосы, избегая накопления ошибок.
FramePack


MAGI-1
Новая (возможно SOTA) в видео-генерации. Смотрится неплохо, из всех трёх, наверное, самый интересный (что там относительно Wan — не понятно). Выходит в двух версиях — 1.5B и 24B; для последнего вам потребуется 8×H100 (сравните с предыдущим). Тоже может в бесконечную генерацию. Кстати, генерит аж в 2560 × 1440, и самое интересное — это АВТОРЕГРЕССИОННАЯ модель. Есть подробнейший тех-репорт на 60 страниц.
Демо на Magi.sand.aiGitHub — Magi-1


Все три модели вышли одновременно с громким заявлением, что они теперь SOTA в open-source видео-генерации. Ну что ж, будем смотреть, но здесь важно опираться не только на сырые генерации, но и понимание промпта, с чем у видеомоделек проблемы. Кстати, пока в этом лучший Kling — по крайней мере так кажется: он чуть ли не по таймкодам справляется.


Другие плюшки:

- Wan FLF 2.1 14B 720P — выкатили в опенсорс start+end frame.
GitHubComfyUI workflow

- Avatar FX — Hedra здорового человека фаната Character AI: теперь со своей виртуальной вайфу можно обмениваться кружочками почти как в телеграмм. Скоро и до видео-звонков дойдём. Больше никаких подробностей (опенсорса тоже) — не могу выбросить из головы мысли о «Бегущем по лезвию».
Character.ai

- Runway GEN-4 References — Это геймчейнджер (про него отдельный пост). К конкурсу GEN-48 Runway выкатил свою главную фичу — References︎, продвинутый и гибкий аналог IP-Adapter, который показывали на релизе.


На этом откланяюсь. В посте по одному видео от каждого генератора по очереди, а свои тесты закидывайте в комменты.

@ai_newz
👍79🔥4323😁7🤯4😱4🫡1
2025/07/08 20:34:05
Back to Top
HTML Embed Code: