Telegram Web Link
Нейродайджест за неделю (#67)

LLM
- Qwen 3 — открытые гибридные ризонеры, SOTA в своих классах. Могут работать и как обычные LLM, и как ризонеры (ответ Claude 3.7 и Gemini 2.5 Flash).
- Официальное API Llama — мультимодальность, тулы, для тюна и проверки моделей, а главное — возможность скачивать свои затюненные модели.
- DeepSeek Prover V2 — две модели для доказательства теорем и математики — 671B и 7B, даже 7B обходит специализированные SOTA и лучше флагманских ризонеров в формальной математике.
- Нативное аудиовосприятие в GigaChat 2 — Сбер представил первую русскоязычную модель (пока без генерации аудио), понимающую звуки, шумы и настроение говорящего нативно, а не через транскрипцию.
- Опенсорс VLM в Yandex Cloud — через API стали доступны VLM-ки Qwen, DeepSeek VL и Gemma3, в том числе в экономичном батч-режиме.
- LLM убедительнее людей? — эксперимент на Reddit r/ChangeMyView показал, что LLM, анализируя профиль оппонента, могут менять его мнение в 6 раз эффективнее человека.
- Реклама в ChatGPT — OpenAI экспериментирует с нативной рекламой товаров прямо в диалогах.
- Gemini 2.5 Pro прошла Pokemon Blue — которую Claude не осилил. Без нюансов не обошлось. Ждём бенчмарк для LLM геймеров)

Генеративные модели

- Видео дайджест — обзор свежих опенсорс видео-моделей (SkyReels-V2, FramePack, MAGI-1) и других плюшек вроде Avatar FX и Runway GEN-4 References.
- F Lite 10B — опенсорс T2I модель, обученная на лицензированном датасете в 80М картинок. Качество добротное, но до FLUX далеко.

Прочее
- Из мидла в директора за 3.5 года — мотивационный пример на день трудящихся.
- AI Mode в Google Поиске — Google выкатил аналог Perplexity/ChatGPT поиска, интегрировав LLM в основной Гугл поиск. Огромный шаг к массовой адаптации AI, который для нас с вами кажется пшиком.

> Читать дайджест #66

#дайджест
@ai_newz
👍60🔥28❤‍🔥1272
Radiance Fields and the Future of Generative Media

Обзорная лекция от бати нерфов, Джона Баррона, где он проходится по своему ресёрчу и истории radiance fields за последние пять лет. Они крайне сильно переплетены — Джон был одним из соавторов оригинального пейпера о NeRF, а с тех пор выступил автором и соавтором десятков работ на эту тему. Но об этом лишь половина лекции — вторая половина отвечает на главный вопрос: зачем вообще нужна генерация 3д контента в современном мире?

Лекция на youtube

#ликбез
@ai_newz
🔥52👍1915🤩2❤‍🔥1
Google обновили Gemini 2.5 Pro

Новая версия Gemini 2.5 Pro Preview 05-06 гораздо лучше кодит, особенно это проявляется в фронтенде — модель заняла первое место на вебдев арене, обогнав Claude 3.7 Sonnet. Модель уже доступна в Vertex и AI Studio.

@ai_newz
🔥166👍4025🦄6😱5🙏3😁1
Mistral Medium 3

Новая модель от Mistral, опять без ризонинга, опять не сравнивают с Qwen и Gemini, весов простым смертным не дают. Но как закрытая инстракт модель вполне хорошая: почти на уровне с Sonnet 3.7, но при этом в 7 раз дешевле — $0.4/$2 против $3/$15 у соннета.

Mistral Medium 3 уже доступна в API. Через несколько недель обещают модель побольше, надеюсь уже с ризонингом.

Блогпост

@ai_newz
👍8327🔥18😁13💔41❤‍🔥1
Сколько стоит минута AI-фильма и как победить в крупнейшем конкурсе этих фильмов?

Этой зимой проходил, пожалуй, один из самых больших и влиятельных конкурсов AI-фильмов — Project Odyssey Season 2. Думаю, почти все AI-художники про него слышали и, может, даже участвовали. Так вот, опросив 500 финалистов, организаторы подбили крайне интересную статистику, ознакомиться с которой можно в прикреплённом файле.

Что интересного:
- Performance Score (очки/заявку) — самый интересный слайд. Он показывает, какие инструменты реально эффективнее для побед, и в среднем сколько ими созданные фильмы набирали очков. Удивительно, но на втором месте Recraft, а популярнейший Kling (на тот момент 1.6 или старее) по этому показателю — аутсайдер, хотя это как раз-таки может быть связанно с его популярностью, что повлияло на средний скор – ведь среди топовых мест все равно много кто использовал клинг.
- Профессиональный опыт всё ещё решает: победители чаще использовали продукты Adobe и Topaz, тогда как CapCut лежит на дне Performance Score, что в общем-то не удивительно.
- Сценарий AI пока не напишет: ChatGPT для сюжетов оказался так же неэффективен по Performance Score. А LTX Studio ( тулза для полной автоматизации, которая заслуживает отдельного поста) в этот список даже не вошёл, хоть и был популярен даже у финалистов.
- Winner Index — Если нужен один главный список инструментов, типа «ТОП-50 AI ИНСТРУМЕНТОВ ДЛЯ ГЕНЕРАЦИИ ВИДЕО...» , которые летали по телеграмму год назад, пока это всем не надоело. Это усреднённый, по всем категориям, рейтинг от авторов отчёта.
- 1 минута AI-фильма = $70 на токены + 12 часов работы. Причём 91.4% финалистов потратили 10+ часов.

Как победить или секрет успеха:
- Команда решает. (См. слайд "Team Size" в отчёте).
- Образование не главное. «Корочка» не нужна, что для многих хорошие новости.
- Запаситесь бюджетом: даже с учётом бонусов и токенов, финалисты в среднем тратили $200 при условии, что труд бесплатный.
- Оригинальная музыка > AI-музыка. Ни одна работа со сгенерированной аудиодорожкой не получила награду. Возникает вопрос: судьи оценивали только видео или весь продукт целиком?

Ну и остаётся только добавить дисклеймер: вся эта статистика, а как следствие и выводы, подвержены сильному байесу из-за специфичности выборки и условий конкурса (об этом можно подробнее почитать в документе). Но в целом результаты совпадают с моим мировоззрением, так что на них можно примерно ориентироваться.

PDF в комментариях

@ai_newz
1102👍53🔥35❤‍🔥16😁2
Почему цена за токен — это ещё не всё

Artificial Analysis недавно начали замерять цену за прогон их набора тестов, дошли они и до новых моделей Google. Вышло что Gemini 2.5 Flash с ризонингом вплоть до 150 раз дороже оригинальной Gemini 2.0 Flash. Мало того — на одних и тех же задачах она стоит почти в полтора раза дороже o4-mini-high, несмотря на то, что o4-mini дороже Gemini 2.5 Flash за токен.

Без ризонинга ситуация тоже так себе — хоть цена за токен, по сравнению с 2.0, выросла всего в 1.5x, реальная цена модели выросла в четыре раза. Дело в том что модель более разговорчивая и выдаёт, в среднем, в 2.6x больше токенов на одних и тех же задачах. Так что перед переходом всегда стоит тестить стоимость модели на реальных задачах.

@ai_newz
3👍18532🔥213🤩3💯2😁1
Seed-Coder 8B

Лучшая в своей весовой категории LLM для кодинга, прямо от китайцев из Bytedance. Бьёт даже недавний Qwen 3 на коде, но даже не пытается конкурировать на других задачах. Кроме обычной инстракт модели натренировали и ризонер. При этом всём модель натренировали всего на 6 триллионах токенов, что крайне мало — датасеты лучших открытых моделей сейчас уже часто больше 30 триллионов токенов.

Ключевой элемент тренировки — "model-centric" пайплайн. Специальные LLM-фильтры оценивают код (читаемость, модульность и другие аспекты) из GitHub и веб-источников, отсеивая низкокачественные примеры. Таким образом они фильтруют данных примерно на ~2.3 триллиона токенов. Затем модель тренируют в течении 6 триллионах токенов, что даёт небольшую несостыковку. Скорее всего какие-то данные повторялись в датасете несколько раз, но авторы пейпера не говорят об этом напрямую.

Инстракт-версию тренируют через SFT (на синтетике, которую тоже LLM нагенерили и отфильтровали) и DPO. Ризонинг-модель дрессируют через LongCoT RL, чтобы она лучше решала сложные задачки. Итог: Seed-Coder рвёт опенсорс-аналоги своего размера на бенчмарках (генерация, автодополнение, ризонинг и т.д.), а местами и более жирные модели.

Веса: Reasoner/Instruct
Техрепорт

@ai_newz
1👍127🔥4524❤‍🔥4
Нейродайджест за неделю (#68)
С майскими!

LLM
- Баф Gemini 2.5 Pro — быстрее, лучше, сильнее! Топ вебдеф арены.
- Mistral Medium 3 — закрытая моделька, почти Sonnet 3.7, но в 7 раз дешевле.
- Seed-Coder 8B — легонькая моделька от Bytedance, лучшая в своей категории, но чисто для кода. Секрет — "model-centric" пайплайн, который жёстко фильтрует датасет.

Генеративные модели
- Project Odyssey — статы с крупнейшего конкурса AI-фильмов: как сделать лучший фильм и сколько это стоит.
- Лекция: Radiance Fields and the Future of Generative Media от автора NeRF собственной персоной, Джон Баррон, поясняет за последние 5 лет ресерча.

Прочее
- Ценообразование API — о том, сколько на самом деле стоит LLM и почему цена за токен — это ещё не всё.

> Читать дайджест #67

#дайджест
@ai_newz
42🔥19👍16💯2
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT обновили функцию Deep Research – теперь можно скачивать отчеты в формате красивого pdf
🔥255👍68😱1815🦄8😁7
Тех-репорт Qwen3

Вышел тех-репорт по одной из сильнейших LLM моделей в OpenSource на сегодня - Qwen 3 (про анонс подробнее я писал тут). Большой респект авторам за то, что выкладывают свои модели в открытый доступ.

Подробностей не супер много, но все равно есть интересные моменты, и стоит пробежаться глазами.

Ждем, когда InternVL прикрутит Qwen3 к своим VLM.

Тех-репорт

@ai_newz
101🔥48👍20🤩21
Новые версии Claude уже на подходе

По инфе The Information, модели могут выйти уже в следующие несколько недель. Речь идёт как о Claude Sonnet, так и о Claude Opus (про Haiku все дружно забыли). Главная фишка новых моделей — то что они могут самостоятельно переключаться между ризонингом и тулюзом. То есть это что-то похожее на o3/o4-mini, где модель может пойти подумать, потом поискать что-то в интернете, дальше выполнить код и ещё подумать. С тем как Anthropic концентрируется на API, у них есть неплохие шансы запуститься перед доступностью такого функционала в API OpenAI.

@ai_newz
96🔥47👍24😍3🦄2🙏1
GPT 4.1 добавили в ChatGPT

4.1-mini заменит 4o-mini для всех пользователей, а 4.1 уже раскатывают платным подписчикам (но Enterprise и Edu как всегда позже). По сравнению с 4o, модели 4.1 сильно лучше в кодинге и следованию инструкций. Ещё GPT 4.1 поддерживают и контекст до миллиона токенов в API, но похоже на ChatGPT это не распространяется и у Plus пользователей всё те же 32к контекста, а у Pro — 128k.

@ai_newz
105😁31👍18🦄17🤯2
2025/07/10 11:27:51
Back to Top
HTML Embed Code: