Telegram Web Link
LanDiff – гибридный видеогенератор из LLM и Диффузии

Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами. Пишут, что на VBench в отдельных номинациях бьёт и Kling, и Sora (правда, даже по черрипикам так не скажешь), но для своих 5B параметров и датасета в 200M видео-текст пар — очень хороший результат.

Сначала разработчики запилили семантический токенайзер для видео, то есть запихнули 3D представление видео токенов в дискретные 1D коды, чем сжали датасет в 14 000 раз, оптимизировав процесс тренировки. Теперь LLM переводит промпт юзера в семантические токены. Ну а последняя уже делает видос на их основе. То есть эти токены служат не просто промптом, а высокоуровневыми инструкциями для всего процесса генерации.

Таким образом, авторы надеются взять лучшее от двух подходов: смысловое (семантическое) понимание авторегрессионных LLM и качественную картинку диффузионок, которые таким пониманием не обладают.

Черрипики выше — судите сами. Помните, что это всего 5B параметров.


Project page
Пейпер

@ai_newz
56👍39🔥14😱6❤‍🔥3😁2😍1
RIP Photoshop (нет)

Потестил я мультимодальную Gemini Flash 2.0 (Image Generation) Experimental. Мог бы сказать, что фотошоп в целом больше не нужен, но, блин, эта штука в туории может куда больше, чем мог бы Photoshop. Я совсем не представляю, как можно было бы вручную наложить шоколадный крем на круассаны с первой пикчи. 

Никакой из доступных из коробки методов не способен был такое провернуть. Через ControlNet или inpainting так не сделаешь, потому что они изменяют детали — круассаны будут чуть другими или по-другому лежать. А здесь мы имеем хирургически точное редактирование картинки одним только текстом. Единственный минус пока - это низкая детализация и низкое разрешение генераций.

Другие юзкейсы: 

- Product photo — раньше нужно было бы тренить LoRA, чтобы получить пикчу №2. Нужно больше фотографий + примерно час работы. 
- Character sheet design — пикча №3. По одному концепту получаем разворот с трех сторон для моделлеров. Можно было бы погенерить что-то подобное, но здесь мы видим консистентность, которой раньше было сложно добиться моделями из коробки.
- Нейрофотосессии — пикча №4. Повторяем лицо по одной фотографии так, словно это LoRA для Flux
- Гайды — пикчи №5,6,7. Может на картинке выделять, куда тыкнуть, рисовать консистентные гайды, как здесь в примере с готовкой. 
И т.д.

Вот она, сила мультимодальных моделей. Все это благодаря тому, что тут генерация изображений и LLM объединены вместе. В отличие от, например Flux или Imagen 3, тут картиночные токены выплевываются напрямую из LLM, без вызова диффузии. За счет этого и достигается более нативное редактирование входных картинок. Но такой метод все же пока уступает диффузии в качестве генерации.

Кстати, в Grok такую LLM-генерацию (Aurora) завезли еще в декабре, и ее можно попробовать в Grok3, вот только редактирование там пока отключили.
Что-то подобное показывала OpenAI ещё в прошлом году, но так в прод и не завезли (эх Cэма-Сэма). Если Gemini Flash так хорош и дешевле, то что будет с 4o

Попробовать можно в ai studio.

@ai_newz
164🔥96👍54😍8😱4😁3💯3🤯1🤩1🙏1
Нейродайджест за неделю (#60)
🎉 Юбилейный выпуск!

LLM
- Анонсы OpenAI – докинули удобных фич для API, в том числе computer use.
- Прямое включение – привет с Gemma Developer Day, смотрю на Gemma 3 из первых рук.
- Gemma 3 – топ-2 моделька в опенсорсе сразу после DeepSeek R1, удобно влезает в одну H100/A100 GPU в bf16.
- T-lite и T-pro – челиксы запилили очень подробный техрепорт о тренировке LLM.

Генеративные модели
- LanDiff – еще один видеогенератор, но на этот раз вместе с LLM. Обещает хорошо понимать, что вообще происходит в кадре, за счет семантических токенов.
- Gemini Flash 2.0 – редактируем картинки текстом при помощи мультимодальной LLM.

> Читать дайджест #59

#дайджест
@ai_newz
3👍36238❤‍🔥6
Трекинг-костюм больше не нужен

Зацените, что может Move AI Gen 2. Трекает действительно очень точно — ну, по крайней мере, на глаз. Может захватить команду футболистов, да ещё и на большом расстоянии.

Вот полный список того, что можно затрекать:
— 3D motion capture
— full-body dynamics
— joint torques
— ground reaction forces
— advanced motion retargeting
— motion prediction

И всё это работает с одной камеры. Ну или с нескольких — для большей точности. В первой версии был реалтайм-режим, так что, скорее всего, и здесь будет. Представьте, как весело актёрам: играешь Годзиллу и в реальном времени видишь себя, крушащего здания на экране, ведь всё это ещё цепляется к Unreal Engine 5.

На сайте можно попробовать самому — дают 30 кредитов на 30 секунд видео. Пока только для первой версии, но даже она справилась с моим бенчмарком. Подписка, правда, какая-то убер-дорогая: $15 за 180 кредитов. Хотя, может, для анимаций в играх хватит.

Стартап совсем не раскрывает своих секретов, ни намёка. Но думаю, скоро такие штуки появятся и в опенсорсе — вот тогда будет весело. Особенно для всяких видео-генераторов.

@ai_newz
👍133🔥95🤯26143😁2
Mistral Small обновили

Mistral Small 3.1 обгоняет Gemma 3 по большинству бенчей, с особенно большим отрывом на мультимодальных бенчах. Да и с закрытыми дешёвыми моделями она хороша себя показывает — по мультимодальности Mistral Small рвёт 4o-mini и Haiku 3.5, но отстаёт от Flash 2.0. С текстом всё тоже неплохо, но разрыв с 4o-mini и Haiku 3.5 значительно меньше, а от Gemini модель по прежнему отстаёт.

Модель быстрая — API выдаёт 150 токенов в секунду — быстрее лишь Command A от Cohere и 2.0 Flash. Что ещё важно — лицензия у них Apache 2.0, что означает полную свободу делать что угодно с моделью. У той же Gemma 3 лицензия вирусная — под неё подпадают не только тюны, но и модели которые научили на основе данных из Gemma, что может стать проблемой.

@ai_newz
1🔥87👍359❤‍🔥4😁1🦄1
Blackwell Ultra — новые GPU от Nvidia

В новые GB300 докинули памяти до 288 гигабайт, а компьют увеличили в полтора раза — с 10 Dense FP4 петафлопс в GB200, до 15 в GB300. Новые инструкции для аттеншна в два раза быстрее чем аттеншн на оригинальном Blackwell, ждём вайтпейпера с деталями. Пропускную способность памяти вроде не тронули, но изменений за год и так более чем достаточно.

На основе GB300 будут и новые сервера — GB300 NVL72 и HGX B300 NVL16. В новом NVL72 теперь будет 20 терабайт видеопамяти, плюс 40 терабайт LPDDR5X, которые напрямую доступны GPU. Про цену ничего не сказали, но она явно выше 3 миллионов за GB200 NVL72.

@ai_newz
🤯161👍40🔥2111🦄3😁1
Pika тизерят очередную фичу: v2v.

На сей раз это что-то очень похожее на то, что делает наш MovieGen. Закидываешь в нейронку свой видос, текстом задаёшь, какие изменения или эффекты хочешь увидеть, и на выходе получаешь ролик с VFX. . Выглядит прикольно, но на практике наверняка будут вылезать артефакты. У Pika модели всё же послабее, чем у текущих лидеров — Kling и Luma, не говоря уже про Veo 2. Но для каких-нибудь приколов пойдет.

Мне нравится вектор развития Pika. Они уже зарелизили кучу прикольных инструментов, которые пока никто не повторил. Они, кажется, первыми придумали пресеты с нейроэффектами и ввели видеоэффекты типа Pikaditions, позволяющие вставлять в ролики новых персонажей или предметы просто по картинке. Пока им остаётся подтянуть качество базовой модели — и получится по-настоящему мощный продукт.

@ai_newz
53🔥97👍3421😁2🤩2🫡1
Нейродайджест за неделю (#61)

LLM
- Mistral Small 3.1 — небольшой апдейт, по уровню чуть выше, чем Gemma 3, но с лицензией Apache 2.0.

Генеративные модели

- Move AI Gen 2 — motion tracking без спецкостюма. Работает с одной камеры и может захватить целое футбольное поле.
- Pika v2v — редактируем видео по текстовому запросу. Такое раньше мог только наш закрытый MovieGen, ну а здесь можно подергать самому. Правда, Pika традиционно с горсткой артефактов.

Железо
- Blackwell Ultra — новые GPU от Nvidia в полтора раза мощнее предшественников. Всё хорошо, только бы успевали ещё развозить их по серверным, чтобы нейроночки крутились 😋

> Читать дайджест #60

#дайджест
@ai_newz
29👍19🔥52🦄1
2025/07/10 04:33:45
Back to Top
HTML Embed Code: