This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
LanDiff – гибридный видеогенератор из LLM и Диффузии
Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами. Пишут, что на VBench в отдельных номинациях бьёт и Kling, и Sora (правда, даже по черрипикам так не скажешь), но для своих 5B параметров и датасета в 200M видео-текст пар — очень хороший результат.
Сначала разработчики запилили семантический токенайзер для видео, то есть запихнули 3D представление видео токенов в дискретные 1D коды, чем сжали датасет в 14 000 раз, оптимизировав процесс тренировки. Теперь LLM переводит промпт юзера в семантические токены. Ну а последняя уже делает видос на их основе. То есть эти токены служат не просто промптом, а высокоуровневыми инструкциями для всего процесса генерации.
Таким образом, авторы надеются взять лучшее от двух подходов: смысловое (семантическое) понимание авторегрессионных LLM и качественную картинку диффузионок, которые таким пониманием не обладают.
Черрипики выше — судите сами. Помните, что это всего 5B параметров.
Project page
Пейпер
@ai_newz
Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами. Пишут, что на VBench в отдельных номинациях бьёт и Kling, и Sora (правда, даже по черрипикам так не скажешь), но для своих 5B параметров и датасета в 200M видео-текст пар — очень хороший результат.
Сначала разработчики запилили семантический токенайзер для видео, то есть запихнули 3D представление видео токенов в дискретные 1D коды, чем сжали датасет в 14 000 раз, оптимизировав процесс тренировки. Теперь LLM переводит промпт юзера в семантические токены. Ну а последняя уже делает видос на их основе. То есть эти токены служат не просто промптом, а высокоуровневыми инструкциями для всего процесса генерации.
Таким образом, авторы надеются взять лучшее от двух подходов: смысловое (семантическое) понимание авторегрессионных LLM и качественную картинку диффузионок, которые таким пониманием не обладают.
Черрипики выше — судите сами. Помните, что это всего 5B параметров.
Project page
Пейпер
@ai_newz
❤56👍39🔥14😱6❤🔥3😁2😍1
RIP Photoshop (нет)
Потестил я мультимодальную Gemini Flash 2.0 (Image Generation) Experimental. Мог бы сказать, что фотошоп в целом больше не нужен, но, блин, эта штука в туории может куда больше, чем мог бы Photoshop. Я совсем не представляю, как можно было бы вручную наложить шоколадный крем на круассаны с первой пикчи.
Никакой из доступных из коробки методов не способен был такое провернуть. Через ControlNet или inpainting так не сделаешь, потому что они изменяют детали — круассаны будут чуть другими или по-другому лежать. А здесь мы имеем хирургически точное редактирование картинки одним только текстом. Единственный минус пока - это низкая детализация и низкое разрешение генераций.
Другие юзкейсы:
- Product photo — раньше нужно было бы тренить LoRA, чтобы получить пикчу №2. Нужно больше фотографий + примерно час работы.
- Character sheet design — пикча №3. По одному концепту получаем разворот с трех сторон для моделлеров. Можно было бы погенерить что-то подобное, но здесь мы видим консистентность, которой раньше было сложно добиться моделями из коробки.
- Нейрофотосессии — пикча №4. Повторяем лицо по одной фотографии так, словно это LoRA для Flux.
- Гайды — пикчи №5,6,7. Может на картинке выделять, куда тыкнуть, рисовать консистентные гайды, как здесь в примере с готовкой.
И т.д.
Вот она, сила мультимодальных моделей. Все это благодаря тому, что тут генерация изображений и LLM объединены вместе. В отличие от, например Flux или Imagen 3, тут картиночные токены выплевываются напрямую из LLM, без вызова диффузии. За счет этого и достигается более нативное редактирование входных картинок. Но такой метод все же пока уступает диффузии в качестве генерации.
Кстати, в Grok такую LLM-генерацию (Aurora) завезли еще в декабре, и ее можно попробовать в Grok3, вот только редактирование там пока отключили.
Что-то подобное показывала OpenAI ещё в прошлом году, но так в прод и не завезли (эх Cэма-Сэма). Если Gemini Flash так хорош и дешевле, то что будет с 4o?
Попробовать можно в ai studio.
@ai_newz
Потестил я мультимодальную Gemini Flash 2.0 (Image Generation) Experimental. Мог бы сказать, что фотошоп в целом больше не нужен, но, блин, эта штука в туории может куда больше, чем мог бы Photoshop. Я совсем не представляю, как можно было бы вручную наложить шоколадный крем на круассаны с первой пикчи.
Никакой из доступных из коробки методов не способен был такое провернуть. Через ControlNet или inpainting так не сделаешь, потому что они изменяют детали — круассаны будут чуть другими или по-другому лежать. А здесь мы имеем хирургически точное редактирование картинки одним только текстом. Единственный минус пока - это низкая детализация и низкое разрешение генераций.
Другие юзкейсы:
- Product photo — раньше нужно было бы тренить LoRA, чтобы получить пикчу №2. Нужно больше фотографий + примерно час работы.
- Character sheet design — пикча №3. По одному концепту получаем разворот с трех сторон для моделлеров. Можно было бы погенерить что-то подобное, но здесь мы видим консистентность, которой раньше было сложно добиться моделями из коробки.
- Нейрофотосессии — пикча №4. Повторяем лицо по одной фотографии так, словно это LoRA для Flux.
- Гайды — пикчи №5,6,7. Может на картинке выделять, куда тыкнуть, рисовать консистентные гайды, как здесь в примере с готовкой.
И т.д.
Вот она, сила мультимодальных моделей. Все это благодаря тому, что тут генерация изображений и LLM объединены вместе. В отличие от, например Flux или Imagen 3, тут картиночные токены выплевываются напрямую из LLM, без вызова диффузии. За счет этого и достигается более нативное редактирование входных картинок. Но такой метод все же пока уступает диффузии в качестве генерации.
Кстати, в Grok такую LLM-генерацию (Aurora) завезли еще в декабре, и ее можно попробовать в Grok3, вот только редактирование там пока отключили.
Что-то подобное показывала OpenAI ещё в прошлом году, но так в прод и не завезли (эх Cэма-Сэма). Если Gemini Flash так хорош и дешевле, то что будет с 4o?
Попробовать можно в ai studio.
@ai_newz
❤164🔥96👍54😍8😱4😁3💯3🤯1🤩1🙏1
Нейродайджест за неделю (#60)
🎉 Юбилейный выпуск!
LLM
- Анонсы OpenAI – докинули удобных фич для API, в том числе computer use.
- Прямое включение – привет с Gemma Developer Day, смотрю на Gemma 3 из первых рук.
- Gemma 3 – топ-2 моделька в опенсорсе сразу после DeepSeek R1, удобно влезает в одну H100/A100 GPU в bf16.
- T-lite и T-pro – челиксы запилили очень подробный техрепорт о тренировке LLM.
Генеративные модели
- LanDiff – еще один видеогенератор, но на этот раз вместе с LLM. Обещает хорошо понимать, что вообще происходит в кадре, за счет семантических токенов.
- Gemini Flash 2.0 – редактируем картинки текстом при помощи мультимодальной LLM.
> Читать дайджест #59
#дайджест
@ai_newz
🎉 Юбилейный выпуск!
LLM
- Анонсы OpenAI – докинули удобных фич для API, в том числе computer use.
- Прямое включение – привет с Gemma Developer Day, смотрю на Gemma 3 из первых рук.
- Gemma 3 – топ-2 моделька в опенсорсе сразу после DeepSeek R1, удобно влезает в одну H100/A100 GPU в bf16.
- T-lite и T-pro – челиксы запилили очень подробный техрепорт о тренировке LLM.
Генеративные модели
- LanDiff – еще один видеогенератор, но на этот раз вместе с LLM. Обещает хорошо понимать, что вообще происходит в кадре, за счет семантических токенов.
- Gemini Flash 2.0 – редактируем картинки текстом при помощи мультимодальной LLM.
> Читать дайджест #59
#дайджест
@ai_newz
3👍36⚡23❤8❤🔥6
Трекинг-костюм больше не нужен
Зацените, что может Move AI Gen 2. Трекает действительно очень точно — ну, по крайней мере, на глаз. Может захватить команду футболистов, да ещё и на большом расстоянии.
Вот полный список того, что можно затрекать:
— 3D motion capture
— full-body dynamics
— joint torques
— ground reaction forces
— advanced motion retargeting
— motion prediction
И всё это работает с одной камеры. Ну или с нескольких — для большей точности. В первой версии был реалтайм-режим, так что, скорее всего, и здесь будет. Представьте, как весело актёрам: играешь Годзиллу и в реальном времени видишь себя, крушащего здания на экране, ведь всё это ещё цепляется к Unreal Engine 5.
На сайте можно попробовать самому — дают 30 кредитов на 30 секунд видео. Пока только для первой версии, но даже она справилась с моим бенчмарком. Подписка, правда, какая-то убер-дорогая: $15 за 180 кредитов. Хотя, может, для анимаций в играх хватит.
Стартап совсем не раскрывает своих секретов, ни намёка. Но думаю, скоро такие штуки появятся и в опенсорсе — вот тогда будет весело. Особенно для всяких видео-генераторов.
@ai_newz
Зацените, что может Move AI Gen 2. Трекает действительно очень точно — ну, по крайней мере, на глаз. Может захватить команду футболистов, да ещё и на большом расстоянии.
Вот полный список того, что можно затрекать:
— 3D motion capture
— full-body dynamics
— joint torques
— ground reaction forces
— advanced motion retargeting
— motion prediction
И всё это работает с одной камеры. Ну или с нескольких — для большей точности. В первой версии был реалтайм-режим, так что, скорее всего, и здесь будет. Представьте, как весело актёрам: играешь Годзиллу и в реальном времени видишь себя, крушащего здания на экране, ведь всё это ещё цепляется к Unreal Engine 5.
На сайте можно попробовать самому — дают 30 кредитов на 30 секунд видео. Пока только для первой версии, но даже она справилась с моим бенчмарком. Подписка, правда, какая-то убер-дорогая: $15 за 180 кредитов. Хотя, может, для анимаций в играх хватит.
Стартап совсем не раскрывает своих секретов, ни намёка. Но думаю, скоро такие штуки появятся и в опенсорсе — вот тогда будет весело. Особенно для всяких видео-генераторов.
@ai_newz
👍133🔥95🤯26❤14⚡3😁2
Mistral Small обновили
Mistral Small 3.1 обгоняет Gemma 3 по большинству бенчей, с особенно большим отрывом на мультимодальных бенчах. Да и с закрытыми дешёвыми моделями она хороша себя показывает — по мультимодальности Mistral Small рвёт 4o-mini и Haiku 3.5, но отстаёт от Flash 2.0. С текстом всё тоже неплохо, но разрыв с 4o-mini и Haiku 3.5 значительно меньше, а от Gemini модель по прежнему отстаёт.
Модель быстрая — API выдаёт 150 токенов в секунду — быстрее лишь Command A от Cohere и 2.0 Flash. Что ещё важно — лицензия у них Apache 2.0, что означает полную свободу делать что угодно с моделью. У той же Gemma 3 лицензия вирусная — под неё подпадают не только тюны, но и модели которые научили на основе данных из Gemma, что может стать проблемой.
@ai_newz
Mistral Small 3.1 обгоняет Gemma 3 по большинству бенчей, с особенно большим отрывом на мультимодальных бенчах. Да и с закрытыми дешёвыми моделями она хороша себя показывает — по мультимодальности Mistral Small рвёт 4o-mini и Haiku 3.5, но отстаёт от Flash 2.0. С текстом всё тоже неплохо, но разрыв с 4o-mini и Haiku 3.5 значительно меньше, а от Gemini модель по прежнему отстаёт.
Модель быстрая — API выдаёт 150 токенов в секунду — быстрее лишь Command A от Cohere и 2.0 Flash. Что ещё важно — лицензия у них Apache 2.0, что означает полную свободу делать что угодно с моделью. У той же Gemma 3 лицензия вирусная — под неё подпадают не только тюны, но и модели которые научили на основе данных из Gemma, что может стать проблемой.
@ai_newz
1🔥87👍35❤9❤🔥4😁1🦄1
Blackwell Ultra — новые GPU от Nvidia
В новые GB300 докинули памяти до 288 гигабайт, а компьют увеличили в полтора раза — с 10 Dense FP4 петафлопс в GB200, до 15 в GB300. Новые инструкции для аттеншна в два раза быстрее чем аттеншн на оригинальном Blackwell, ждём вайтпейпера с деталями. Пропускную способность памяти вроде не тронули, но изменений за год и так более чем достаточно.
На основе GB300 будут и новые сервера — GB300 NVL72 и HGX B300 NVL16. В новом NVL72 теперь будет 20 терабайт видеопамяти, плюс 40 терабайт LPDDR5X, которые напрямую доступны GPU. Про цену ничего не сказали, но она явно выше 3 миллионов за GB200 NVL72.
@ai_newz
В новые GB300 докинули памяти до 288 гигабайт, а компьют увеличили в полтора раза — с 10 Dense FP4 петафлопс в GB200, до 15 в GB300. Новые инструкции для аттеншна в два раза быстрее чем аттеншн на оригинальном Blackwell, ждём вайтпейпера с деталями. Пропускную способность памяти вроде не тронули, но изменений за год и так более чем достаточно.
На основе GB300 будут и новые сервера — GB300 NVL72 и HGX B300 NVL16. В новом NVL72 теперь будет 20 терабайт видеопамяти, плюс 40 терабайт LPDDR5X, которые напрямую доступны GPU. Про цену ничего не сказали, но она явно выше 3 миллионов за GB200 NVL72.
@ai_newz
🤯161👍40🔥21❤11🦄3😁1
Pika тизерят очередную фичу: v2v.
На сей раз это что-то очень похожее на то, что делает наш MovieGen. Закидываешь в нейронку свой видос, текстом задаёшь, какие изменения или эффекты хочешь увидеть, и на выходе получаешь ролик с VFX. . Выглядит прикольно, но на практике наверняка будут вылезать артефакты. У Pika модели всё же послабее, чем у текущих лидеров — Kling и Luma, не говоря уже про Veo 2. Но для каких-нибудь приколов пойдет.
Мне нравится вектор развития Pika. Они уже зарелизили кучу прикольных инструментов, которые пока никто не повторил. Они, кажется, первыми придумали пресеты с нейроэффектами и ввели видеоэффекты типа Pikaditions, позволяющие вставлять в ролики новых персонажей или предметы просто по картинке. Пока им остаётся подтянуть качество базовой модели — и получится по-настоящему мощный продукт.
@ai_newz
На сей раз это что-то очень похожее на то, что делает наш MovieGen. Закидываешь в нейронку свой видос, текстом задаёшь, какие изменения или эффекты хочешь увидеть, и на выходе получаешь ролик с VFX. . Выглядит прикольно, но на практике наверняка будут вылезать артефакты. У Pika модели всё же послабее, чем у текущих лидеров — Kling и Luma, не говоря уже про Veo 2. Но для каких-нибудь приколов пойдет.
Мне нравится вектор развития Pika. Они уже зарелизили кучу прикольных инструментов, которые пока никто не повторил. Они, кажется, первыми придумали пресеты с нейроэффектами и ввели видеоэффекты типа Pikaditions, позволяющие вставлять в ролики новых персонажей или предметы просто по картинке. Пока им остаётся подтянуть качество базовой модели — и получится по-настоящему мощный продукт.
@ai_newz
53🔥97👍34❤21😁2🤩2🫡1
Нейродайджест за неделю (#61)
LLM
- Mistral Small 3.1 — небольшой апдейт, по уровню чуть выше, чем Gemma 3, но с лицензией Apache 2.0.
Генеративные модели
- Move AI Gen 2 — motion tracking без спецкостюма. Работает с одной камеры и может захватить целое футбольное поле.
- Pika v2v — редактируем видео по текстовому запросу. Такое раньше мог только наш закрытый MovieGen, ну а здесь можно подергать самому. Правда, Pika традиционно с горсткой артефактов.
Железо
- Blackwell Ultra — новые GPU от Nvidia в полтора раза мощнее предшественников. Всё хорошо, только бы успевали ещё развозить их по серверным, чтобы нейроночки крутились 😋
> Читать дайджест #60
#дайджест
@ai_newz
LLM
- Mistral Small 3.1 — небольшой апдейт, по уровню чуть выше, чем Gemma 3, но с лицензией Apache 2.0.
Генеративные модели
- Move AI Gen 2 — motion tracking без спецкостюма. Работает с одной камеры и может захватить целое футбольное поле.
- Pika v2v — редактируем видео по текстовому запросу. Такое раньше мог только наш закрытый MovieGen, ну а здесь можно подергать самому. Правда, Pika традиционно с горсткой артефактов.
Железо
- Blackwell Ultra — новые GPU от Nvidia в полтора раза мощнее предшественников. Всё хорошо, только бы успевали ещё развозить их по серверным, чтобы нейроночки крутились 😋
> Читать дайджест #60
#дайджест
@ai_newz
⚡29👍19🔥5❤2🦄1