This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за моушен дизайнеров. Но нет, спасибо.
HeyGen решил влезть на совсем уж чужую поляну - Motion Design.
И выкатил ноую фичу, которая так и называется Motion Designer.
Смотрите большое видео - весь маркетинг построен на "моушен дезигнеры не нужны, аниматоры не нужны, опыт не нужен, афтер эффектговно тоже не нужен."
Но нет.
Подсобрал примеров. Ребята путают моушен с просто плашками-шевеляшками или анимированными слайдами в паверпойнте.
Наверно для очень примитивных перебивок между говорящими головами от HeyGen пойдет, но это не Motion Design.
@cgevent
HeyGen решил влезть на совсем уж чужую поляну - Motion Design.
И выкатил ноую фичу, которая так и называется Motion Designer.
Смотрите большое видео - весь маркетинг построен на "моушен дезигнеры не нужны, аниматоры не нужны, опыт не нужен, афтер эффект
Но нет.
Подсобрал примеров. Ребята путают моушен с просто плашками-шевеляшками или анимированными слайдами в паверпойнте.
Наверно для очень примитивных перебивок между говорящими головами от HeyGen пойдет, но это не Motion Design.
@cgevent
😁18👍9❤6👎2
Media is too big
VIEW IN TELEGRAM
Нейропрожарка
Культовая реклама из 2000-х от Эдгара @edgar_gainullin.
Давно искал идею, чтобы комплексно подойти к творческой задаче, в которой нейросети смогут раскрыть свои возможности.
Работа делилась на два этапа: генерация изображений в Midjourney и анимация получившихся кадров в Kling и Midjourney. Сложность заключалась в передаче формы ткани и свойств подводных существ. Нейросеть не понимает, что, например, носок должен выглядеть как рыба, или рыба - быть в виде носка, приходилось очень много менять формулировки промта, чтобы достичь нужного результата.
Последующая анимация также оказалась непростой: нейросети было трудно придать одежде движения, характерные для подводных обитателей.
Итоги:
• 220 - общее количество генераций исходных изображений
• 45 - количество попыток генерации видео
• 12 часов - затрачено на реализацию, включая монтаж
@cgevent
Культовая реклама из 2000-х от Эдгара @edgar_gainullin.
Давно искал идею, чтобы комплексно подойти к творческой задаче, в которой нейросети смогут раскрыть свои возможности.
Работа делилась на два этапа: генерация изображений в Midjourney и анимация получившихся кадров в Kling и Midjourney. Сложность заключалась в передаче формы ткани и свойств подводных существ. Нейросеть не понимает, что, например, носок должен выглядеть как рыба, или рыба - быть в виде носка, приходилось очень много менять формулировки промта, чтобы достичь нужного результата.
Последующая анимация также оказалась непростой: нейросети было трудно придать одежде движения, характерные для подводных обитателей.
Итоги:
• 220 - общее количество генераций исходных изображений
• 45 - количество попыток генерации видео
• 12 часов - затрачено на реализацию, включая монтаж
@cgevent
2🔥98👍40👎13❤11😱1
LongCat-Video:
A Unified Foundational Video Generation Model
Новый опенсорсный видеогенератор и доставка еды.
И да, это новая базовая модель, а не нашлепки над WAN или миксы из WAN и CogVideo, коих развелось немеренно.
И судя по размеру (13.6B параметров) она в той же лиге, что и WAN.
Как следует из названия, ее главная фишка - это способность создавать длинные (несколькоминутные) видео с (как пишут авторы) сохранением консистентности.
Сейчас вы идете вот сюда:
https://meituan-longcat.github.io/LongCat-Video/
и мотаете на Long Video Gallery, чтобы посмотреть примеры.
Кроме того, еще одна фишка - продолжение видосов: Video Continuation - даже можно указывать в промпте временные метки типа:
Само собой у них есть text2video и image2video (6 секунд), 720p.
Причем генерация идет в два этапа, где второй - это рефайнер\улучшайзер первого этапа генерации. Также внутри есть лора-дистиллятор, которая позволяет считать всего на 16 шагах.
Про потребление видеопамяти(VRAM) ничего не написано, но судя по весам и тестам на H800, где-то 60 гиг
А про скорость есть табличка в техрепорте:
93 кадра в 720р и 50 шагов - 24 минуты
93 кадра в 480р и 16 шагов - 1 минута
Код есть, можно расчехлять H100 или ждать Киджая для Комфи.
Но самое интересное дальше.
Авторы - компания Meituan — крупнейшая в Китае платформа «local life» (супер-приложение для локальных услуг): еда с доставкой, «мгновенная» розница, купоны/бронирования офлайн-услуг, отели и путешествия, транспорт/велошеринг и сервисы для бизнесов. Компания монетизирует комиссию с заказов, рекламу внутри экосистемы и платные B2B-инструменты для продавцов.
Да-да, доставщики еды теперь тренируют базовые модели для видеогенерации.
Живите теперь с этим.
Еда тут: https://meituan-longcat.github.io/LongCat-Video/
Информативный Апдейт от подписчика Бориса:
Что я понял из папиры:
1. в одной модели: t2v, i2v, + продолжение видоса.
2. генерация минут(!), а не только секунд
3. Нет фигни которая была в скользящем окне WANа, когда у тебя с кажой итерацией росла контарстность и шум + артекфакт в деталях накапливались. К концу видоса каечство падать не должно.
4. Модель с нуля тренили на продолжение видео
5. "Запоминает" начальные кадры один раз и не пересчитывает каждый шаг
6. Coarse-to-fine генерация. Сначала делает видео: 480p, 15 FPS (быстро и дешево), Потом апскейлит до 720p, 30 FPS
7. Block sparse attention — считает только 10% от обычного внимания, но результат почти такой же. Непонятно как это коррелируется\работает с sage. (Block Attention с KVCache их собственная разработка)
8. По азявлени авторов: Модель понимает физику мира лучше всех . По физике/здравому смыслу — 1-е место (обходит даже Google Veo)
9. Юзают энкодер ВАНа - 2.1, но архитектура не ван
10. НЕ дифузная модель , а флоу (Flow Matching). Физика обрастает пикселями, а не предсказание пикселей во времени без учета физики. Тренили с поощрением по референсным образцам - т.е. в теории физику можно дообучать.
ЗЫ чуваки решили проблему GRPO. крутой метод обучения из мира LLM. Но когда попытались применить к видео (Flow Matching), всё сломалось: градиенты пропадали, обучение тормозило. Они починили математику - теперь все круто.
Про лоры не понятно но поскольку Dit есть - то наверное можно.
@cgevent
A Unified Foundational Video Generation Model
Новый опенсорсный видеогенератор и доставка еды.
И да, это новая базовая модель, а не нашлепки над WAN или миксы из WAN и CogVideo, коих развелось немеренно.
И судя по размеру (13.6B параметров) она в той же лиге, что и WAN.
Как следует из названия, ее главная фишка - это способность создавать длинные (несколькоминутные) видео с (как пишут авторы) сохранением консистентности.
Сейчас вы идете вот сюда:
https://meituan-longcat.github.io/LongCat-Video/
и мотаете на Long Video Gallery, чтобы посмотреть примеры.
Кроме того, еще одна фишка - продолжение видосов: Video Continuation - даже можно указывать в промпте временные метки типа:
0:00
The kitchen is bright and airy, featuring white cabinets and a wooden countertop. A loaf of freshly baked bread rests on a cutting board, and a glass and a carton of milk are positioned nearby. A woman wearing a floral apron stands at the wooden countertop, skillfully slicing a golden-brown loaf of bread with a sharp knife. The bread is resting on a cutting board, and crumbs scatter around as she cuts.
0:06
Camera zooms out, The woman puts down the knife in her hand, reaches for the carton of milk and then pours it into the glass on the table.
0:11
The woman puts down the milk carton.
0:16
The woman picks up the glass of milk and takes a sip.
Само собой у них есть text2video и image2video (6 секунд), 720p.
Причем генерация идет в два этапа, где второй - это рефайнер\улучшайзер первого этапа генерации. Также внутри есть лора-дистиллятор, которая позволяет считать всего на 16 шагах.
Про потребление видеопамяти(VRAM) ничего не написано, но судя по весам и тестам на H800, где-то 60 гиг
А про скорость есть табличка в техрепорте:
93 кадра в 720р и 50 шагов - 24 минуты
93 кадра в 480р и 16 шагов - 1 минута
Код есть, можно расчехлять H100 или ждать Киджая для Комфи.
Но самое интересное дальше.
Авторы - компания Meituan — крупнейшая в Китае платформа «local life» (супер-приложение для локальных услуг): еда с доставкой, «мгновенная» розница, купоны/бронирования офлайн-услуг, отели и путешествия, транспорт/велошеринг и сервисы для бизнесов. Компания монетизирует комиссию с заказов, рекламу внутри экосистемы и платные B2B-инструменты для продавцов.
Да-да, доставщики еды теперь тренируют базовые модели для видеогенерации.
Живите теперь с этим.
Еда тут: https://meituan-longcat.github.io/LongCat-Video/
Информативный Апдейт от подписчика Бориса:
Что я понял из папиры:
1. в одной модели: t2v, i2v, + продолжение видоса.
2. генерация минут(!), а не только секунд
3. Нет фигни которая была в скользящем окне WANа, когда у тебя с кажой итерацией росла контарстность и шум + артекфакт в деталях накапливались. К концу видоса каечство падать не должно.
4. Модель с нуля тренили на продолжение видео
5. "Запоминает" начальные кадры один раз и не пересчитывает каждый шаг
6. Coarse-to-fine генерация. Сначала делает видео: 480p, 15 FPS (быстро и дешево), Потом апскейлит до 720p, 30 FPS
7. Block sparse attention — считает только 10% от обычного внимания, но результат почти такой же. Непонятно как это коррелируется\работает с sage. (Block Attention с KVCache их собственная разработка)
8. По азявлени авторов: Модель понимает физику мира лучше всех . По физике/здравому смыслу — 1-е место (обходит даже Google Veo)
9. Юзают энкодер ВАНа - 2.1, но архитектура не ван
10. НЕ дифузная модель , а флоу (Flow Matching). Физика обрастает пикселями, а не предсказание пикселей во времени без учета физики. Тренили с поощрением по референсным образцам - т.е. в теории физику можно дообучать.
ЗЫ чуваки решили проблему GRPO. крутой метод обучения из мира LLM. Но когда попытались применить к видео (Flow Matching), всё сломалось: градиенты пропадали, обучение тормозило. Они починили математику - теперь все круто.
Про лоры не понятно но поскольку Dit есть - то наверное можно.
@cgevent
👍14🔥10😁4❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Seed3D 1.0
У Bytedance есть целое семейство разных генераторов под зонтиком Seed:
Seedream 4.0 - генератор картинок
Seededit 3.0 - прошлая версия редактора картинок
Seedance 1.0 - очень хороший видеогенератор
и даже померший Seedmusic
Теперь они вкатились на поляну 3Д со своим Seed3D 1.0.
Спойлер: нет ничего! Кроме техрепорта.
На сайте проекта:
https://seed.bytedance.com/en/seed3d
они в основном похваляются, как побивают Трипо и Треллис на загадочных тестах.
Тем не менее, из статьи следует, что они делают UV развертки, текстуры, материалы и ретопологию:
Final Asset Integration. The completed texture maps—albedo, metallic, and roughness—are integrated with the mesh to produce the final 3D asset. The resulting asset features watertight, manifold geometry with optimized topology, suitable for rendering, simulation, and interactive applications. Assets are exported in standard formats (OBJ, GLB) for broad compatibility
Я немного почитал китайские отзывы, сетка, судя по всему, дрянь с точки зрения топологии.
Также они похваляются, что умеют генерить целые сцены по картинке. Где VLM разыскивает и сегментирует объекты, а потом собирает сцену (маленький мир) исходя из размеров и положений.
Еще одна фишка (надуманная имхо), интеграция с симулятором Isaac Sim от Нвидия, где они генерируют слой коллизий из полученной 3Д-модели. Это можно сделать с абсолютно любой 3Д-моделью из любого генератора.
В общем ждем хотя бы демо, чтобы пощупать сетки. Пока это все обещания, но обещания интересные, судя по видеогенератору Seedance.
@cgevent
У Bytedance есть целое семейство разных генераторов под зонтиком Seed:
Seedream 4.0 - генератор картинок
Seededit 3.0 - прошлая версия редактора картинок
Seedance 1.0 - очень хороший видеогенератор
и даже померший Seedmusic
Теперь они вкатились на поляну 3Д со своим Seed3D 1.0.
Спойлер: нет ничего! Кроме техрепорта.
На сайте проекта:
https://seed.bytedance.com/en/seed3d
они в основном похваляются, как побивают Трипо и Треллис на загадочных тестах.
Тем не менее, из статьи следует, что они делают UV развертки, текстуры, материалы и ретопологию:
Final Asset Integration. The completed texture maps—albedo, metallic, and roughness—are integrated with the mesh to produce the final 3D asset. The resulting asset features watertight, manifold geometry with optimized topology, suitable for rendering, simulation, and interactive applications. Assets are exported in standard formats (OBJ, GLB) for broad compatibility
Я немного почитал китайские отзывы, сетка, судя по всему, дрянь с точки зрения топологии.
Также они похваляются, что умеют генерить целые сцены по картинке. Где VLM разыскивает и сегментирует объекты, а потом собирает сцену (маленький мир) исходя из размеров и положений.
Еще одна фишка (надуманная имхо), интеграция с симулятором Isaac Sim от Нвидия, где они генерируют слой коллизий из полученной 3Д-модели. Это можно сделать с абсолютно любой 3Д-моделью из любого генератора.
В общем ждем хотя бы демо, чтобы пощупать сетки. Пока это все обещания, но обещания интересные, судя по видеогенератору Seedance.
@cgevent
👍3❤1
Media is too big
VIEW IN TELEGRAM
Нейропрожарка
Автор: @neuro_ver
Название: Telegram против WhatsApp
🧠 Идея
Ролик о том, как WhatsApp постоянно догоняет Telegram, «одалживая» у него функции и идеи. Хотел показать это в форме визуальной притчи — два персонажа, где один всегда пытается повторить другого, но выходит неловко. Такой небольшой сатирический скетч.
🎬 Производственный процесс
Работа старая — ещё времён Runway Gen-3, когда возможности моделей были сильно ограничены.
• Генерация видео: Runway Gen-3 (старые версии)
• Монтаж и звук: DaVinci Resolve
• Музыка и эффекты: добавлены вручную в DaVinci (простой звукодизайн)
😵 Сложности и особенности
Gen-3 категорически не хотел делать динамичные сцены — камера уплывала, персонажи начинали «плыть», а движения превращались в кашу.
Пришлось:
• собирать некоторые сцены из нескольких дублей
• маскировать и склеивать кадры вручную
• подгонять тайминги в Resolve, чтобы всё выглядело цельно
Можно сказать, что каждая секунда прошла через «ручное укрощение модели».
⏱️ Сроки и затраты
• Производство: ~1 неделя
• Затраты: подписка на Runway (на момент создания)
📌 Итог
Сейчас я воспринимаю это видео как артефакт доисторической эры нейрогенерации. А вы что думаете?
@cgevent
Автор: @neuro_ver
Название: Telegram против WhatsApp
🧠 Идея
Ролик о том, как WhatsApp постоянно догоняет Telegram, «одалживая» у него функции и идеи. Хотел показать это в форме визуальной притчи — два персонажа, где один всегда пытается повторить другого, но выходит неловко. Такой небольшой сатирический скетч.
🎬 Производственный процесс
Работа старая — ещё времён Runway Gen-3, когда возможности моделей были сильно ограничены.
• Генерация видео: Runway Gen-3 (старые версии)
• Монтаж и звук: DaVinci Resolve
• Музыка и эффекты: добавлены вручную в DaVinci (простой звукодизайн)
😵 Сложности и особенности
Gen-3 категорически не хотел делать динамичные сцены — камера уплывала, персонажи начинали «плыть», а движения превращались в кашу.
Пришлось:
• собирать некоторые сцены из нескольких дублей
• маскировать и склеивать кадры вручную
• подгонять тайминги в Resolve, чтобы всё выглядело цельно
Можно сказать, что каждая секунда прошла через «ручное укрощение модели».
⏱️ Сроки и затраты
• Производство: ~1 неделя
• Затраты: подписка на Runway (на момент создания)
📌 Итог
Сейчас я воспринимаю это видео как артефакт доисторической эры нейрогенерации. А вы что думаете?
@cgevent
👎29👍5😁5❤3
