Вышла обновлённая лора Next Scene для генерации следующего кадра со стабильным удержанием контекста сцены (персонажей, локации, освещения, итд). Работает на основе Qwen Image Edit 2509. 
Что нового:
* Лора натренирована на датасете более высокого качества
* Лучше следует промту
* Убрали артефакты с черными линиями
* Более плавные переходы и общая кинематографичность
Даёте описание начального кадра в одном поле, следующего кадра в другом, и нажимаете сгенерить. Можно задать сразу много промтов для новых кадров, каждый начиная с новой стройки и со слов
На дефолтных настройках по предоставленному Comfy воркфлоу для генерации базовых кадров используется Flux Krea Dev fp8, а также Qwen IE 2509 fp8 с лайтнинг лорой в 4 шага для ускорения. На 4090 + 128 ГБ RAM на базовый кадр уходит 12 сек при 30 шагах, а на производный кадр уже 10 сек. На проходе Flux Krea видюха занята на ~22 ГБ VRAM, а на проходе Qwen все 24 ГБ. Потребление RAM добивает до 80 ГБ.
Как инструмент для получения ключевых кадров очень даже хорошо. Тем более, что тут нет зашакаливания производных фреймов как у Flux Kontext.
Хаггинг
Comfy воркфлоу
Что нового:
* Лора натренирована на датасете более высокого качества
* Лучше следует промту
* Убрали артефакты с черными линиями
* Более плавные переходы и общая кинематографичность
Даёте описание начального кадра в одном поле, следующего кадра в другом, и нажимаете сгенерить. Можно задать сразу много промтов для новых кадров, каждый начиная с новой стройки и со слов
Next Scene: . Под списком промтов для генерации есть счётчик. Хотите генерить с конкретной сцены и дальше — ставите её номер и вперёд. Чтобы начать с начала ставим 0.  На дефолтных настройках по предоставленному Comfy воркфлоу для генерации базовых кадров используется Flux Krea Dev fp8, а также Qwen IE 2509 fp8 с лайтнинг лорой в 4 шага для ускорения. На 4090 + 128 ГБ RAM на базовый кадр уходит 12 сек при 30 шагах, а на производный кадр уже 10 сек. На проходе Flux Krea видюха занята на ~22 ГБ VRAM, а на проходе Qwen все 24 ГБ. Потребление RAM добивает до 80 ГБ.
Как инструмент для получения ключевых кадров очень даже хорошо. Тем более, что тут нет зашакаливания производных фреймов как у Flux Kontext.
Хаггинг
Comfy воркфлоу
Дали доступ в Comfy Cloud.
Визуально отличия минимальны: те же воркфлоу, хотя почему-то нет новых из субграфов. Ворки с моделями доступными по API а-ля Veo 3.1, Sora 2, Kling, Hailuo 02, итд вообще остались без изменений.
А вот в ворках с опенсорсными моделями, теперь когда ты жмёшь на выбор у тебя появляется окно, где веса отображаются плитками и есть поиск. Правда они названы то wan2_1, то wan2.2_ и придётся полазить, чтобы найти нужное. Разрабам надо сгруппировать веса и привести в порядок названия. И подрубиться к хаггингу+гитхабу, чтобы иметь возможность запустить недостающее/желаемое.
Выбора GPU и хранилища для генераций как на Runpod здесь нет. При запуске ворка веса начнут скачиваться и на это уйдёт пара минут. Собственно не все веса есть в fp16/bf16, например нет Qwen. А вот fp8 есть любые, хотя в fp8 я не глядя могу генерить и у себя на компе.
Используя дефолтные шаблоны на изменение одной картинки в Qwen IE 2509 с лайтнинг лорами в 4 шага ушло ~33 сек. Что многовато совсем. Wan 2.2 видео в 720p 16fps пеклось 816 сек (~13 мин) и в итоге только шум на видео.
Консоль отключена и по логам не прочекать что под капотом и детали происходящего. Но по крайне мере генерит без кредитов пока тест (не касается API ворков).
В целом пока печально, ибо от облака ждёшь большего. Но на то это и тест с небольшим выделенным компьютом, чтобы ты им не сжёг за раз все вертолётные деньги от VC.
Если есть вопросы, что посмотреть-потестить пишите в комменты.
Comfy Cloud
Визуально отличия минимальны: те же воркфлоу, хотя почему-то нет новых из субграфов. Ворки с моделями доступными по API а-ля Veo 3.1, Sora 2, Kling, Hailuo 02, итд вообще остались без изменений.
А вот в ворках с опенсорсными моделями, теперь когда ты жмёшь на выбор у тебя появляется окно, где веса отображаются плитками и есть поиск. Правда они названы то wan2_1, то wan2.2_ и придётся полазить, чтобы найти нужное. Разрабам надо сгруппировать веса и привести в порядок названия. И подрубиться к хаггингу+гитхабу, чтобы иметь возможность запустить недостающее/желаемое.
Выбора GPU и хранилища для генераций как на Runpod здесь нет. При запуске ворка веса начнут скачиваться и на это уйдёт пара минут. Собственно не все веса есть в fp16/bf16, например нет Qwen. А вот fp8 есть любые, хотя в fp8 я не глядя могу генерить и у себя на компе.
Используя дефолтные шаблоны на изменение одной картинки в Qwen IE 2509 с лайтнинг лорами в 4 шага ушло ~33 сек. Что многовато совсем. Wan 2.2 видео в 720p 16fps пеклось 816 сек (~13 мин) и в итоге только шум на видео.
Консоль отключена и по логам не прочекать что под капотом и детали происходящего. Но по крайне мере генерит без кредитов пока тест (не касается API ворков).
В целом пока печально, ибо от облака ждёшь большего. Но на то это и тест с небольшим выделенным компьютом, чтобы ты им не сжёг за раз все вертолётные деньги от VC.
Если есть вопросы, что посмотреть-потестить пишите в комменты.
Comfy Cloud
Forwarded from Конференция нейрокреаторов
This media is not supported in your browser
    VIEW IN TELEGRAM
  Андрей — AI-режиссёр, нейрокреатор и ресёрчер. Для генерации использует Comfy, для видео — Wan и Hunyan, для изображений — Qwen, Flux и другие модели, подбирая инструмент под каждую задачу. Монтаж делает в DaVinci Resolve.
Может рассказать про нейронки для создания контента (видео, музыка, 3D, код, итд), AI-агентов для решения задач, цифровую копию реальности для наших авататаров, а также блокчейн и смарт контракты. Использует нейросети как для реализации коммерческих запросов, так и для воплощения своих творческих идей.
Любит Финчера, The Prodigy, экстрим и гладить котиков, но больше всего — моменты, когда машина помогает человеку стать свободнее и творить быстрее.
#спикеры@neurocreatorsart
Please open Telegram to view this post
    VIEW IN TELEGRAM
  Короткометражка с использованием AI для получения глич и нойз эффектов. 
Помимо этого тут и замена лица, замена тела, диффузионный апскейл, и не только. Для захвата движения использовался Move AI. Релайт сцен с HDRI делался через Nvidia DiffusionRenderer на основе видеогенератора Cosmos. Чтобы лицо было стабильным, автор натренировал лору в Wan на шотах танцора с разных сторон и его различными движениями.
Практически всё сделано с помощью локальных AI моделей, Blender, и Flame.
Твит
Помимо этого тут и замена лица, замена тела, диффузионный апскейл, и не только. Для захвата движения использовался Move AI. Релайт сцен с HDRI делался через Nvidia DiffusionRenderer на основе видеогенератора Cosmos. Чтобы лицо было стабильным, автор натренировал лору в Wan на шотах танцора с разных сторон и его различными движениями.
Практически всё сделано с помощью локальных AI моделей, Blender, и Flame.
Твит
4
  Media is too big
    VIEW IN TELEGRAM
  2023 vs 2025
развитие опенсорсных видеогенераторов
Stable Diffusion (Multi-ControlNet) VS Wan 2.2 Animate
развитие опенсорсных видеогенераторов
Stable Diffusion (Multi-ControlNet) VS Wan 2.2 Animate
13
  Один из членов нашего комьюнити Паша Жигарев (Noizlab) вошёл со своим зомби-хоррором в стиле Джорджа Ромеро в Топ-10 финалистов конкурса AI-фильмов от The Dor Brothers. Поздравляем! 
Дальше слово автору:
До этого Паша наваял клип для Limp Bizkit, а сейчас вытворяет интересное с Конаном.
Сайт конкурса The Dor Brothers
Канал Паши
4K на YouTube
  Дальше слово автору:
🔥 ПРЕМЬЕРА: "DAY OF THE DAD"
Синопсис: Город пал. Мертвые правят улицами. Но для одного отца, ведомого памятью о своей дочери, война еще не окончена. Это история о том, на что готов пойти человек, когда у него отняли всё, кроме воспоминаний.
Это — пилотный эпизод для новой вселенной в мире зомби-апокалипсиса.
//////////////////////////
Если вы хотите посмотреть, на что способны нейросети в правильных руках и с арсеналом профессиональных инструментов, — вы смотрите именно такой фильм.
Пока мир сходит с ума по Sora 2, этот фильм — шаг в другую сторону. Это глубокий поклон Джорджу Ромеро и эпохе настоящего, осязаемого грима, а не бездушных CGI-бегунов. Это попытка воссоздать ту самую «аналоговую» эстетику в современном 4К-качестве.
Название фильма — очевидная отсылка к "Day of the Dead" Ромеро. Но я пошел дальше и воссоздал классический постер практически покадрово.
Заставить нейросеть повторить композицию, свет и даже шрифт было настоящим вызовом. Но для меня AI-кино — это не генерация случайных картинок, а осмысленный диалог с историей кинематографа. Это и есть "борьба за качество" — качество не только визуала, но и смысла в каждом кадре.
До этого Паша наваял клип для Limp Bizkit, а сейчас вытворяет интересное с Конаном.
Сайт конкурса The Dor Brothers
Канал Паши
4K на YouTube
Mocha: новый инструмент для замены персонажей в видео на основе Wan.
Многие проекты в этой нише опираются на кадры с масками и направляющие видео с картами глубины/поз/итд. Эта зависимость делает их хрупкими в сложных сценариях связанных с перекрытиями объектов, редкими позами, взаимодействиями персонажа-объекта или сложным освещением. Часто это приводит к визуальным артефактам и нестабильному изображению.
MoCha обходит эти ограничения используя только первый кадр с маской, и рендерит персонажа объединяя разные условия в один поток токенов. Дальше используется RoPE для поддержки референса нескольких картинок и задания длительности видео.
Напоминает Wan Animate, но работает на основе Wan 2.1. Kijai уже добавил в свои ноды и наваял fp8 веса. Также есть и Comfy воркфлоу.
MoCha да мочи!
Сайт
Гитхаб
Comfy воркфлоу
Хаггинг (официальный)
Хаггинг (Kijai)
Многие проекты в этой нише опираются на кадры с масками и направляющие видео с картами глубины/поз/итд. Эта зависимость делает их хрупкими в сложных сценариях связанных с перекрытиями объектов, редкими позами, взаимодействиями персонажа-объекта или сложным освещением. Часто это приводит к визуальным артефактам и нестабильному изображению.
MoCha обходит эти ограничения используя только первый кадр с маской, и рендерит персонажа объединяя разные условия в один поток токенов. Дальше используется RoPE для поддержки референса нескольких картинок и задания длительности видео.
Напоминает Wan Animate, но работает на основе Wan 2.1. Kijai уже добавил в свои ноды и наваял fp8 веса. Также есть и Comfy воркфлоу.
MoCha да мочи!
Сайт
Гитхаб
Comfy воркфлоу
Хаггинг (официальный)
Хаггинг (Kijai)
This media is not supported in your browser
    VIEW IN TELEGRAM
  Deemos: разработчики 3D-генератора Rodin запустили фичу "Partial Redo" для внесения локальных изменений в 3D меш без перегенерации всего объекта.
Плюс подрубили апскейлер Image Enhancer (на сайте ищите в боковой панели справа), который пожалуй сильно отсебятничает в креативе, но работает бесплатно для всех.
До этого они запустили свою 3D модель Gen-2.
Сайт
Твит
  Плюс подрубили апскейлер Image Enhancer (на сайте ищите в боковой панели справа), который пожалуй сильно отсебятничает в креативе, но работает бесплатно для всех.
До этого они запустили свою 3D модель Gen-2.
Сайт
Твит
Media is too big
    VIEW IN TELEGRAM
  Volinga: выпустили Volinga Suite V 0.2, инструмент для для работы со сплатами.
Что нового:
* Значительно ускорилась тренировка сплатов
* Улучшения в UI и новый эксплорер контента
* Релайт в UE через плагин Volinga
* Совместимость с экспортированными файлами из RealityScan
* Софт теперь может обновляться автоматически
Сайт
YouTube
  Что нового:
* Значительно ускорилась тренировка сплатов
* Улучшения в UI и новый эксплорер контента
* Релайт в UE через плагин Volinga
* Совместимость с экспортированными файлами из RealityScan
* Софт теперь может обновляться автоматически
Сайт
YouTube
Udio объявили о партнёрстве с мейджор лейблом Universal Music Group (UMG). Хотя судя по тону письма CEO и как неактивно они развивались с прошлого года после судебных исков — ощущается словно их скорее поглотили. А прямо UMG вряд ли такое бы заявили, ибо их заклюют. 
Возможность скачивания треков на сайте перекрыта. Не припомню, чтобы запартнёрившись с кем-то у тебя пропадал основной функционал. Хотя с аудио-рипами они сделать ничего не смогут, конечно.
Суть "партнёрства" не ясна, кроме того факта, что фаны артистов получат доступ к инструментам Udio для создания AI-ремиксов/каверов/мэшапов/итд.
И тут можно было бы порадоваться за музыкантов, мол они начнут больше зарабатывать. Но учитывая насколько музыкальная индустрия является намеренно непрозрачным болотом, боюсь тёмное станет лишь темнее. Юристы лейбла, из-за отсутствия понимания артистами + судьями технологии и пока её никто не зарегулировал, получили на руки ещё вагон лазеек для того, чтобы в их сетях оставалось больше рыбки. Собственно в письме CEO ничего ведь и не написано про то, что артисты начнут зарабатывать больше, так?
Ещё один инструмент для "работы на промо".
А было бы хорошо, если бы ты мог публиковать трек, а слушатель спокойно генерить на его основе ремикс/ кавер/мэшап, в то время как привязанный смарт-контракт оркестрировал все действия, и каждая сторона (и артисты и создатель генерации) получала бы выплаты со стримов + лицензий. Глобально, автоматизированно, прозрачно.
Тем временем Suno не собираются останавливаться: релизят новые модели, постоянно мутят конкурсы + коллабы, и барабан всё крутиться.
Следом за ними бегут музыкальные Tunee и Producer.ai (ранее Riffuzion). Плюс постепенно в гонку включаются владельцы даже не кластеров, а чёрных дыр с данными: ElevenLabs и OpenAI. Платформа JEN, с моделями натренированными на лицензионном контенте, на данный момент не конкурентоспособна.
В опенсорсе самым весомым ответом пока является ACE-Step от рисовой братвы. Он запускается на 8 ГБ VRAM или меньше, очень быстро генерит, обладает широким функционалом, и качество лучше, чем у JEN. Недалеко отстаёт и Yue.
Сайт Udio
  Возможность скачивания треков на сайте перекрыта. Не припомню, чтобы запартнёрившись с кем-то у тебя пропадал основной функционал. Хотя с аудио-рипами они сделать ничего не смогут, конечно.
Суть "партнёрства" не ясна, кроме того факта, что фаны артистов получат доступ к инструментам Udio для создания AI-ремиксов/каверов/мэшапов/итд.
И тут можно было бы порадоваться за музыкантов, мол они начнут больше зарабатывать. Но учитывая насколько музыкальная индустрия является намеренно непрозрачным болотом, боюсь тёмное станет лишь темнее. Юристы лейбла, из-за отсутствия понимания артистами + судьями технологии и пока её никто не зарегулировал, получили на руки ещё вагон лазеек для того, чтобы в их сетях оставалось больше рыбки. Собственно в письме CEO ничего ведь и не написано про то, что артисты начнут зарабатывать больше, так?
Ещё один инструмент для "работы на промо".
А было бы хорошо, если бы ты мог публиковать трек, а слушатель спокойно генерить на его основе ремикс/ кавер/мэшап, в то время как привязанный смарт-контракт оркестрировал все действия, и каждая сторона (и артисты и создатель генерации) получала бы выплаты со стримов + лицензий. Глобально, автоматизированно, прозрачно.
Тем временем Suno не собираются останавливаться: релизят новые модели, постоянно мутят конкурсы + коллабы, и барабан всё крутиться.
Следом за ними бегут музыкальные Tunee и Producer.ai (ранее Riffuzion). Плюс постепенно в гонку включаются владельцы даже не кластеров, а чёрных дыр с данными: ElevenLabs и OpenAI. Платформа JEN, с моделями натренированными на лицензионном контенте, на данный момент не конкурентоспособна.
В опенсорсе самым весомым ответом пока является ACE-Step от рисовой братвы. Он запускается на 8 ГБ VRAM или меньше, очень быстро генерит, обладает широким функционалом, и качество лучше, чем у JEN. Недалеко отстаёт и Yue.
Сайт Udio
