DICEPTION: A Generalist Diffusion Model for Vision Perception
Единая модель создает технические карты на уровне SOTA. Умеет делать глубину, нормали, позу? разные виды сегментации.
Сохраняет мелкие детали сегментации, такие как волосы.
Код ждем
Демо
Спасибо @m_franz
#conditioning #image2mask #image2normal #image2depth #image2pose #segmentation
Единая модель создает технические карты на уровне SOTA. Умеет делать глубину, нормали, позу? разные виды сегментации.
Сохраняет мелкие детали сегментации, такие как волосы.
Код ждем
Демо
Спасибо @m_franz
#conditioning #image2mask #image2normal #image2depth #image2pose #segmentation
This media is not supported in your browser
VIEW IN TELEGRAM
Опубликован код ReCamMaster, модели для изменения траектории камеры в видео.
Родную модель t2v использовать нельзя, но они прикрутили Wan2.1
Обещают онлайн сервис, новости ждем на сайте Kling
Код
Воркфлоу
Видеотуториал
#cameracontrol #novelview #video2video #stabilization #workflow #tutorial
Родную модель t2v использовать нельзя, но они прикрутили Wan2.1
Обещают онлайн сервис, новости ждем на сайте Kling
Код
Воркфлоу
Видеотуториал
#cameracontrol #novelview #video2video #stabilization #workflow #tutorial
Новый драйвер Nvidia 576.02 может сжечь вашу видеокарту
Я просто паникер, поэтому сам не проверял
Новый драйвер Nvidia перестает обновлять данные с датчика температуры и не включает кулер даже при максимальной нагрузке
Безопасные версии драйверов:
для серий 30xx и 40xx - 566.36
для 50xx - 572.83
#news #driver #gpu #лучшеперебздетьчемнедобздеть
Я просто паникер, поэтому сам не проверял
Новый драйвер Nvidia перестает обновлять данные с датчика температуры и не включает кулер даже при максимальной нагрузке
Безопасные версии драйверов:
для серий 30xx и 40xx - 566.36
для 50xx - 572.83
#news #driver #gpu #лучшеперебздетьчемнедобздеть
FramePack LoRa
Экспериментальная попытка прикрутить лору к FramePack. Последний основан на Hunyuan, поэтому попытка не бессмысленная.
Автор обучил лору на китайских боевиках 70-х
Первое видео - оригинальное видео
Второе - попытка воспроизвести резкое панорамирование оригинальным FramePack
Третье - FramePack с лорой
Похоже, что их можно подружить
Форк FramePack с поддержкой лоры
—————————————
Кстати, в FramePack можно разбивать промпт по тайкодам
1) в сборке от Neurogen
2) в FramePack Studio
#prompting #image2video #lora
Экспериментальная попытка прикрутить лору к FramePack. Последний основан на Hunyuan, поэтому попытка не бессмысленная.
Автор обучил лору на китайских боевиках 70-х
Первое видео - оригинальное видео
Второе - попытка воспроизвести резкое панорамирование оригинальным FramePack
Третье - FramePack с лорой
Похоже, что их можно подружить
Форк FramePack с поддержкой лоры
—————————————
Кстати, в FramePack можно разбивать промпт по тайкодам
1) в сборке от Neurogen
2) в FramePack Studio
#prompting #image2video #lora
Media is too big
VIEW IN TELEGRAM
MAGI-1
Новый видеогенератор длинных видео в опенсорсе
Две модели: 24B и 1.5B. Последняя вероятно запустится на RTX 4090
Попробовать можно онлайн, там насыпают кредитов
Попробовать
Веса
Код
#text2video #image2video
Новый видеогенератор длинных видео в опенсорсе
Две модели: 24B и 1.5B. Последняя вероятно запустится на RTX 4090
Попробовать можно онлайн, там насыпают кредитов
Попробовать
Веса
Код
#text2video #image2video
Media is too big
VIEW IN TELEGRAM
Vidu Q1
Обновка видеогенератора
1080p
Обещают четкую картинку, кинематографичные переходы, звуковые эффекты синхронизированные с видео
При регистрации нового аккаунта с промокодом
дают 100 приветственных кредитов (мне дали 180😕 ).
А за лайк видео в твиттере можно выиграть 600 кредитов и что-то там еще
[update] после трех генераций требует подписку
#text2video #image2video #video2sound #sfx
Обновка видеогенератора
1080p
Обещают четкую картинку, кинематографичные переходы, звуковые эффекты синхронизированные с видео
При регистрации нового аккаунта с промокодом
VIDUQ1
дают 100 приветственных кредитов (мне дали 180
А за лайк видео в твиттере можно выиграть 600 кредитов и что-то там еще
[update] после трех генераций требует подписку
#text2video #image2video #video2sound #sfx
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning
Это Flux Fill обученный на матрицах входных изображений.
Получает на вход матрицу картинок, например 2 ряда, 2 столбца и понимает какую задачу надо выполнить. Задач можно придумать много от переноса стиля до смены времени года и генерации технических карт.
Разрешение входных изображений в матрицах при обучении 384x384 пикселя
Много примеров на гитхабе и в демоспейсе
Очень интересно какое применение вы ему найдете?
Поломал голову пока понял что он делает и как это описать. Теперь не знаю какие теги придумать.
В коментах подсказывают что это близнец In-Context-LoRA
Код
Демо
HF
#referencing #image2image #conditioning #text2image
Это Flux Fill обученный на матрицах входных изображений.
Получает на вход матрицу картинок, например 2 ряда, 2 столбца и понимает какую задачу надо выполнить. Задач можно придумать много от переноса стиля до смены времени года и генерации технических карт.
Разрешение входных изображений в матрицах при обучении 384x384 пикселя
Много примеров на гитхабе и в демоспейсе
Очень интересно какое применение вы ему найдете?
Поломал голову пока понял что он делает и как это описать. Теперь не знаю какие теги придумать.
В коментах подсказывают что это близнец In-Context-LoRA
Код
Демо
HF
#referencing #image2image #conditioning #text2image
This media is not supported in your browser
VIEW IN TELEGRAM
DIA
Голосовая модель 1.6B параметров от Nari Labs.
Создана командой из 2 человек.
Послушайте как она умеет в эмоции в сравнении с Elevenlabs и Cesame
Есть управление эмоциями и тоном через входное аудио. Модель умеет создавать смех, кашель, прочищение горла и т.д.
Код
Демо
Демо 2
Колаб
Записаться в вейтлист более мощной модели
#tts #text2speech
Голосовая модель 1.6B параметров от Nari Labs.
Создана командой из 2 человек.
Послушайте как она умеет в эмоции в сравнении с Elevenlabs и Cesame
Есть управление эмоциями и тоном через входное аудио. Модель умеет создавать смех, кашель, прочищение горла и т.д.
Код
Демо
Демо 2
Колаб
Записаться в вейтлист более мощной модели
#tts #text2speech
PartField: Learning 3D Feature Fields for Part Segmentation and Beyond
Сегментация 3D объектов на составляющие от Nvidia. Работает CAD моделями, сгенерированными моделями, реконструкциями на гауссианах
Код
#segmentation #gaussian #3dsegmentation
Сегментация 3D объектов на составляющие от Nvidia. Работает CAD моделями, сгенерированными моделями, реконструкциями на гауссианах
Код
#segmentation #gaussian #3dsegmentation