This media is not supported in your browser
VIEW IN TELEGRAM
MMaDA - Open-Sourced Multimodal Large Diffusion Language Models
Рассуждающая визуально-языковая модель
Умеет генерировать картинки по тексту? понимать их и рассуждать
Код
Демо
#vlm #reasoning
Рассуждающая визуально-языковая модель
Умеет генерировать картинки по тексту? понимать их и рассуждать
Код
Демо
#vlm #reasoning
👍3❤1🔥1
Media is too big
VIEW IN TELEGRAM
Sky
Агент-ассистент для #Mac
Может выполнять действия и отвечать на вопросы для любого окна и любого приложения, открытого на вашем Mac
Под капотом GPT 4.1 или Claude. Умеет пользоваться MCP
Большой обзор
Записаться в вейтлист
#agent
Агент-ассистент для #Mac
Может выполнять действия и отвечать на вопросы для любого окна и любого приложения, открытого на вашем Mac
Под капотом GPT 4.1 или Claude. Умеет пользоваться MCP
Большой обзор
Записаться в вейтлист
#agent
👍6❤1🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
💩9🤡5👍4😐4👎1
This media is not supported in your browser
VIEW IN TELEGRAM
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
Ускорение видеогенерации в 10 раз с сохранением качества. Лучше чем LCM и PCM
Прикручено к HunyuanVideo и WAN2.1
Код
Веса
#optimization #text2video
Ускорение видеогенерации в 10 раз с сохранением качества. Лучше чем LCM и PCM
Прикручено к HunyuanVideo и WAN2.1
Код
Веса
#optimization #text2video
👍12❤2👎2🤡1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
FLAIR: Flow-Based Latent Alignment for Image Restoration
Инверсное восстановление и редактирование изображений на основе потока
Код
Демо
#imageediting #imagerestoration
Инверсное восстановление и редактирование изображений на основе потока
Код
Демо
#imageediting #imagerestoration
👍4❤1
Brie's FramePack Lazy Repose workflow
Управляем позой в FramePack
+ еще какие-то воркфлоу для WAN и VACE
#pose2video #image2video #workflow
Управляем позой в FramePack
+ еще какие-то воркфлоу для WAN и VACE
#pose2video #image2video #workflow
👍10❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation
Улучшение согласованности движения для видеогенераторов без дообучения
Прикручено к Wan2.1 и CogVideo
Код
#text2video
Улучшение согласованности движения для видеогенераторов без дообучения
Прикручено к Wan2.1 и CogVideo
Код
#text2video
🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
Mirage Studio
Сервис говорящих аватаров от Captions уехал на отдельный сайт и дает бесплатно 600 кредитов, 1 секунда видео обойдется в 10 кредитов.
Создает видео говорящего блогера по тексту или аудио.
Можно настроить мимику, движения, эмоции, голос и фон
Попробовать
#humananimation #speech2video #humanavatar
Сервис говорящих аватаров от Captions уехал на отдельный сайт и дает бесплатно 600 кредитов, 1 секунда видео обойдется в 10 кредитов.
Создает видео говорящего блогера по тексту или аудио.
Можно настроить мимику, движения, эмоции, голос и фон
Попробовать
#humananimation #speech2video #humanavatar
👍7
IEAP: Image Editing As Programs with Diffusion Models
И еще один метод редактирования изображений на диффузных трансформерах
Разбивает сложные инструкции на последовательность простых операций. Операции программируются агентом на основе VLM
Код
Демо
#imageediting #inpainting
И еще один метод редактирования изображений на диффузных трансформерах
Разбивает сложные инструкции на последовательность простых операций. Операции программируются агентом на основе VLM
Код
Демо
#imageediting #inpainting
👍3
Media is too big
VIEW IN TELEGRAM
ElevenLabs v3
Пользоваться этим сервисом - слишком попоболь, но вдруг вы мазохист или не россиянин - для вас выкатили самую выразительную модель озвучки текста.
- Поддерживает 70+ языков
- многоголосовой режим
- аудио-теги, которые задают интонацию, эмоции и паузы в речи.
- Считывает эмоциональные переходы, реагирует на контекст, меняет тон в процессе речи.
Весь июнь дают 80% скидки на генерацию.
Промпт-гайд для v3
#tts #text2pseech
Пользоваться этим сервисом - слишком попоболь, но вдруг вы мазохист или не россиянин - для вас выкатили самую выразительную модель озвучки текста.
- Поддерживает 70+ языков
- многоголосовой режим
- аудио-теги, которые задают интонацию, эмоции и паузы в речи.
- Считывает эмоциональные переходы, реагирует на контекст, меняет тон в процессе речи.
Весь июнь дают 80% скидки на генерацию.
Промпт-гайд для v3
#tts #text2pseech
👍2
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation
Видеогенератор создает по одной картинке объемно согласованный мир, последовательность облаков точек с заданной пользователем траекторией камеры. Якобы пригоден для 3D реконструкции с согласованноыми RGB и глубиной
Короче, это не рандомные шевеления, а правильные шевеления, как надо шевеления картинки
Код ждем
#image2video
Видеогенератор создает по одной картинке объемно согласованный мир, последовательность облаков точек с заданной пользователем траекторией камеры. Якобы пригоден для 3D реконструкции с согласованноыми RGB и глубиной
Короче, это не рандомные шевеления, а правильные шевеления, как надо шевеления картинки
Код ждем
#image2video
👍5❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes
А вот генератор реалистичных автомобильных столкновений. Не знаю зачем это вам и не хочу знать
На вход принимает
начальный кадр, баундинг боксы, типы столкновений (например, «Ego-Only crash», «Ego-and-Vehicle crash» и другие)
Код
#image2video #simulation
А вот генератор реалистичных автомобильных столкновений. Не знаю зачем это вам и не хочу знать
На вход принимает
начальный кадр, баундинг боксы, типы столкновений (например, «Ego-Only crash», «Ego-and-Vehicle crash» и другие)
Код
#image2video #simulation
😁5👍2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield Speak
Видеосервис Higgsfield тоже запустил аватары
Выберите стиль, выберите аватар, напишите сценарий. Сервис создаст кинематографичное движение, голос, эмоции.
Передает язык тела, эмоции и динамичное исполнение.
Вы получаете 16 встроенных типов сцен:
Vlog, Stream, Podcast, Car Talk, Coaching, Fashion, Beauty, Professions, Selling, Emotions, 3D, Forum и другие.
Каждый из них разработан для соответствия реальным форматам контента.
Можно создавать свои аватары
Идеально подходит для:
Библиотек рекламных роликов UGC.
Скетчей и форматов шоу.
Учебного и коучингового контента.
Каналов YouTube без лиц.
Клонов инфлюенсеров.
Вирусных видео с говорящими головами.
Higgsfield Speak доступен на тарифах Pro и Ultimate.
Напишите комментарий 'Speak' к официальному посту чтобы поклянчить промокод с туториалом
По промокоду
По промокоду
#humananimation #speech2video #humanavatar
Видеосервис Higgsfield тоже запустил аватары
Выберите стиль, выберите аватар, напишите сценарий. Сервис создаст кинематографичное движение, голос, эмоции.
Передает язык тела, эмоции и динамичное исполнение.
Вы получаете 16 встроенных типов сцен:
Vlog, Stream, Podcast, Car Talk, Coaching, Fashion, Beauty, Professions, Selling, Emotions, 3D, Forum и другие.
Каждый из них разработан для соответствия реальным форматам контента.
Можно создавать свои аватары
Идеально подходит для:
Библиотек рекламных роликов UGC.
Скетчей и форматов шоу.
Учебного и коучингового контента.
Каналов YouTube без лиц.
Клонов инфлюенсеров.
Вирусных видео с говорящими головами.
Higgsfield Speak доступен на тарифах Pro и Ultimate.
Напишите комментарий 'Speak' к официальному посту чтобы поклянчить промокод с туториалом
По промокоду
SPEAK_DISCOUNT
дают скидку 20% на 1 месяц По промокоду
SPEAK_EXTRA
дают жалкие 15 кредитов на 3 генерации#humananimation #speech2video #humanavatar
👍8👎1