Media is too big
VIEW IN TELEGRAM
TesserAct: Learning 4D Embodied World Models
Модель предсказывает развитие событий в 3D сцене по входному изображению и текстовому промпту, описывающему действие. На выходе видео RGB + глубина и нормали.
За глубину отвечает Marigold, обещают прикрутить NormalCrafter
Код
Веса
#imageto4d #4d #image2video #image2scene #image2normal #image2depth
Модель предсказывает развитие событий в 3D сцене по входному изображению и текстовому промпту, описывающему действие. На выходе видео RGB + глубина и нормали.
За глубину отвечает Marigold, обещают прикрутить NormalCrafter
Код
Веса
#imageto4d #4d #image2video #image2scene #image2normal #image2depth
🔥6❤2
PixelHacker: Image Inpainting with Structural and Semantic Consistency
Инпейнтинг с сохранением структурной и семантической целостности
Код ждем
Демо ждем
#inpainting
Инпейнтинг с сохранением структурной и семантической целостности
Код ждем
Демо ждем
#inpainting
🔥9
Media is too big
VIEW IN TELEGRAM
ICEdit (In-Context Edit): Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
Редактор картинок текстовыми указаниями
Максимальная ширина кадра 512, высота любая.
Прожорливый, для 512×768 нужно 35 ГБ без выгрузки
Код
Демо
ComfyUI
#imageediting #workflow
Редактор картинок текстовыми указаниями
Максимальная ширина кадра 512, высота любая.
Прожорливый, для 512×768 нужно 35 ГБ без выгрузки
Код
Демо
ComfyUI
#imageediting #workflow
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Ideogram 3.0
Обновился сервис генерации картинок Ideogram
Больше реализма, точнее понимает промпты, предлагает вдвое больше стилей.
Можно загрузить до трех референсов.
Magic Fill - инпейнтинг
Extend - аутпейнтинг
Сделали интеграцию по API через Picsart, Freepik, Replicate
#text2image #referencing #imageediting #inpainting #outpainting
Обновился сервис генерации картинок Ideogram
Больше реализма, точнее понимает промпты, предлагает вдвое больше стилей.
Можно загрузить до трех референсов.
Magic Fill - инпейнтинг
Extend - аутпейнтинг
Сделали интеграцию по API через Picsart, Freepik, Replicate
#text2image #referencing #imageediting #inpainting #outpainting
👍5❤2🔥1
Matrix3D: Large Photogrammetry Model All-in-One
Единая модель фотограмметрии от Apple, выполняющая оценку ракурса, глубины и синтез нового ракурса
Сгенерированные новые ракурсы предлагают использовать для реконструкции сцены гауссианами
Код
#photogrammetry #novelview #image2depth
Единая модель фотограмметрии от Apple, выполняющая оценку ракурса, глубины и синтез нового ракурса
Сгенерированные новые ракурсы предлагают использовать для реконструкции сцены гауссианами
Код
#photogrammetry #novelview #image2depth
👍5
Подписчик поделился фиксом FramePack Studio для настройки разрешения видео (автор почему-то ограничил по ширине то ли 640 то ли 768). Файлы закину в комментарии. Дальше текст подписчика
Спасибо @neurotemporary
#image2video #text2video
Добавил повышенное разрешение для FramePack Studio во вкладку F1
в оригинале было максимум 640 по ширине
bucket_tools.py - добавлены размеры из платной турецкой сборки, размер подбирается примерно (положить в FramePack-Studio\diffusers_helper)
interface.py - разблокировано до 1216 (положить в FramePack-Studio\modules)
Если будут ошибки с тензорами (но лучше не трогать):
wrapper.py (положить в FramePack-Studio\diffusers_helper\k_diffusion)
Так же установлено 40 шагов по умолчанию, можно легко поменять в interface.py
Прога сама по себе супер глючная, надеюсь допилят)
Спасибо @neurotemporary
#image2video #text2video
👍8
Опубликован код инструмента для работы с изображениями ZenCtrl
Разрешение до 1024×1024, уже работают над 1500х1500 и больше, работают над агентским и видеопайплайном
Лучше всего работает с объектами. С людьми - ограниченно. Плохо умеет в иллюстации. Ибо обучен на бедном датасете. В будущем улучшат.
Код
#conditioning #deblur #image2image #personalization #multiview #novelview #referencing
Разрешение до 1024×1024, уже работают над 1500х1500 и больше, работают над агентским и видеопайплайном
Лучше всего работает с объектами. С людьми - ограниченно. Плохо умеет в иллюстации. Ибо обучен на бедном датасете. В будущем улучшат.
Код
#conditioning #deblur #image2image #personalization #multiview #novelview #referencing
👍5
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
Редактор картинок текстом от ByteDance
Авторы обнаружили, что разные шаги генерации играют разные роли в генерации изображений, независимо от промта. В частности, диффузионные модели фокусируются на (а) глобальном макете на ранних стадиях, (б) локальных атрибутах объекта на средних стадиях, (в) деталях изображения на поздних стадиях и (г) стиле изображения на всех стадиях выборки. Это вдохновило их на использование VLM. На схеме видно что ее используют вместо CLIP
Код
#imageediting
Редактор картинок текстом от ByteDance
Авторы обнаружили, что разные шаги генерации играют разные роли в генерации изображений, независимо от промта. В частности, диффузионные модели фокусируются на (а) глобальном макете на ранних стадиях, (б) локальных атрибутах объекта на средних стадиях, (в) деталях изображения на поздних стадиях и (г) стиле изображения на всех стадиях выборки. Это вдохновило их на использование VLM. На схеме видно что ее используют вместо CLIP
Код
#imageediting
👍5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.
Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.
Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.
Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое🤩
Код
Демо - видимо, еще не собрали
#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.
Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.
Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.
Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое
Код
Демо - видимо, еще не собрали
#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4👎1
This media is not supported in your browser
VIEW IN TELEGRAM
ACE-Step: A Step Towards Music Generation Foundation Model
Генератор музыки в опенсорсе, базовая модель, пригодная для дальнейшего файнтюна.
Мультиязычный, есть русский!
Помимо собственно генерации музыки по тексту, умеет делать вариации, смену пола вокалиста, замену слов, замену музыкальных фрагментов.
Обещают лоры с контролнетами, генерацию стемов (отдельных партий), вокал по готовому аккомпанементу
Звучит пока не очень, надеемся на пластичность в файнтюне
Код
Демо
Веса
#music #text2music #musicediting
Генератор музыки в опенсорсе, базовая модель, пригодная для дальнейшего файнтюна.
Мультиязычный, есть русский!
Помимо собственно генерации музыки по тексту, умеет делать вариации, смену пола вокалиста, замену слов, замену музыкальных фрагментов.
Обещают лоры с контролнетами, генерацию стемов (отдельных партий), вокал по готовому аккомпанементу
Звучит пока не очень, надеемся на пластичность в файнтюне
Код
Демо
Веса
#music #text2music #musicediting
👍11👌1
This media is not supported in your browser
VIEW IN TELEGRAM
LTX VIDEO-13B
Выложили веса модели видеогенератора с 13B параметров
ltxv-13b-0.9.7-dev и
ltxv-13b-0.9.7-dev-fp8
FP8 должен завестись на 4090
HF
Гитхаб
ComfyUI
Попробовать на офсайте - притворитесь что вы не в РФ
#text2video #image2video
Выложили веса модели видеогенератора с 13B параметров
ltxv-13b-0.9.7-dev и
ltxv-13b-0.9.7-dev-fp8
FP8 должен завестись на 4090
HF
Гитхаб
ComfyUI
Попробовать на офсайте - притворитесь что вы не в РФ
#text2video #image2video
🔥9❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Insert Anything: Image Insertion via In-Context Editing in DiT
Короче еще один инпейнтинг персонализатор.
Показываем одной картинкой что вставить, на другой - куда вставить
Под капотом FLUX.1-Fill-dev и FLUX.1-Redux-dev
Код
Демо
ComfyUI
#inpainting #personalization #imageediting
Короче еще один инпейнтинг персонализатор.
Показываем одной картинкой что вставить, на другой - куда вставить
Под капотом FLUX.1-Fill-dev и FLUX.1-Redux-dev
Код
Демо
ComfyUI
#inpainting #personalization #imageediting
👍10😁2🔥1
Cursor Pro за фото студенческого билета.
Раздают подписку Cursor Pro студентам на год.
Говорят, заявки из России тоже принимают.
#coding #gift
Раздают подписку Cursor Pro студентам на год.
Говорят, заявки из России тоже принимают.
#coding #gift
🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
Computer Agent
Агент, аналог Operator
Работает в песочнице
Под капотом
smolagents
Qwen2-VL-72B
E2B Desktop
Демо
#agent #browser
Агент, аналог Operator
Работает в песочнице
Под капотом
smolagents
Qwen2-VL-72B
E2B Desktop
Демо
#agent #browser
❤5🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
AgenticSeek
Еще один агент, позиционируют себя как локальную опенсорсную альтернативу Manus на DeepSeek R1.
Без отправки данных в облако.
Для установки понадобятся ChromeDriver, Docker, Python 3.10
Гитхаб
#agent #desktop
Еще один агент, позиционируют себя как локальную опенсорсную альтернативу Manus на DeepSeek R1.
Без отправки данных в облако.
Для установки понадобятся ChromeDriver, Docker, Python 3.10
Гитхаб
#agent #desktop
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments
Реконструкция 3D сцен на гауссианах с удалением движущихся объектов.
На вход нужно монокулярное видео
Код
#gaussian
Реконструкция 3D сцен на гауссианах с удалением движущихся объектов.
На вход нужно монокулярное видео
Код
#gaussian
👍6🔥3❤1
Heygen Avatar IV
Сервис Heygen запустил обновленную функцию оживления портретов.
Достаточно закинуть фото и текст.
А также создали MCP сервер
Доки
Гитхаб
#postrainanimation #lipsync #text2speech #tts #image2video #mcp
Сервис Heygen запустил обновленную функцию оживления портретов.
Достаточно закинуть фото и текст.
А также создали MCP сервер
Доки
Гитхаб
#postrainanimation #lipsync #text2speech #tts #image2video #mcp
👍7🔥3