This media is not supported in your browser
VIEW IN TELEGRAM
PERSE: Personalized 3D Generative Avatars from A Single Portrait
Анимируемый аватар головы на гауссианах по одному входному портрету с независимой настройкой параметров
Код ждем
#gaussian #head #avatar #facialanimation #image2avatar
Анимируемый аватар головы на гауссианах по одному входному портрету с независимой настройкой параметров
Код ждем
#gaussian #head #avatar #facialanimation #image2avatar
👍5🎃1
PE3R: Perception-Efficient 3D Reconstruction
Реконструкция 3D сцены по нескольким изображениям.
С поиском по сцене: пишем что нужно найти, и нам выделяют цветом заданный объект
Код
Демо
#image2scene #imageto3d
Реконструкция 3D сцены по нескольким изображениям.
С поиском по сцене: пишем что нужно найти, и нам выделяют цветом заданный объект
Код
Демо
#image2scene #imageto3d
👍3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement
А это улучшайзер реконструкций 3D объектов по нескольким изображениям-ракурсам. Улучшение 3D модели происходит за счет предварительного улучшения изображений, поданных на вход.
Код
Демо
#imageto3d #enhance3d #photogrammerty
А это улучшайзер реконструкций 3D объектов по нескольким изображениям-ракурсам. Улучшение 3D модели происходит за счет предварительного улучшения изображений, поданных на вход.
Код
Демо
#imageto3d #enhance3d #photogrammerty
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Lipdub Translation Editor
Сервис дубляжа/липсинка Lipdub AI представил функцию корректирования перевода.
Вам дают скорректировать текст который будет звучать в финальном дублированном видео на целевом языке.
Дают попробовать даже на бесплатном тарифе
#lipsync #dubbing #personalization #speechediting #speech2speech
Сервис дубляжа/липсинка Lipdub AI представил функцию корректирования перевода.
Вам дают скорректировать текст который будет звучать в финальном дублированном видео на целевом языке.
Дают попробовать даже на бесплатном тарифе
#lipsync #dubbing #personalization #speechediting #speech2speech
👍6🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Кому качество кода, кому минимум галлюцинаций.
А Лламе скорость
Llama-3.3-70B-Instruct шпарит со скоростью 2000 токенов в секунду.
Видео не ускорено
Playground - попробовать
#assistant
А Лламе скорость
Llama-3.3-70B-Instruct шпарит со скоростью 2000 токенов в секунду.
Видео не ускорено
Playground - попробовать
#assistant
👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation
Создание анимируемых 4D-сцен взаимодействия человека с объектом (HOI) непосредственно на основе текстовых данных
Код
#HOI #textto3d #textto4d
Создание анимируемых 4D-сцен взаимодействия человека с объектом (HOI) непосредственно на основе текстовых данных
Код
#HOI #textto3d #textto4d
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 2.0 Flash
В Gemini завезли обещанную еще в прошлом году нативную генерацию картинок самой языковой моделью. Можно не только создавать но и редактировать с попиксельной точностью
Заходим в AI Studio, выбираем Gemini 2.0 Flash Experimental, выбираем в Output format «Image and text»
#assistant #mlm #vlm #imageediting #text2image
В Gemini завезли обещанную еще в прошлом году нативную генерацию картинок самой языковой моделью. Можно не только создавать но и редактировать с попиксельной точностью
Заходим в AI Studio, выбираем Gemini 2.0 Flash Experimental, выбираем в Output format «Image and text»
#assistant #mlm #vlm #imageediting #text2image
👍7🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
VACE: All-in-One Video Creation and Editing
Видеогенератор от Alibaba / Tongyi Lab
Они прикрутили туда максимум ништяков: Move-Anything, Swap-Anything, Reference-Anything, Expand-Anything, Animate-Anything
VACE может пересоздать видео с сохранением содержимого, структуры, объекта съемки, позы и движения и т.д.
Код и модель ждем
#text2video #video2video #personalization #videoediting
Видеогенератор от Alibaba / Tongyi Lab
Они прикрутили туда максимум ништяков: Move-Anything, Swap-Anything, Reference-Anything, Expand-Anything, Animate-Anything
VACE может пересоздать видео с сохранением содержимого, структуры, объекта съемки, позы и движения и т.д.
Код и модель ждем
#text2video #video2video #personalization #videoediting
🔥11👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Wan2.1-control-loras
Аналог контролнета для Wn2.1
Дает повышение качества
Воркфлоу в комментах
#enhance #video2video #upscale #videorestoration
Аналог контролнета для Wn2.1
Дает повышение качества
Воркфлоу в комментах
#enhance #video2video #upscale #videorestoration
❤10🔥4
Forwarded from CG Kung Fu
Вот о чем говорил, примерно таким образом и будет строится пайплайн микса сиджи и ИИ, очень примерно, еще много по меняется, но суть в том что даже используя ИИ это не пару кликов нихрена, посмотрите че там чел наворотил в нодовой системе ComfyUI чтоб все это замутить.
Этой почти такой же гемор как и делать это с нуля, но конечно по итогу все равно быстрее, особенно когда уже руку набьешь. Но суть в том что это тот же инструмент и так же будет в пайплайн внедрятся постепенно, хрен знает в каком виде это будет через 5-10 лет, но как то точно будет, пока сложно предсказать, но чел вот грубо показал один из способов когда ты остаешься так же художником и контролируешь процесс, сценарий, динамику, стиль, образы и тд. Но благодаря ИИ многие этапы сильно ускоряются.
Само собой результат палится сильно и куча артефактов, но смотрите с какой скоростью это развивается, не за горами когда артефактов в видео уже не будет, точнее в Соре и Вео от гугла и даже иногда в Клинге их почти нет.
Уже вижу как сиджи чуваки со скилами в ИИ забирают работу у просто сиджи артистов, и студии отдают им предпочтение. Через пару лет.
https://www.youtube.com/watch?v=PZVs4lqG6LA&ab_channel=Mickmumpitz
Этой почти такой же гемор как и делать это с нуля, но конечно по итогу все равно быстрее, особенно когда уже руку набьешь. Но суть в том что это тот же инструмент и так же будет в пайплайн внедрятся постепенно, хрен знает в каком виде это будет через 5-10 лет, но как то точно будет, пока сложно предсказать, но чел вот грубо показал один из способов когда ты остаешься так же художником и контролируешь процесс, сценарий, динамику, стиль, образы и тд. Но благодаря ИИ многие этапы сильно ускоряются.
Само собой результат палится сильно и куча артефактов, но смотрите с какой скоростью это развивается, не за горами когда артефактов в видео уже не будет, точнее в Соре и Вео от гугла и даже иногда в Клинге их почти нет.
Уже вижу как сиджи чуваки со скилами в ИИ забирают работу у просто сиджи артистов, и студии отдают им предпочтение. Через пару лет.
https://www.youtube.com/watch?v=PZVs4lqG6LA&ab_channel=Mickmumpitz
YouTube
Control MULTIPLE CONSISTENT CHARACTERS + CAMERA with this FREE AI Workflow [Blender + ComfyUI]
Learn how to create AI movies, comics or children's books with multiple consistent characters, controllable poses and camera angles with this free ComfyUI-Blender workflow!
If you like my work, please consider supporting me on Patreon: https://www.patre…
If you like my work, please consider supporting me on Patreon: https://www.patre…
❤2
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 GigaChat 2
Друзья, день релиза! Сегодня потихоньку выкатываем новую версию Гигачата. В API он уже доступен, также его можно попробовать в разделе Playground в консоли.
Про улучшения коллеги написали на Хабре. Из прикольного там, например, то, как у ребят получилось приручить DPO, финальный этап обучения, на котором мы пытаемся увеличить вероятность качественного ответа.
Персонажность тоже улучшили, как и вызов функций (появились множественные вызовы) и работу с кодом.
Стало ощутимо лучше, коллеги молодцы.
В обычный чат, думаю, тоже скоро доедет. Пока можете потыкать в API (ключик мой личный, там еще есть немного токенов) и в своем ЛК.
👉 Хабр | Playground | GitHub
Друзья, день релиза! Сегодня потихоньку выкатываем новую версию Гигачата. В API он уже доступен, также его можно попробовать в разделе Playground в консоли.
Про улучшения коллеги написали на Хабре. Из прикольного там, например, то, как у ребят получилось приручить DPO, финальный этап обучения, на котором мы пытаемся увеличить вероятность качественного ответа.
Персонажность тоже улучшили, как и вызов функций (появились множественные вызовы) и работу с кодом.
Стало ощутимо лучше, коллеги молодцы.
В обычный чат, думаю, тоже скоро доедет. Пока можете потыкать в API (ключик мой личный, там еще есть немного токенов) и в своем ЛК.
#pip install gigachat
from gigachat import GigaChat
from gigachat.models import Chat, Messages, MessagesRole
key = "NDFjYTQwOWYtYmRjZi00NzE0LTk3MTQtNWQyOWVjODBjYWU0OjU3YzhkMDgxLTgwZjMtNDQyYS05MWRjLTEyZjg0MzU4NTIyYg=="
payload = Chat(
messages=[Messages(
role=MessagesRole.SYSTEM,
content="Отвечай как пришелец с Венеры"
)],
temperature=0.8,
max_tokens=100,
)
with GigaChat(credentials=key, verify_ssl_certs=False, model="GigaChat-2-Max") as giga:
query = "Как у вас там дела?"
payload.messages.append(Messages(role=MessagesRole.USER, content=query))
response = giga.chat(payload)
print(response.choices[0].message.content)
👉 Хабр | Playground | GitHub
🤡9👍8🤮3🔥1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
BlenderMCP - Blender Model Context Protocol Integration
Адаптер, позволяющий Claude AI выполнять задания в Blender
Состоит из Blender Addon (addon.py) и MCP Server
Код
#assistant #agent #blender
Адаптер, позволяющий Claude AI выполнять задания в Blender
Состоит из Blender Addon (addon.py) и MCP Server
Код
#assistant #agent #blender
🤯11🔥9🤷♂4❤3👍2
Sparse VideoGen: Accelerating Video Generation with Spatial-Temporal Sparse Attention by 2x with High Fidelity
Ускорение генерации видео вдвое без видимой потери качества.
Прикручено к Hunyuan и CogVideoX v1.5. В будущем обещают Wan, и Cosmos
Код
#optimiozation #text2video
Ускорение генерации видео вдвое без видимой потери качества.
Прикручено к Hunyuan и CogVideoX v1.5. В будущем обещают Wan, и Cosmos
Код
#optimiozation #text2video
🔥9👍3
This media is not supported in your browser
VIEW IN TELEGRAM
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
Мультиагентная платформа для автоматизации задач на десктопе от авторов Mobile-Agent (Alibaba)
Код
#agent
Мультиагентная платформа для автоматизации задач на десктопе от авторов Mobile-Agent (Alibaba)
Код
#agent
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Sesame CSM 1B
На прошлой неделе Sesame AI Labs показали интерактивную демку крышесносной голосовой модели, вам еще предлагали практиковать на ней английский.
Сейчас уже доступны веса и код
Модель генерирует RVQ аудио коды по входному тексту и аудио. Плюс, под капотом помогает Llama с декодером
Возможен файнтюн на разные голоса
На русский из коробки не стоит рассчитывать. В датасете был в основном английский.
Код
Веса
#voicemode #text2speech #csm
На прошлой неделе Sesame AI Labs показали интерактивную демку крышесносной голосовой модели, вам еще предлагали практиковать на ней английский.
Сейчас уже доступны веса и код
Модель генерирует RVQ аудио коды по входному тексту и аудио. Плюс, под капотом помогает Llama с декодером
Возможен файнтюн на разные голоса
На русский из коробки не стоит рассчитывать. В датасете был в основном английский.
Код
Веса
#voicemode #text2speech #csm
❤10🔥1