Telegram Web Link
This media is not supported in your browser
VIEW IN TELEGRAM
PERSE: Personalized 3D Generative Avatars from A Single Portrait

Анимируемый аватар головы на гауссианах по одному входному портрету с независимой настройкой параметров

Код ждем

#gaussian #head #avatar #facialanimation #image2avatar
👍5🎃1
PE3R: Perception-Efficient 3D Reconstruction

Реконструкция 3D сцены по нескольким изображениям.
С поиском по сцене: пишем что нужно найти, и нам выделяют цветом заданный объект

Код
Демо

#image2scene #imageto3d
👍32
This media is not supported in your browser
VIEW IN TELEGRAM
3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement

А это улучшайзер реконструкций 3D объектов по нескольким изображениям-ракурсам. Улучшение 3D модели происходит за счет предварительного улучшения изображений, поданных на вход.

Код
Демо

#imageto3d #enhance3d #photogrammerty
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Lipdub Translation Editor

Сервис дубляжа/липсинка Lipdub AI представил функцию корректирования перевода.

Вам дают скорректировать текст который будет звучать в финальном дублированном видео на целевом языке.

Дают попробовать даже на бесплатном тарифе

#lipsync #dubbing #personalization #speechediting #speech2speech
👍6🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Кому качество кода, кому минимум галлюцинаций.
А Лламе скорость

Llama-3.3-70B-Instruct шпарит со скоростью 2000 токенов в секунду.
Видео не ускорено

Playground - попробовать

#assistant
👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation

Создание анимируемых 4D-сцен взаимодействия человека с объектом (HOI) непосредственно на основе текстовых данных

Код

#HOI #textto3d #textto4d
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 2.0 Flash

В Gemini завезли обещанную еще в прошлом году нативную генерацию картинок самой языковой моделью. Можно не только создавать но и редактировать с попиксельной точностью

Заходим в AI Studio, выбираем Gemini 2.0 Flash Experimental, выбираем в Output format «Image and text»

#assistant #mlm #vlm #imageediting #text2image
👍7🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
VACE: All-in-One Video Creation and Editing

Видеогенератор от Alibaba / Tongyi Lab
Они прикрутили туда максимум ништяков: Move-Anything, Swap-Anything, Reference-Anything, Expand-Anything, Animate-Anything

VACE может пересоздать видео с сохранением содержимого, структуры, объекта съемки, позы и движения и т.д.

Код и модель ждем

#text2video #video2video #personalization #videoediting
🔥11👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Wan2.1-control-loras

Аналог контролнета для Wn2.1
Дает повышение качества

Воркфлоу в комментах

#enhance #video2video #upscale #videorestoration
10🔥4
Forwarded from CG Kung Fu
Вот о чем говорил, примерно таким образом и будет строится пайплайн микса сиджи и ИИ, очень примерно, еще много по меняется, но суть в том что даже используя ИИ это не пару кликов нихрена, посмотрите че там чел наворотил в нодовой системе ComfyUI чтоб все это замутить.

Этой почти такой же гемор как и делать это с нуля, но конечно по итогу все равно быстрее, особенно когда уже руку набьешь. Но суть в том что это тот же инструмент и так же будет в пайплайн внедрятся постепенно, хрен знает в каком виде это будет через 5-10 лет, но как то точно будет, пока сложно предсказать, но чел вот грубо показал один из способов когда ты остаешься так же художником и контролируешь процесс, сценарий, динамику, стиль, образы и тд. Но благодаря ИИ многие этапы сильно ускоряются.

Само собой результат палится сильно и куча артефактов, но смотрите с какой скоростью это развивается, не за горами когда артефактов в видео уже не будет, точнее в Соре и Вео от гугла и даже иногда в Клинге их почти нет.

Уже вижу как сиджи чуваки со скилами в ИИ забирают работу у просто сиджи артистов, и студии отдают им предпочтение. Через пару лет.

https://www.youtube.com/watch?v=PZVs4lqG6LA&ab_channel=Mickmumpitz
2
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 GigaChat 2

Друзья, день релиза! Сегодня потихоньку выкатываем новую версию Гигачата. В API он уже доступен, также его можно попробовать в разделе Playground в консоли.

Про улучшения коллеги написали на Хабре. Из прикольного там, например, то, как у ребят получилось приручить DPO, финальный этап обучения, на котором мы пытаемся увеличить вероятность качественного ответа.

Персонажность тоже улучшили, как и вызов функций (появились множественные вызовы) и работу с кодом.

Стало ощутимо лучше, коллеги молодцы.

В обычный чат, думаю, тоже скоро доедет. Пока можете потыкать в API (ключик мой личный, там еще есть немного токенов) и в своем ЛК.

#pip install gigachat

from gigachat import GigaChat
from gigachat.models import Chat, Messages, MessagesRole

key = "NDFjYTQwOWYtYmRjZi00NzE0LTk3MTQtNWQyOWVjODBjYWU0OjU3YzhkMDgxLTgwZjMtNDQyYS05MWRjLTEyZjg0MzU4NTIyYg=="

payload = Chat(
messages=[Messages(
role=MessagesRole.SYSTEM,
content="Отвечай как пришелец с Венеры"
)],
temperature=0.8,
max_tokens=100,
)

with GigaChat(credentials=key, verify_ssl_certs=False, model="GigaChat-2-Max") as giga:
query = "Как у вас там дела?"
payload.messages.append(Messages(role=MessagesRole.USER, content=query))
response = giga.chat(payload)

print(response.choices[0].message.content)


👉 Хабр | Playground | GitHub
🤡9👍8🤮3🔥1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
BlenderMCP - Blender Model Context Protocol Integration

Адаптер, позволяющий Claude AI выполнять задания в Blender
Состоит из Blender Addon (addon.py) и MCP Server

Код

#assistant #agent #blender
🤯11🔥9🤷‍♂43👍2
This media is not supported in your browser
VIEW IN TELEGRAM
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

Мультиагентная платформа для автоматизации задач на десктопе от авторов Mobile-Agent (Alibaba)

Код

#agent
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Sesame CSM 1B

На прошлой неделе Sesame AI Labs показали интерактивную демку крышесносной голосовой модели, вам еще предлагали практиковать на ней английский.

Сейчас уже доступны веса и код

Модель генерирует RVQ аудио коды по входному тексту и аудио. Плюс, под капотом помогает Llama с декодером

Возможен файнтюн на разные голоса

На русский из коробки не стоит рассчитывать. В датасете был в основном английский.

Код
Веса

#voicemode #text2speech #csm
10🔥1
2025/07/13 22:07:03
Back to Top
HTML Embed Code: