Telegram Web Link
This media is not supported in your browser
VIEW IN TELEGRAM
Kling LypSync обновился

Теперь поддерживает выбор персонажей
Есть настройка таймлинии
Сохранение оригинального звука
Длительность до 60 секунд

#lypsync #image2video #posrtraitanimation
This media is not supported in your browser
VIEW IN TELEGRAM
Kling Sound

А также выпустили генератор звуков для видео
Или просто по текстовому описанию

#video2sound #text2sound #sfx #foley
This media is not supported in your browser
VIEW IN TELEGRAM
3d-model-playground

Просто побаловаться с вебкой
Можно закинуть модельку и в реальном времени ее руками крутить и анимировать

#3d #realtime #webcam
Baidu выпустили в опенсорс семейство моделей ERNIE 4.5

#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.

Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)

Попробовать
Веса
Гитхаб
AI Studio

#assistant #reasoning #VLM
XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

Генератор картинок по тексту от ByteDance

Позволяет точно управлять несколькими объектами в одном изображении.

Детальная настройка семантических атрибутов, таких как поза, стиль и освещение

Код
Веса 1.2Gb + 1.8Gb - и что сегодня можно выжать из таких весов?
Демо ждем

#text2image #subjectcontrol #multisubject
Ovis-U1

Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений

- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.

- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.

- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.

Код
Веса
Демо

#vlm #text2image #imageediting #captioning #image2text
HeyGen Video Agent

Видеоролики под ключ
Под соусом "Креативная операционная система", "Будущее создания видеороликов"


Записаться в вейтлист

#agent #text2movie
This media is not supported in your browser
VIEW IN TELEGRAM
WebDancer

Ризонер-агент от Alibaba для автономного поиска информации на фреймворке ReAct

Гитхаб
Веса

#reasoning #search #agent
Radial Attention: O(nlogn) Sparse Attention with Energy Decay for Long Video Generation

ускорение генерации длинных видео с сохранением высокого качества. Плюс в дорожной карте увеличение максимального хронометража до 4 раз

Поддерживает Wan2.1-14B, HunyuanVideo, Mochi-1 и лоры

От команды SVDQuant / nunchaku

Код
ComfyUI ждем

#optimization #text2video
SimpleTuner v2.0

В свежем релизе инструмента - полная поддержка дообучения Flux Kontext

и еще миллион ничтяков

#finetuning #tools
🤖 Я НЕЙРОСЕТЬ И Я МОГУ ВСЁ:

Только в канале «Будущее сегодня»:

[Grok GO] — Ищет самую выгодную цену на товар по всему интернету.
[Perplexity] — Для учащихся, соберёт информацию с 1000 сайтов за секунду.
[Deep GPT] — Бесплатная ChatGPT, которая станет твоим личным рабом.
[CutAI] — бесплатно создаёт шортсы, можно зарабатывать до 100к в месяц .
[VPN pro] — Бесплатный умный VPN для Youtube и других целей.

Сохраняй: https://www.tg-me.com/+aiSznYnofbszMmZi

#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Генератор 3D моделей Hi3DGen принят в программу ICCV2025

А код опубликован если кто не знал

#imageto3d #image2normal
2025/07/03 08:52:02
Back to Top
HTML Embed Code: