Telegram Web Link
This media is not supported in your browser
VIEW IN TELEGRAM
Describe Anything: Detailed Localized Image and Video Captioning (DAM)

Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео

Код
Демо

#captioning #image2text #video2text
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
ThinkSound

Модель от Tongyi Lab (авторов InspireMusic и много чего еще) создаёт реалистичный звук для видео. Архитектура - цепочка рассуждений (#CoT). Необычно для генерилки звука, да? Скоро достижения языковых моделей будут везде, к этому все идет.

Модель сначала генерирует общий звуковой фон, затем улучшает качество звука конкретных объектов на экране и, наконец, редактирует всё это по текстовым указаниям пользователя

Код
Демо

Спасибо @p0lygon

#Video2sfx #foley #sfx #audioediting #video2audio #text2sfx
2025/07/06 06:18:33
Back to Top
HTML Embed Code: