Media is too big
VIEW IN TELEGRAM
EX-4D: EXtreme Viewpoint 4D Video Synthesis via Depth Watertight Mesh
Генератор видео от ByteDance с возможностью управления камерой из одноглазого (монокулярного) входного сигнала. Модель особенно эффективна при работе с экстремальными точками зрения.
Представляет собой LoRa на 1% параметров😏
Код
Демо ждем
#cameracontrol #novelview
Генератор видео от ByteDance с возможностью управления камерой из одноглазого (монокулярного) входного сигнала. Модель особенно эффективна при работе с экстремальными точками зрения.
Представляет собой LoRa на 1% параметров😏
Код
Демо ждем
#cameracontrol #novelview
Calligrapher: Freestyle Text Image Customization
Генерация и редактирование надписей на изображении.
Умеет брать образец стиля и шрифта с картинки, и туда же вписывать новый текст.
В основе - FLUX.1-Fill-dev
Напомнило инструмент Textify из 2023. Порадуемся прогрессу за это время
Код
HF
#text2font #font #referencing #text2image
Генерация и редактирование надписей на изображении.
Умеет брать образец стиля и шрифта с картинки, и туда же вписывать новый текст.
В основе - FLUX.1-Fill-dev
Напомнило инструмент Textify из 2023. Порадуемся прогрессу за это время
Код
HF
#text2font #font #referencing #text2image
This media is not supported in your browser
VIEW IN TELEGRAM
Describe Anything: Detailed Localized Image and Video Captioning (DAM)
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
ThinkSound
Модель от Tongyi Lab (авторов InspireMusic и много чего еще) создаёт реалистичный звук для видео. Архитектура - цепочка рассуждений (#CoT). Необычно для генерилки звука, да? Скоро достижения языковых моделей будут везде, к этому все идет.
Модель сначала генерирует общий звуковой фон, затем улучшает качество звука конкретных объектов на экране и, наконец, редактирует всё это по текстовым указаниям пользователя
Код
Демо
Спасибо @p0lygon
#Video2sfx #foley #sfx #audioediting #video2audio #text2sfx
Модель от Tongyi Lab (авторов InspireMusic и много чего еще) создаёт реалистичный звук для видео. Архитектура - цепочка рассуждений (#CoT). Необычно для генерилки звука, да? Скоро достижения языковых моделей будут везде, к этому все идет.
Модель сначала генерирует общий звуковой фон, затем улучшает качество звука конкретных объектов на экране и, наконец, редактирует всё это по текстовым указаниям пользователя
Код
Демо
Спасибо @p0lygon
#Video2sfx #foley #sfx #audioediting #video2audio #text2sfx