This media is not supported in your browser
VIEW IN TELEGRAM
Kling LypSync обновился
Теперь поддерживает выбор персонажей
Есть настройка таймлинии
Сохранение оригинального звука
Длительность до 60 секунд
#lypsync #image2video #posrtraitanimation
Теперь поддерживает выбор персонажей
Есть настройка таймлинии
Сохранение оригинального звука
Длительность до 60 секунд
#lypsync #image2video #posrtraitanimation
This media is not supported in your browser
VIEW IN TELEGRAM
Kling Sound
А также выпустили генератор звуков для видео
Или просто по текстовому описанию
#video2sound #text2sound #sfx #foley
А также выпустили генератор звуков для видео
Или просто по текстовому описанию
#video2sound #text2sound #sfx #foley
This media is not supported in your browser
VIEW IN TELEGRAM
3d-model-playground
Просто побаловаться с вебкой
Можно закинуть модельку и в реальном времени ее руками крутить и анимировать
#3d #realtime #webcam
Просто побаловаться с вебкой
Можно закинуть модельку и в реальном времени ее руками крутить и анимировать
#3d #realtime #webcam
Baidu выпустили в опенсорс семейство моделей ERNIE 4.5
#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)
Попробовать
Веса
Гитхаб
AI Studio
#assistant #reasoning #VLM
#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)
Попробовать
Веса
Гитхаб
AI Studio
#assistant #reasoning #VLM
XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation
Генератор картинок по тексту от ByteDance
Позволяет точно управлять несколькими объектами в одном изображении.
Детальная настройка семантических атрибутов, таких как поза, стиль и освещение
Код
Веса 1.2Gb + 1.8Gb - и что сегодня можно выжать из таких весов?
Демо ждем
#text2image #subjectcontrol #multisubject
Генератор картинок по тексту от ByteDance
Позволяет точно управлять несколькими объектами в одном изображении.
Детальная настройка семантических атрибутов, таких как поза, стиль и освещение
Код
Веса 1.2Gb + 1.8Gb - и что сегодня можно выжать из таких весов?
Демо ждем
#text2image #subjectcontrol #multisubject
Ovis-U1
Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений
- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.
- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.
- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.
Код
Веса
Демо
#vlm #text2image #imageediting #captioning #image2text
Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений
- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.
- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.
- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.
Код
Веса
Демо
#vlm #text2image #imageediting #captioning #image2text
HeyGen Video Agent
Видеоролики под ключ
Под соусом "Креативная операционная система", "Будущее создания видеороликов"
Записаться в вейтлист
#agent #text2movie
Видеоролики под ключ
Под соусом "Креативная операционная система", "Будущее создания видеороликов"
Записаться в вейтлист
#agent #text2movie
llama-nemoretriever-colembed-3b-v1
модель для поиска информации в текстовых и визуальных документах
первое место на бенчмарке ViDoRe
#search #leaderboard
модель для поиска информации в текстовых и визуальных документах
первое место на бенчмарке ViDoRe
#search #leaderboard
huggingface.co
nvidia/llama-nemoretriever-colembed-3b-v1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
This media is not supported in your browser
VIEW IN TELEGRAM
WebDancer
Ризонер-агент от Alibaba для автономного поиска информации на фреймворке ReAct
Гитхаб
Веса
#reasoning #search #agent
Ризонер-агент от Alibaba для автономного поиска информации на фреймворке ReAct
Гитхаб
Веса
#reasoning #search #agent
Radial Attention: O(nlogn) Sparse Attention with Energy Decay for Long Video Generation
ускорение генерации длинных видео с сохранением высокого качества. Плюс в дорожной карте увеличение максимального хронометража до 4 раз
Поддерживает Wan2.1-14B, HunyuanVideo, Mochi-1 и лоры
От команды SVDQuant / nunchaku
Код
ComfyUI ждем
#optimization #text2video
ускорение генерации длинных видео с сохранением высокого качества. Плюс в дорожной карте увеличение максимального хронометража до 4 раз
Поддерживает Wan2.1-14B, HunyuanVideo, Mochi-1 и лоры
От команды SVDQuant / nunchaku
Код
ComfyUI ждем
#optimization #text2video
SimpleTuner v2.0
В свежем релизе инструмента - полная поддержка дообучения Flux Kontext
и еще миллион ничтяков
#finetuning #tools
В свежем релизе инструмента - полная поддержка дообучения Flux Kontext
и еще миллион ничтяков
#finetuning #tools
🤖 Я НЕЙРОСЕТЬ И Я МОГУ ВСЁ:
Только в канале «Будущее сегодня»:
[Grok GO] — Ищет самую выгодную цену на товар по всему интернету.
[Perplexity] — Для учащихся, соберёт информацию с 1000 сайтов за секунду.
[Deep GPT] — Бесплатная ChatGPT, которая станет твоим личным рабом.
[CutAI] — бесплатно создаёт шортсы, можно зарабатывать до 100к в месяц .
[VPN pro] — Бесплатный умный VPN для Youtube и других целей.
⏺ Сохраняй: https://www.tg-me.com/+aiSznYnofbszMmZi
#промо
Только в канале «Будущее сегодня»:
[Grok GO] — Ищет самую выгодную цену на товар по всему интернету.
[Perplexity] — Для учащихся, соберёт информацию с 1000 сайтов за секунду.
[Deep GPT] — Бесплатная ChatGPT, которая станет твоим личным рабом.
[CutAI] — бесплатно создаёт шортсы, можно зарабатывать до 100к в месяц .
[VPN pro] — Бесплатный умный VPN для Youtube и других целей.
#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Генератор 3D моделей Hi3DGen принят в программу ICCV2025
А код опубликован если кто не знал
#imageto3d #image2normal
А код опубликован если кто не знал
#imageto3d #image2normal
ComfyUI-OmniGen2
Большое упущение с моей стороны что не опубликовал до сих пор. Бежим играть с омнигеном2
#personalization #imageediting #text2image #image2image #referencing #comfyui
Большое упущение с моей стороны что не опубликовал до сих пор. Бежим играть с омнигеном2
#personalization #imageediting #text2image #image2image #referencing #comfyui
GitHub
GitHub - neverbiasu/ComfyUI-OmniGen2: A ComfyUI extension for OmniGen2
A ComfyUI extension for OmniGen2. Contribute to neverbiasu/ComfyUI-OmniGen2 development by creating an account on GitHub.