Media is too big
VIEW IN TELEGRAM
EX-4D: EXtreme Viewpoint 4D Video Synthesis via Depth Watertight Mesh
Генератор видео от ByteDance с возможностью управления камерой из одноглазого (монокулярного) входного сигнала. Модель особенно эффективна при работе с экстремальными точками зрения.
Представляет собой LoRa на 1% параметров😏
Код
Демо ждем
#cameracontrol #novelview
Генератор видео от ByteDance с возможностью управления камерой из одноглазого (монокулярного) входного сигнала. Модель особенно эффективна при работе с экстремальными точками зрения.
Представляет собой LoRa на 1% параметров😏
Код
Демо ждем
#cameracontrol #novelview
Calligrapher: Freestyle Text Image Customization
Генерация и редактирование надписей на изображении.
Умеет брать образец стиля и шрифта с картинки, и туда же вписывать новый текст.
В основе - FLUX.1-Fill-dev
Напомнило инструмент Textify из 2023. Порадуемся прогрессу за это время
Код
HF
#text2font #font #referencing #text2image
Генерация и редактирование надписей на изображении.
Умеет брать образец стиля и шрифта с картинки, и туда же вписывать новый текст.
В основе - FLUX.1-Fill-dev
Напомнило инструмент Textify из 2023. Порадуемся прогрессу за это время
Код
HF
#text2font #font #referencing #text2image
This media is not supported in your browser
VIEW IN TELEGRAM
Describe Anything: Detailed Localized Image and Video Captioning (DAM)
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
ThinkSound
Модель от Tongyi Lab (авторов InspireMusic и много чего еще) создаёт реалистичный звук для видео. Архитектура - цепочка рассуждений (#CoT). Необычно для генерилки звука, да? Скоро достижения языковых моделей будут везде, к этому все идет.
Модель сначала генерирует общий звуковой фон, затем улучшает качество звука конкретных объектов на экране и, наконец, редактирует всё это по текстовым указаниям пользователя
Код
Демо
Спасибо @p0lygon
#Video2sfx #foley #sfx #audioediting #video2audio #text2sfx
Модель от Tongyi Lab (авторов InspireMusic и много чего еще) создаёт реалистичный звук для видео. Архитектура - цепочка рассуждений (#CoT). Необычно для генерилки звука, да? Скоро достижения языковых моделей будут везде, к этому все идет.
Модель сначала генерирует общий звуковой фон, затем улучшает качество звука конкретных объектов на экране и, наконец, редактирует всё это по текстовым указаниям пользователя
Код
Демо
Спасибо @p0lygon
#Video2sfx #foley #sfx #audioediting #video2audio #text2sfx
Немного побаиваюсь сообщить вам что теперь вы можете предлагать новости к публикации на этом канале. Да, там можно предлагать оплату звёздами 🌠 но можно и бесплатно.
Я пока не обещаю ничего. Хотя если новость актуальная, по теме канала и со ссылками, я могу захотеть ее опубликовать
#news
Я пока не обещаю ничего. Хотя если новость актуальная, по теме канала и со ссылками, я могу захотеть ее опубликовать
#news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Агент flowith NEO открыли для всех.
Причем в природе существуют некие инвайт-коды, по которым можно получить 3000 кредитов. Но их быстро разбирают. Я повбивал с десяток найденных и все уже протухшие, дальше надоело.
Для входа мне понадобился ВПН
#agent
Причем в природе существуют некие инвайт-коды, по которым можно получить 3000 кредитов. Но их быстро разбирают. Я повбивал с десяток найденных и все уже протухшие, дальше надоело.
Для входа мне понадобился ВПН
#agent
Нейронавт | Нейросети в творчестве
Агент flowith NEO открыли для всех. Причем в природе существуют некие инвайт-коды, по которым можно получить 3000 кредитов. Но их быстро разбирают. Я повбивал с десяток найденных и все уже протухшие, дальше надоело. Для входа мне понадобился ВПН #agent
[UPDATE 2] еще инвайты от @quatt1
YC53EVB3
PNT4CF20
I39YSNGB
G08UPCOG
H4XCX4RX
Налетай, инвайты для Flowith (одноразовые, кто успел того и тапки). Действуют только для новых аккаунтов.
Благодарности отправляйте @LarisaDi
7ZY424V3
C6HU1XOI
EWF847Q1
RKD5WW9P
7L99LZER
Ну и от меня немножк
S0IQLH34
V2E90VRX
58U1SRMH
JZXHMYCT
CO49YVQX
QVDVRU4A
[update] еще от @BrianMItro
NO2DOG8T
CNT0R7Y2
LO35QRSF
LS94R37H
AOL73YNE
S2S8HUA5
U2FH6SQ5
#giveaway #agent
PNT4CF20
I39YSNGB
G08UPCOG
H4XCX4RX
Налетай, инвайты для Flowith (одноразовые, кто успел того и тапки). Действуют только для новых аккаунтов.
Благодарности отправляйте @LarisaDi
C6HU1XOI
EWF847Q1
RKD5WW9P
7L99LZER
Ну и от меня немножк
V2E90VRX
58U1SRMH
JZXHMYCT
CO49YVQX
QVDVRU4A
[update] еще от @BrianMItro
CNT0R7Y2
LO35QRSF
LS94R37H
AOL73YNE
S2S8HUA5
U2FH6SQ5
#giveaway #agent
Telegram
Нейронавт | Нейросети в творчестве
Агент flowith NEO открыли для всех.
Причем в природе существуют некие инвайт-коды, по которым можно получить 3000 кредитов. Но их быстро разбирают. Я повбивал с десяток найденных и все уже протухшие, дальше надоело.
Для входа мне понадобился ВПН
#agent
Причем в природе существуют некие инвайт-коды, по которым можно получить 3000 кредитов. Но их быстро разбирают. Я повбивал с десяток найденных и все уже протухшие, дальше надоело.
Для входа мне понадобился ВПН
#agent
Kwai Keye-VL
Модель хорошо понимает короткие видео. Keye-VL имеет 8 миллиардов параметров и умеет обрабатывать информацию из видео и текста
Код
Демо
Веса
#vlm #video2text
Модель хорошо понимает короткие видео. Keye-VL имеет 8 миллиардов параметров и умеет обрабатывать информацию из видео и текста
Код
Демо
Веса
#vlm #video2text
This media is not supported in your browser
VIEW IN TELEGRAM
Depth Anything At Any Condition (DepthAnything-AC)
Генератор глубины изображения. Работает в различных условиях, включая изменения освещения, снег-дождь. Успешно справляется когда есть искажения, вызванные сенсорами.
Представляет собой зафантюненный DepthAnything-V2
Код
Демо
Веса
#video2depth #depth #image2depth
Генератор глубины изображения. Работает в различных условиях, включая изменения освещения, снег-дождь. Успешно справляется когда есть искажения, вызванные сенсорами.
Представляет собой зафантюненный DepthAnything-V2
Код
Демо
Веса
#video2depth #depth #image2depth
This media is not supported in your browser
VIEW IN TELEGRAM
FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model
Морфинг (плавное перетекание) одного заданного кадра в другой за 30 секунд. Полагаю, можно использовать как интерполятор кадров
В 10X ~ 50X быстрее существующих методов, #SOTA в морфинге
Код
#frameinterpolation #morphing
Морфинг (плавное перетекание) одного заданного кадра в другой за 30 секунд. Полагаю, можно использовать как интерполятор кадров
В 10X ~ 50X быстрее существующих методов, #SOTA в морфинге
Код
#frameinterpolation #morphing
This media is not supported in your browser
VIEW IN TELEGRAM
Kyutai TTS
Генератор речи в реальном времени. Выдает аудиопоток начиная с первых текстовых токенов, без необходимости знать весь текст заранее.
Клонирует голоса на основе 10-секундного аудиообразца. Эта функция сейчас недоступна
Предоставляет таймкоды для каждого генерируемого слова. Это позволяет использовать модель для создания субтитров в реальном времени
Но на данный момент знает только английский и французский языки
Код
Веса
Колаб
#tts #text2speech #voicecloning #realtime
Генератор речи в реальном времени. Выдает аудиопоток начиная с первых текстовых токенов, без необходимости знать весь текст заранее.
Клонирует голоса на основе 10-секундного аудиообразца. Эта функция сейчас недоступна
Предоставляет таймкоды для каждого генерируемого слова. Это позволяет использовать модель для создания субтитров в реальном времени
Но на данный момент знает только английский и французский языки
Код
Веса
Колаб
#tts #text2speech #voicecloning #realtime