Нейронавт | Нейросети в творчестве 6989

Нейронавт | Нейросети в творчестве

SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

Редактор картинок текстом от ByteDance

Авторы обнаружили, что разные шаги генерации играют разные роли в генерации изображений, независимо от промта. В частности, диффузионные модели фокусируются на (а) глобальном макете на ранних стадиях, (б) локальных атрибутах объекта на средних стадиях, (в) деталях изображения на поздних стадиях и (г) стиле изображения на всех стадиях выборки. Это вдохновило их на использование VLM. На схеме видно что ее используют вместо CLIP

Код

#imageediting

1.6K views09:42

Нейронавт | Нейросети в творчестве

3:01

This media is not supported in your browser

VIEW IN TELEGRAM

Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.

Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.

Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.

Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое 🤩

Код
Демо - видимо, еще не собрали

#tts #asr #stt #text2speech #speech2text #realtime #voicecloning

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views10:13

Нейронавт | Нейросети в творчестве

2:33

This media is not supported in your browser

VIEW IN TELEGRAM

ACE-Step: A Step Towards Music Generation Foundation Model

Генератор музыки в опенсорсе, базовая модель, пригодная для дальнейшего файнтюна.

Мультиязычный, есть русский!
Помимо собственно генерации музыки по тексту, умеет делать вариации, смену пола вокалиста, замену слов, замену музыкальных фрагментов.

Обещают лоры с контролнетами, генерацию стемов (отдельных партий), вокал по готовому аккомпанементу

Звучит пока не очень, надеемся на пластичность в файнтюне

Код
Демо
Веса

#music #text2music #musicediting

1.8K viewsedited 12:54

Нейронавт | Нейросети в творчестве

0:49

This media is not supported in your browser

VIEW IN TELEGRAM

LTX VIDEO-13B

Выложили веса модели видеогенератора с 13B параметров
ltxv-13b-0.9.7-dev и
ltxv-13b-0.9.7-dev-fp8
FP8 должен завестись на 4090

HF
Гитхаб
ComfyUI
Попробовать на офсайте - притворитесь что вы не в РФ

#text2video #image2video

1.8K viewsedited 08:38

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Insert Anything: Image Insertion via In-Context Editing in DiT

Короче еще один инпейнтинг персонализатор.
Показываем одной картинкой что вставить, на другой - куда вставить

Под капотом FLUX.1-Fill-dev и FLUX.1-Redux-dev

Код
Демо
ComfyUI

#inpainting #personalization #imageediting

2.0K views09:07

Нейронавт | Нейросети в творчестве

Cursor Pro за фото студенческого билета.

Раздают подписку Cursor Pro студентам на год.
Говорят, заявки из России тоже принимают.

#coding #gift

2.7K views09:49

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Computer Agent

Агент, аналог Operator

Работает в песочнице

Под капотом
smolagents
Qwen2-VL-72B
E2B Desktop

Демо

#agent #browser

1.9K viewsedited 11:49

Нейронавт | Нейросети в творчестве

2:32

This media is not supported in your browser

VIEW IN TELEGRAM

AgenticSeek

Еще один агент, позиционируют себя как локальную опенсорсную альтернативу Manus на DeepSeek R1.
Без отправки данных в облако.

Для установки понадобятся ChromeDriver, Docker, Python 3.10

Гитхаб

#agent #desktop

1.6K views12:16

Нейронавт | Нейросети в творчестве

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Реконструкция 3D сцен на гауссианах с удалением движущихся объектов.
На вход нужно монокулярное видео

Код

#gaussian

1.7K views12:46

Нейронавт | Нейросети в творчестве

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

1:37

This media is not supported in your browser

VIEW IN TELEGRAM

Heygen Avatar IV

Сервис Heygen запустил обновленную функцию оживления портретов.

Достаточно закинуть фото и текст.

А также создали MCP сервер

Доки
Гитхаб

#postrainanimation #lipsync #text2speech #tts #image2video #mcp

1.8K views13:16

Нейронавт | Нейросети в творчестве

2:38

This media is not supported in your browser

VIEW IN TELEGRAM

LAM: Large Avatar Model for One-shot Animatable Gaussian Head

Анимируемые аватары по одному изображению на гауссианах от Alibaba.

Управляются звуком и видео, поддаются редактированию-стилизации, шустро крутятся на разных девайсах

Код
Демо
Чат с аватарами - ну здесь они долго думают прежде чем ответить

#humanavatar #talkinghead #gaussian #head #mobile #realtime #lipsync #motion2video

1.9K views13:49

Нейронавт | Нейросети в творчестве

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K views17:16

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

По совету подписчиков объявляю парад FramePack генераций. Хвастайтесь в комментариях что вам удалось выжать из этого генератора

2.6K views17:38

Нейронавт | Нейросети в творчестве

3:09

Media is too big

VIEW IN TELEGRAM

HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation

Генерирует панорамные динамичные видео по тексту или по картинке, реконструируя 4D ассеты

Код

#image2scene #text2video #image2video #360 #panorama #4d #textto4d #imageto4d

1.7K viewsedited 09:35

Нейронавт | Нейросети в творчестве

1:47

This media is not supported in your browser

VIEW IN TELEGRAM

FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

Оживлятор персонажей по образцу движения от Tencent. Перенос движения на картинку.
На основе CogVideoX-5B

Код
Веса

#characteranimation #image2video #motion2video

1.7K views11:08

Нейронавт | Нейросети в творчестве

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

FramePack_with_Video_Input

Форк FramePack, принимающий на вход видео и продолжающий его.

На примере первые 3 секунды видео - исходник, дальше - генерация FramePack

Ветка на официальном FramePack

#videoextension #video2video

1.9K viewsedited 11:44

Нейронавт | Нейросети в творчестве

0:54

This media is not supported in your browser

VIEW IN TELEGRAM

А вот вам и воркфлоу генератора музыки ACE-Step

workflow

#music #text2music #musicediting #comfyui #workflow

1.9K views12:16

2025/07/05 14:16:44
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>