Нейронавт | Нейросети в творчестве 6959 - Telegram Web

Telegram Web Link

Нейронавт | Нейросети в творчестве

Media is too big

VIEW IN TELEGRAM

TesserAct: Learning 4D Embodied World Models

Модель предсказывает развитие событий в 3D сцене по входному изображению и текстовому промпту, описывающему действие. На выходе видео RGB + глубина и нормали.

За глубину отвечает Marigold, обещают прикрутить NormalCrafter

Код
Веса

#imageto4d #4d #image2video #image2scene #image2normal #image2depth

🔥6❤2

1.71K viewsedited 13:41

Нейронавт | Нейросети в творчестве

PixelHacker: Image Inpainting with Structural and Semantic Consistency

Инпейнтинг с сохранением структурной и семантической целостности

Код ждем
Демо ждем

#inpainting

🔥9

1.54K views14:17

Нейронавт | Нейросети в творчестве

Media is too big

VIEW IN TELEGRAM

ICEdit (In-Context Edit): Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

Редактор картинок текстовыми указаниями

Максимальная ширина кадра 512, высота любая.
Прожорливый, для 512×768 нужно 35 ГБ без выгрузки

Код
Демо
ComfyUI

#imageediting #workflow

👍2

1.56K viewsedited 14:47

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Ideogram 3.0

Обновился сервис генерации картинок Ideogram

Больше реализма, точнее понимает промпты, предлагает вдвое больше стилей.

Можно загрузить до трех референсов.

Magic Fill - инпейнтинг

Extend - аутпейнтинг

Сделали интеграцию по API через Picsart, Freepik, Replicate

#text2image #referencing #imageediting #inpainting #outpainting

👍5❤2🔥1

1.66K views15:20

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Matrix3D: Large Photogrammetry Model All-in-One

Единая модель фотограмметрии от Apple, выполняющая оценку ракурса, глубины и синтез нового ракурса

Сгенерированные новые ракурсы предлагают использовать для реконструкции сцены гауссианами

Код

#photogrammetry #novelview #image2depth

👍5

1.65K views15:48

Нейронавт | Нейросети в творчестве

Подписчик поделился фиксом FramePack Studio для настройки разрешения видео (автор почему-то ограничил по ширине то ли 640 то ли 768). Файлы закину в комментарии. Дальше текст подписчика

Добавил повышенное разрешение для FramePack Studio во вкладку F1
в оригинале было максимум 640 по ширине

bucket_tools.py - добавлены размеры из платной турецкой сборки, размер подбирается примерно (положить в FramePack-Studio\diffusers_helper)
interface.py - разблокировано до 1216 (положить в FramePack-Studio\modules)

Если будут ошибки с тензорами (но лучше не трогать):
wrapper.py (положить в FramePack-Studio\diffusers_helper\k_diffusion)

Так же установлено 40 шагов по умолчанию, можно легко поменять в interface.py
Прога сама по себе супер глючная, надеюсь допилят)

Спасибо @neurotemporary

#image2video #text2video

👍8

1.7K viewsedited 06:09

Нейронавт | Нейросети в творчестве

Опубликован код инструмента для работы с изображениями ZenCtrl

Разрешение до 1024×1024, уже работают над 1500х1500 и больше, работают над агентским и видеопайплайном

Лучше всего работает с объектами. С людьми - ограниченно. Плохо умеет в иллюстации. Ибо обучен на бедном датасете. В будущем улучшат.

Код

#conditioning #deblur #image2image #personalization #multiview #novelview #referencing

👍5

1.6K viewsedited 09:16

Нейронавт | Нейросети в творчестве

SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

Редактор картинок текстом от ByteDance

Авторы обнаружили, что разные шаги генерации играют разные роли в генерации изображений, независимо от промта. В частности, диффузионные модели фокусируются на (а) глобальном макете на ранних стадиях, (б) локальных атрибутах объекта на средних стадиях, (в) деталях изображения на поздних стадиях и (г) стиле изображения на всех стадиях выборки. Это вдохновило их на использование VLM. На схеме видно что ее используют вместо CLIP

Код

#imageediting

👍5🔥2

1.57K views09:42

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.

Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.

Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.

Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое 🤩

Код
Демо - видимо, еще не собрали

#tts #asr #stt #text2speech #speech2text #realtime #voicecloning

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍4👎1

1.66K views10:13

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

ACE-Step: A Step Towards Music Generation Foundation Model

Генератор музыки в опенсорсе, базовая модель, пригодная для дальнейшего файнтюна.

Мультиязычный, есть русский!
Помимо собственно генерации музыки по тексту, умеет делать вариации, смену пола вокалиста, замену слов, замену музыкальных фрагментов.

Обещают лоры с контролнетами, генерацию стемов (отдельных партий), вокал по готовому аккомпанементу

Звучит пока не очень, надеемся на пластичность в файнтюне

Код
Демо
Веса

#music #text2music #musicediting

👍11👌1

1.79K viewsedited 12:54

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

LTX VIDEO-13B

Выложили веса модели видеогенератора с 13B параметров
ltxv-13b-0.9.7-dev и
ltxv-13b-0.9.7-dev-fp8
FP8 должен завестись на 4090

HF
Гитхаб
ComfyUI
Попробовать на офсайте - притворитесь что вы не в РФ

#text2video #image2video

🔥9❤1

1.76K viewsedited 08:38

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Insert Anything: Image Insertion via In-Context Editing in DiT

Короче еще один инпейнтинг персонализатор.
Показываем одной картинкой что вставить, на другой - куда вставить

Под капотом FLUX.1-Fill-dev и FLUX.1-Redux-dev

Код
Демо
ComfyUI

#inpainting #personalization #imageediting

👍10😁2🔥1

2.06K views09:07

Нейронавт | Нейросети в творчестве

Cursor Pro за фото студенческого билета.

Раздают подписку Cursor Pro студентам на год.
Говорят, заявки из России тоже принимают.

#coding #gift

🔥13

2.67K views09:49

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Computer Agent

Агент, аналог Operator

Работает в песочнице

Под капотом
smolagents
Qwen2-VL-72B
E2B Desktop

Демо

#agent #browser

❤5🤔1

1.93K viewsedited 11:49

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

AgenticSeek

Еще один агент, позиционируют себя как локальную опенсорсную альтернативу Manus на DeepSeek R1.
Без отправки данных в облако.

Для установки понадобятся ChromeDriver, Docker, Python 3.10

Гитхаб

#agent #desktop

👍6

1.65K views12:16

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Реконструкция 3D сцен на гауссианах с удалением движущихся объектов.
На вход нужно монокулярное видео

Код

#gaussian

👍6🔥3❤1

1.72K views12:46

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Heygen Avatar IV

Сервис Heygen запустил обновленную функцию оживления портретов.

Достаточно закинуть фото и текст.

А также создали MCP сервер

Доки
Гитхаб

#postrainanimation #lipsync #text2speech #tts #image2video #mcp

👍7🔥3

1.85K views13:16

2025/07/11 18:23:37
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>