Diffusion Self-Distillation for Zero-Shot Customized Image Generation
Персонализация для генераторов картинок.
Применяют самодистилляцию - дообучение модели на ею же сгенерированном наборе пар картинок.
Считают что превзошли все методы персонализации без дообучения.
Метод применим для релайтинга
#тестбендера в комментах
Код
Демо
#text2image #personalization #relighting
Персонализация для генераторов картинок.
Применяют самодистилляцию - дообучение модели на ею же сгенерированном наборе пар картинок.
Считают что превзошли все методы персонализации без дообучения.
Метод применим для релайтинга
#тестбендера в комментах
Код
Демо
#text2image #personalization #relighting
👍7🔥5
QwQ-32B
Языковая модель от Qwen Alibaba на 32B параметров, побивающая по некоторым бенчмаркам DeepSeek-R1 671B
Попробовать - посмотрите в список моделей, там не только QwQ-32B
#reasoning #assistant
Языковая модель от Qwen Alibaba на 32B параметров, побивающая по некоторым бенчмаркам DeepSeek-R1 671B
Попробовать - посмотрите в список моделей, там не только QwQ-32B
#reasoning #assistant
👍5
Open R1
Полностью открытое воспроизведение DeepSeek-R1 от HuggingFace. В процессе разработки
Гитхаб
#assistant #reasoning #coding
Полностью открытое воспроизведение DeepSeek-R1 от HuggingFace. В процессе разработки
Гитхаб
#assistant #reasoning #coding
🔥6
Обновки ACE++
Кто не видел, в репозитории редактора изображений от Alibaba ACE++ добавлены воркфлоу #ComfyUI, конфига файнтюна и унифицированная fft модель (что это? сам не знаю, говорят что поддерживает больше задач #image2image)
#personalization #imageediting #inpainting
Кто не видел, в репозитории редактора изображений от Alibaba ACE++ добавлены воркфлоу #ComfyUI, конфига файнтюна и унифицированная fft модель (что это? сам не знаю, говорят что поддерживает больше задач #image2image)
#personalization #imageediting #inpainting
❤13
This media is not supported in your browser
VIEW IN TELEGRAM
Gradio Sketch 2.0
Вайб-кодинг
Визуальное создание полных приложений Gradio, включая добавление событий, без единой строки кода
Если у вас уже установлен Gradio, то обновляем
и запускаем в терминале:
#coding #vibecoding
Вайб-кодинг
Визуальное создание полных приложений Gradio, включая добавление событий, без единой строки кода
Если у вас уже установлен Gradio, то обновляем
𝚙𝚒𝚙 𝚒𝚗𝚜𝚝𝚊𝚕𝚕 --𝚞𝚙𝚐𝚛𝚊𝚍𝚎 𝚐𝚛𝚊𝚍𝚒𝚘
и запускаем в терминале:
𝚐𝚛𝚊𝚍𝚒𝚘 𝚜𝚔𝚎𝚝𝚌𝚑
#coding #vibecoding
🔥14❤1👍1
Опубликован код MatAnyone + есть #ComfyUI
Код
ComfyUI_MatAnyone_Kytra
#segmentation #matting #video2matte #video2mask
Код
ComfyUI_MatAnyone_Kytra
#segmentation #matting #video2matte #video2mask
Telegram
Нейронавт | Нейросети в творчестве
MatAnyone: Stable Video Matting with Consistent Memory Propagation
Создает маску на заданного человека на видео
На вход принимает маску в первом кадре. Но потеть не придется, целевая маска создается в несколько кликов.
Пока еще далеко от идеала, но надеюсь…
Создает маску на заданного человека на видео
На вход принимает маску в первом кадре. Но потеть не придется, целевая маска создается в несколько кликов.
Пока еще далеко от идеала, но надеюсь…
🔥12
Nunchaku v0.1.4
Инференсный движок для запуска 4-битных диффузных моделей по методу SVDQuant (там есть демо, среди авторов MIT, NVIDIA, Pika Labs)
Поддерживает лоры
Сокращает требование по VRAM для FLUX.1 до 4Гб, увеличивая скорость в 2-3 раза.
Протестирован с SDXL, PixArt-∑, FLUX.1б SANA 1.6B
Код
Демо
ComfyUI
https://huggingface.co/mit-han-lab/nunchaku/blob/main/nunchaku-0.1.4%2Btorch2.6-cp312-cp312-win_amd64.whl - может пригодиться для Windows
#text2image #optimization
Инференсный движок для запуска 4-битных диффузных моделей по методу SVDQuant (там есть демо, среди авторов MIT, NVIDIA, Pika Labs)
Поддерживает лоры
Сокращает требование по VRAM для FLUX.1 до 4Гб, увеличивая скорость в 2-3 раза.
Протестирован с SDXL, PixArt-∑, FLUX.1б SANA 1.6B
Код
Демо
ComfyUI
https://huggingface.co/mit-han-lab/nunchaku/blob/main/nunchaku-0.1.4%2Btorch2.6-cp312-cp312-win_amd64.whl - может пригодиться для Windows
#text2image #optimization
🔥14❤3
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Пару дней уже маячит этот пост, хочет всё же, чтобы я его вам показал.
По сути, ещё один способ рендерить генеративно для какой-нибудь рекламки или клипов. Меня тут сам процесс возмутил.
1. Build 3D Renders in Claude 3.7.
2. Program camera movements.
3. Screen record render.
4. Upload video to Runway Gen-3.
5. Extract 1st frame.
6. Magnific Struct. Ref. 1st frame.
7. Upload in Runway Restyle.
8. Generate.
Прям вот самый первый пункт! Из меня вырывается старый дед с render.ru: "Вы что, и моделить за меня будете?!" Вот в наше время...
На самом деле, насрать, как создаётся, если оно отвечает задачам. У меня скорее вопрос: как долго будут ждать производители софта для моделирования, чтобы встроить подобный генеративный функционал себе? Или они будут рассчитывать на создателей плагинов, как всегда делал Autodesk?🗡
Мы уже видели это для CAD-систем, Blender тоже не отстаёт, но это всё плагины. Со стороны компаний тоже хочется поддержки, бриджей, чтобы не приходилось танцевать с бубном.
По сути, ещё один способ рендерить генеративно для какой-нибудь рекламки или клипов. Меня тут сам процесс возмутил.
1. Build 3D Renders in Claude 3.7.
2. Program camera movements.
3. Screen record render.
4. Upload video to Runway Gen-3.
5. Extract 1st frame.
6. Magnific Struct. Ref. 1st frame.
7. Upload in Runway Restyle.
8. Generate.
Прям вот самый первый пункт! Из меня вырывается старый дед с render.ru: "Вы что, и моделить за меня будете?!" Вот в наше время...
На самом деле, насрать, как создаётся, если оно отвечает задачам. У меня скорее вопрос: как долго будут ждать производители софта для моделирования, чтобы встроить подобный генеративный функционал себе? Или они будут рассчитывать на создателей плагинов, как всегда делал Autodesk?
Мы уже видели это для CAD-систем, Blender тоже не отстаёт, но это всё плагины. Со стороны компаний тоже хочется поддержки, бриджей, чтобы не приходилось танцевать с бубном.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍4
Higgsfield AI
Сервис для создания длинных монтажных видеороликов от идеи до финального монтажа.
ИИ-ассистент Copilot проводит вас через
- Написание сценария
- Создание раскадровки. За картинки отвечает #Flux с выбором из нескольких стилей
- Генерация видео по картинке. Тут на выбор Minimax, Kling, Runway Gen-3 и своя модель Higgsfield (насколько своя - не знаю, сомневаюсь что с нуля делали)
- Монтаж. Есть простенький видеоредактор.
- Генерация речи/липсинк от Elevenlabs
Инпейнтинг для Flux обещают прикрутить на следующей неделе. Генератор музыки тоже планируют встроить.
Потренировался на кошках. С остальным звуком кроме речи помогли DiffRhythm, FoleyCrafter, TangoFlux
1 картинка стоит 1 кредит
1 видео MiniMax/Kling - 10 кредитов
1 видео Gen 3 - 5 кредитов
Бесплатных кредитов, увы, не дают. Но есть промокод на 100 кредитов:
#text2movie #script2movie #text2image #image2video
Сервис для создания длинных монтажных видеороликов от идеи до финального монтажа.
ИИ-ассистент Copilot проводит вас через
- Написание сценария
- Создание раскадровки. За картинки отвечает #Flux с выбором из нескольких стилей
- Генерация видео по картинке. Тут на выбор Minimax, Kling, Runway Gen-3 и своя модель Higgsfield (насколько своя - не знаю, сомневаюсь что с нуля делали)
- Монтаж. Есть простенький видеоредактор.
- Генерация речи/липсинк от Elevenlabs
Инпейнтинг для Flux обещают прикрутить на следующей неделе. Генератор музыки тоже планируют встроить.
Потренировался на кошках. С остальным звуком кроме речи помогли DiffRhythm, FoleyCrafter, TangoFlux
1 картинка стоит 1 кредит
1 видео MiniMax/Kling - 10 кредитов
1 видео Gen 3 - 5 кредитов
Бесплатных кредитов, увы, не дают. Но есть промокод на 100 кредитов:
HIGGS_DcU7s
#text2movie #script2movie #text2image #image2video
👍12🔥6👎2
Kimi k1.5
Похоже, китайская мультимодальная модель чуть обновилась
- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык
Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности
Чат
#assistant #mllm #mlm #reasoning
Похоже, китайская мультимодальная модель чуть обновилась
- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык
Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности
Чат
#assistant #mllm #mlm #reasoning
👍3
Опубликован код, веса и демо Diffusion as Shader
Код
Веса
Демо
#motioncontrol #cameracontrol #motiontransfer
Код
Веса
Демо
#motioncontrol #cameracontrol #motiontransfer
Telegram
Нейронавт | Нейросети в творчестве
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
Управление генерацией видео через понимание объема.
- управление камерой
- перенос движения с видео на 3D меш
- перенос движения с видео на изображение
- манипуляция объектами…
Управление генерацией видео через понимание объема.
- управление камерой
- перенос движения с видео на 3D меш
- перенос движения с видео на изображение
- манипуляция объектами…
❤3🔥2
Forwarded from Сиолошная
OpenAI представили на стриме 3 новых инструмента для разработчиков:
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.
Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).
Буду обновлять пост по мере появления информации (в основном, интересны цены).
UPD:
— цены: Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас). Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.
Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).
Буду обновлять пост по мере появления информации (в основном, интересны цены).
UPD:
— цены: Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас). Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
👍6👎1
Please open Telegram to view this post
VIEW IN TELEGRAM
7❤18😁7🍾6👏4
Инструкция по портативной установке Nunchaku v0.1.4 на Windows
+ Инструкция по конвертированию лор в формат SVDQuant для Nunchaku на ComfyUI Portable (Windows)
#ComfyUI #lora #text2image
+ Инструкция по конвертированию лор в формат SVDQuant для Nunchaku на ComfyUI Portable (Windows)
#ComfyUI #lora #text2image
Reddit
From the StableDiffusion community on Reddit: Nunchaku v0.1.4 (SVDQuant) ComfyUI Portable Instructions for Windows (NO WSL required)
Explore this post and more from the StableDiffusion community
❤8
triton-windows
Библиотека, из-за которой мы не могли запустить многие неКронки на Windows.
Благодаря одному энтузиасту, теперь устанавливается командой
По крайней мере, должна
#news
Библиотека, из-за которой мы не могли запустить многие неКронки на Windows.
Благодаря одному энтузиасту, теперь устанавливается командой
pip install triton-windows
По крайней мере, должна
#news
😱6👍4🔥2