Telegram Web Link
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Персонализация для генераторов картинок.
Применяют самодистилляцию - дообучение модели на ею же сгенерированном наборе пар картинок.

Считают что превзошли все методы персонализации без дообучения.

Метод применим для релайтинга

#тестбендера в комментах

Код
Демо

#text2image #personalization #relighting
👍7🔥5
QwQ-32B

Языковая модель от Qwen Alibaba на 32B параметров, побивающая по некоторым бенчмаркам DeepSeek-R1 671B

Попробовать - посмотрите в список моделей, там не только QwQ-32B

#reasoning #assistant
👍5
Open R1

Полностью открытое воспроизведение DeepSeek-R1 от HuggingFace. В процессе разработки

Гитхаб

#assistant #reasoning #coding
🔥6
Обновки ACE++

Кто не видел, в репозитории редактора изображений от Alibaba ACE++ добавлены воркфлоу #ComfyUI, конфига файнтюна и унифицированная fft модель (что это? сам не знаю, говорят что поддерживает больше задач #image2image)

#personalization #imageediting #inpainting
13
This media is not supported in your browser
VIEW IN TELEGRAM
Gradio Sketch 2.0

Вайб-кодинг
Визуальное создание полных приложений Gradio, включая добавление событий, без единой строки кода

Если у вас уже установлен Gradio, то обновляем

𝚙𝚒𝚙 𝚒𝚗𝚜𝚝𝚊𝚕𝚕 --𝚞𝚙𝚐𝚛𝚊𝚍𝚎 𝚐𝚛𝚊𝚍𝚒𝚘


и запускаем в терминале:

𝚐𝚛𝚊𝚍𝚒𝚘 𝚜𝚔𝚎𝚝𝚌𝚑


#coding #vibecoding
🔥141👍1
Nunchaku v0.1.4

Инференсный движок для запуска 4-битных диффузных моделей по методу SVDQuant (там есть демо, среди авторов MIT, NVIDIA, Pika Labs)
Поддерживает лоры
Сокращает требование по VRAM для FLUX.1 до 4Гб, увеличивая скорость в 2-3 раза.
Протестирован с SDXL, PixArt-∑, FLUX.1б SANA 1.6B

Код
Демо
ComfyUI
https://huggingface.co/mit-han-lab/nunchaku/blob/main/nunchaku-0.1.4%2Btorch2.6-cp312-cp312-win_amd64.whl - может пригодиться для Windows

#text2image #optimization
🔥143
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Пару дней уже маячит этот пост, хочет всё же, чтобы я его вам показал.

По сути, ещё один способ рендерить генеративно для какой-нибудь рекламки или клипов. Меня тут сам процесс возмутил.

1. Build 3D Renders in Claude 3.7.
2. Program camera movements.
3. Screen record render.
4. Upload video to Runway Gen-3.
5. Extract 1st frame.
6. Magnific Struct. Ref. 1st frame.
7. Upload in Runway Restyle.
8. Generate.

Прям вот самый первый пункт! Из меня вырывается старый дед с render.ru: "Вы что, и моделить за меня будете?!" Вот в наше время...

На самом деле, насрать, как создаётся, если оно отвечает задачам. У меня скорее вопрос: как долго будут ждать производители софта для моделирования, чтобы встроить подобный генеративный функционал себе? Или они будут рассчитывать на создателей плагинов, как всегда делал Autodesk? 🗡

Мы уже видели это для CAD-систем, Blender тоже не отстаёт, но это всё плагины. Со стороны компаний тоже хочется поддержки, бриджей, чтобы не приходилось танцевать с бубном.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍4
Higgsfield AI

Сервис для создания длинных монтажных видеороликов от идеи до финального монтажа.

ИИ-ассистент Copilot проводит вас через

- Написание сценария

- Создание раскадровки. За картинки отвечает #Flux с выбором из нескольких стилей

- Генерация видео по картинке. Тут на выбор Minimax, Kling, Runway Gen-3 и своя модель Higgsfield (насколько своя - не знаю, сомневаюсь что с нуля делали)

- Монтаж. Есть простенький видеоредактор.

- Генерация речи/липсинк от Elevenlabs

Инпейнтинг для Flux обещают прикрутить на следующей неделе. Генератор музыки тоже планируют встроить.

Потренировался на кошках. С остальным звуком кроме речи помогли DiffRhythm, FoleyCrafter, TangoFlux

1 картинка стоит 1 кредит
1 видео MiniMax/Kling - 10 кредитов
1 видео Gen 3 - 5 кредитов

Бесплатных кредитов, увы, не дают. Но есть промокод на 100 кредитов:
HIGGS_DcU7s


#text2movie #script2movie #text2image #image2video
👍12🔥6👎2
Kimi k1.5

Похоже, китайская мультимодальная модель чуть обновилась

- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык

Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности

Чат

#assistant #mllm #mlm #reasoning
👍3
Forwarded from Сиолошная
OpenAI представили на стриме 3 новых инструмента для разработчиков:
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.

Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).

Буду обновлять пост по мере появления информации (в основном, интересны цены).

UPD:
цены: Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас). Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
👍6👎1
🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
718😁7🍾6👏4
triton-windows

Библиотека, из-за которой мы не могли запустить многие неКронки на Windows.
Благодаря одному энтузиасту, теперь устанавливается командой

pip install triton-windows


По крайней мере, должна

#news
😱6👍4🔥2
2025/07/13 14:36:38
Back to Top
HTML Embed Code: