Telegram Web Link
Media is too big
VIEW IN TELEGRAM
OmniGen2: Exploration to Advanced Multimodal Generation

Новая версия редактора-генератора-персонализатора изображений

Создает картинки по описанию, редактирует их по инструкциям, переносит объекты из одной картинки в другую.

Есть режим с рефлексией: модель понимает, что изображено на картинке, и может улучшать свои результаты, анализируя их

Код

Демоспейсы, большинство из них скоро умрет:
https://huggingface.co/spaces/OmniGen2/OmniGen2
https://8f10329141d53b6884.gradio.live/
https://110863cb06c6c44bd2.gradio.live/
https://981758b17b4197aea7.gradio.live/
https://981758b17b4197aea7.gradio.live/

С чатом:
https://9315447fc78ef638e3.gradio.live/
https://abe054be89543e4cef.gradio.live/
https://4aa913765db00bbe51.gradio.live/
https://f28a8718565627d2cb.gradio.live/

#personalization #imageediting #text2image #image2image #referencing
This media is not supported in your browser
VIEW IN TELEGRAM
11ai

Персональный голосовой ассистент от Elevenlabs с поддержкой #MCP

Интегрируется с perplexity, linear, SlackHQ и др

У меня ссылка не открывается, я же гражданин неправильной страны 😡

#assistant #voicemode
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
SongBloom

Генератор полных музыкальных композиций с согласованной структурой и гармоничными инструментальными и вокальными элементами.

Модель использует комбинированный подход, объединяющий авторегрессионное моделирование и диффузионные процессы для создания музыки. Возможности модели:

- Постепенное расширение музыкального эскиза от короткого к длинному.

- Уточнение деталей от общих до более тонких.

- Интеграция семантического и акустического контекста для управления процессом генерации.

Код
Веса

#text2music #music #musicediting
FluxZayn: FLUX LayerDiffuse Extension for Stable Diffusion WebUI Forge

Народная версия layerdiffusion с Flux под капотом вместо SD. Создает картинки с альфа-каналом (прозрачностью)

расширение для Forge
LayerDiffuse-Flux - оригинальный код

Для #ComfyUI есть ComfyUI_FluxLayerDiffuse

#extension #forge #text2image #flux #RGBA
Гудини, что с лицом?
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
Горячие опенсорсные девушки!

Контроль пламени с помощью масок в Wan. Залипательно.

А Midjourney так может?

Автор
astra.app

"Первый в мире" креативный апскейлер видео от Topaz Labs вышел из стадии раннего доступа и доступен для всех... от $39 в месяц

#upscalevideo #upscale #frameinterpolation
Claude Code for VSCode

На прошлой неделе Anthropic запустил плагин для интеграции своего инструмента в IDE

Бонус:
Claudia - интерфейс и набор инструментов для Claude Code

Работает на Windows, macOS и Linux.

Опенсорс, запускается локально.

#coding #assistant
This media is not supported in your browser
VIEW IN TELEGRAM
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights

Немножко ресерча, который скоро вдохнет новые силы в LLM

TLDR: LoRa для языковых моделей без дообучения

Проект Drag-and-Drop LLMs (DnD) — это метод, который позволяет быстро адаптировать большие языковые модели к новым задачам без дополнительного обучения. Модель использует текстовые подсказки для создания необходимых параметров и работает быстрее, чем традиционные методы настройки. Это делает её эффективной для решения различных задач, включая математику, кодирование и анализ мультимодальных данных

Код ждем

#llm #research
Генератор картинок Imagen 4 доступен в Gemini API и Google AI Studio. В последнем можно потестить бесплатно если притвориться что вы в правильной стране

Две модели:
Imagen 4 ($0.04 за картинку)
и более точная
Imagen 4 Ultra ($0.06 за картинку)

Попробовать

#text2image
Tar: Unifying Visual Understanding and Generation via Text-Aligned Representations

Генератор-пониматор изображений от команды с участием ByteDnace Seed

Код
Демо - 512/1024

#text2image #image2text #captioning
2025/07/05 03:52:34
Back to Top
HTML Embed Code: