Telegram Web Link
ComfyUI_PuLID_Flux_ll

Обновка ноды персонализатора для #Flux в #ComfyUI

#personalization
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Ух ты, Микрософт опенсорснул новую версию OmniParser V2. С коннекторами.

Нет, это не ответочка Operator-y и не агент для управления вашим компом.

Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.

Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.

Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.

И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use

Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".

А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.

В общем мозги для ИИ сделали, пока заняться нервной системой.

Код и все дела тут:
https://microsoft.github.io/OmniParser/

@cgevent
🌐 Погружайтесь в мир данных и ИИ вместе с The Data Economy! 📊🚀

Почему вам стоит присоединиться? 🤔

🔮 Ловите тренды будущего: узнавайте первыми о том, как инновации в области искусственного интеллекта трансформируют бизнес и общество.

💡Кейсы и лайфхаки: получайте советы и методики работы с ИИ от признанных экспертов.

🌍 Глобальные инсайты: обзоры и исследования со всего мира, показывающие, как лучшие компании используют ИИ и технологии для роста.

🎁 Бонусы для подписчиков: участники канала получают доступ к материалам с мероприятий, которые недоступны широкой аудитории.

🚀 Станьте частью сообщества The Data Economy получите максимум от ИИ!

@TheDataEconomy
This media is not supported in your browser
VIEW IN TELEGRAM
Step-Video-T2V

Новый опенсорсный китайский видеогенератор

30B параметров
544px992, 204кадров
80gb VRAM

Код
HF

Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм

#text2video
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: Human-Centric Video Foundation Model

Генератор видео по тексту и по картинке на основе Hunyuan

Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков

На 4090 должен вывозить 97 кадров 960px544

Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V

Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу

Их канал на Youtube

#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
This media is not supported in your browser
VIEW IN TELEGRAM
Video Model Studio (VMS)

Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов

Поддерживаемые модели:

LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью

Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU

Бонус - альтернатива diffusion-pipe-ui

#lora #training #finetuning #GUI
Forwarded from Machinelearning
🖥 PDF to Podcas- еще один проект преобразования текста в подкасты от NVIDIA

Он предназначенный для преобразования PDF-документов в персонализированный аудиоконтент с использованием технологий генеративного ИИ.

Ключевые компоненты:

- Инструмент преобразования PDF в Markdown: Извлекает содержимое из PDF-файлов и конвертирует его в формат Markdown для дальнейшей обработки.

- Сервис создания монологов или диалогов
: Обрабатывает Markdown-контент, обогащая или структурируя его для создания естественного аудиоконтента.

- Сервис преобразования текста в речь (TTS): Преобразует обработанный контент в высококачественную речь.

Преимущества использования:

- Персонализация: Возможность адаптации решения под специфические потребности организации, включая брендинг, аналитику, реальное время перевода или интерфейс цифрового человека для повышения вовлеченности.
- Конфиденциальность: Решение соответствует требованиям конфиденциальности на всех этапах обработки данных.
- Гибкость: Модульная структура позволяет добавлять дополнительные функции, соответствующие потребностям пользователей.

- Микросервисы NVIDIA NIM используются для развертывания и масштабирования моделей на GPU.

- Модели Llama 3.1 применяются для обработки и генерации текста.

- Langchain используется для обработки и интеграции данных.

- Docling применяется для парсинга документов.

- ElevenLabs предоставляет сервисы преобразования текста в речь.

Лицензирование:
Использование моделей в этом проекте регулируется NVIDIA AI Foundation Models Community License.

Github: https://github.com/NVIDIA-AI-Blueprints/pdf-to-podcast
Project: build.nvidia.com/nvidia/pdf-to-podcast

@ai_machinelearning_big_data


#nim #tts #pdftopodcast
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/05 14:20:44
Back to Top
HTML Embed Code: