Generative Ai

590 views18:41

Generative Ai

Forwarded from Нейронавт | Нейросети в творчестве

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Magic 1-For-1: Generating One Minute Video Clips within One Minute

Новый опенсорсный китайский видеогенератор

Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов

Ест 30GB VRAM для 540x960

Веса будут на днях

Код

#text2video #image2video

914 views18:41

Generative Ai

Forwarded from Нейронавт | Нейросети в творчестве

ComfyUI_PuLID_Flux_ll

Обновка ноды персонализатора для #Flux в #ComfyUI

#personalization

1.0K views21:36

Generative Ai

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

This media is not supported in your browser

VIEW IN TELEGRAM

Ух ты, Микрософт опенсорснул новую версию OmniParser V2. С коннекторами.

Нет, это не ответочка Operator-y и не агент для управления вашим компом.

Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.

Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.

Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.

И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use

Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".

А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.

В общем мозги для ИИ сделали, пока заняться нервной системой.

Код и все дела тут:
https://microsoft.github.io/OmniParser/

@cgevent

1.1K views23:01

Generative Ai

🌐 Погружайтесь в мир данных и ИИ вместе с The Data Economy! 📊🚀

Почему вам стоит присоединиться? 🤔

🔮 Ловите тренды будущего: узнавайте первыми о том, как инновации в области искусственного интеллекта трансформируют бизнес и общество.

💡Кейсы и лайфхаки: получайте советы и методики работы с ИИ от признанных экспертов.

🌍 Глобальные инсайты: обзоры и исследования со всего мира, показывающие, как лучшие компании используют ИИ и технологии для роста.

🎁 Бонусы для подписчиков: участники канала получают доступ к материалам с мероприятий, которые недоступны широкой аудитории.

🚀 Станьте частью сообщества The Data Economy получите максимум от ИИ!

@TheDataEconomy

Экономика данных

Об экономике данных, искусственном интеллекте, трендах, цифровом будущем для бизнеса и организаций

от Анны Малиновской

Связь: @annamalino

1.2K views09:03

Generative Ai

Forwarded from Нейронавт | Нейросети в творчестве

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Step-Video-T2V

Новый опенсорсный китайский видеогенератор

30B параметров
544px992, 204кадров
80gb VRAM

Код
HF

Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм

#text2video

1.0K views15:09

Generative Ai

Forwarded from Нейронавт | Нейросети в творчестве

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

SkyReels V1: Human-Centric Video Foundation Model

Генератор видео по тексту и по картинке на основе Hunyuan

Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков

На 4090 должен вывозить 97 кадров 960px544

Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V

Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу

Их канал на Youtube

#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx

1.2K views13:38

Generative Ai

Forwarded from Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Video Model Studio (VMS)

Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов

Поддерживаемые модели:

LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью

Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU

Бонус - альтернатива diffusion-pipe-ui

#lora #training #finetuning #GUI

963 views18:59

Generative Ai

Forwarded from Machinelearning

🖥

PDF to Podcas- еще один проект преобразования текста в подкасты от NVIDIA

Он предназначенный для преобразования PDF-документов в персонализированный аудиоконтент с использованием технологий генеративного ИИ.

Ключевые компоненты:

- Инструмент преобразования PDF в Markdown: Извлекает содержимое из PDF-файлов и конвертирует его в формат Markdown для дальнейшей обработки.

- Сервис создания монологов или диалогов: Обрабатывает Markdown-контент, обогащая или структурируя его для создания естественного аудиоконтента.

- Сервис преобразования текста в речь (TTS): Преобразует обработанный контент в высококачественную речь.

Преимущества использования:

- Персонализация: Возможность адаптации решения под специфические потребности организации, включая брендинг, аналитику, реальное время перевода или интерфейс цифрового человека для повышения вовлеченности.
- Конфиденциальность: Решение соответствует требованиям конфиденциальности на всех этапах обработки данных.
- Гибкость: Модульная структура позволяет добавлять дополнительные функции, соответствующие потребностям пользователей.

- Микросервисы NVIDIA NIM используются для развертывания и масштабирования моделей на GPU.

- Модели Llama 3.1 применяются для обработки и генерации текста.

- Langchain используется для обработки и интеграции данных.

- Docling применяется для парсинга документов.

- ElevenLabs предоставляет сервисы преобразования текста в речь.

Лицензирование:
Использование моделей в этом проекте регулируется NVIDIA AI Foundation Models Community License.

▪ Github: https://github.com/NVIDIA-AI-Blueprints/pdf-to-podcast
▪Project: build.nvidia.com/nvidia/pdf-to-podcast

@ai_machinelearning_big_data

#nim #tts #pdftopodcast

Please open Telegram to view this post

VIEW IN TELEGRAM

992 views15:35

2025/07/05 14:20:44
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>