Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Magic 1-For-1: Generating One Minute Video Clips within One Minute
Новый опенсорсный китайский видеогенератор
Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов
Ест 30GB VRAM для 540x960
Веса будут на днях
Код
#text2video #image2video
Новый опенсорсный китайский видеогенератор
Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов
Ест 30GB VRAM для 540x960
Веса будут на днях
Код
#text2video #image2video
Forwarded from Нейронавт | Нейросети в творчестве
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Ух ты, Микрософт опенсорснул новую версию OmniParser V2. С коннекторами.
Нет, это не ответочка Operator-y и не агент для управления вашим компом.
Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.
Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.
Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.
И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use
Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".
А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.
В общем мозги для ИИ сделали, пока заняться нервной системой.
Код и все дела тут:
https://microsoft.github.io/OmniParser/
@cgevent
Нет, это не ответочка Operator-y и не агент для управления вашим компом.
Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.
Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.
Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.
И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use
Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".
А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.
В общем мозги для ИИ сделали, пока заняться нервной системой.
Код и все дела тут:
https://microsoft.github.io/OmniParser/
@cgevent
🌐 Погружайтесь в мир данных и ИИ вместе с The Data Economy! 📊🚀
Почему вам стоит присоединиться? 🤔
🔮 Ловите тренды будущего: узнавайте первыми о том, как инновации в области искусственного интеллекта трансформируют бизнес и общество.
💡Кейсы и лайфхаки: получайте советы и методики работы с ИИ от признанных экспертов.
🌍 Глобальные инсайты: обзоры и исследования со всего мира, показывающие, как лучшие компании используют ИИ и технологии для роста.
🎁 Бонусы для подписчиков: участники канала получают доступ к материалам с мероприятий, которые недоступны широкой аудитории.
🚀 Станьте частью сообщества The Data Economy получите максимум от ИИ!
@TheDataEconomy
Почему вам стоит присоединиться? 🤔
🔮 Ловите тренды будущего: узнавайте первыми о том, как инновации в области искусственного интеллекта трансформируют бизнес и общество.
💡Кейсы и лайфхаки: получайте советы и методики работы с ИИ от признанных экспертов.
🌍 Глобальные инсайты: обзоры и исследования со всего мира, показывающие, как лучшие компании используют ИИ и технологии для роста.
🎁 Бонусы для подписчиков: участники канала получают доступ к материалам с мероприятий, которые недоступны широкой аудитории.
🚀 Станьте частью сообщества The Data Economy получите максимум от ИИ!
@TheDataEconomy
Telegram
Экономика данных
Об экономике данных, искусственном интеллекте, трендах, цифровом будущем для бизнеса и организаций
от Анны Малиновской
Связь: @annamalino
от Анны Малиновской
Связь: @annamalino
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Step-Video-T2V
Новый опенсорсный китайский видеогенератор
30B параметров
544px992, 204кадров
80gb VRAM
Код
HF
Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм
#text2video
Новый опенсорсный китайский видеогенератор
30B параметров
544px992, 204кадров
80gb VRAM
Код
HF
Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм
#text2video
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: Human-Centric Video Foundation Model
Генератор видео по тексту и по картинке на основе Hunyuan
Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков
На 4090 должен вывозить 97 кадров 960px544
Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V
Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу
Их канал на Youtube
#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
Генератор видео по тексту и по картинке на основе Hunyuan
Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков
На 4090 должен вывозить 97 кадров 960px544
Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V
Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу
Их канал на Youtube
#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Video Model Studio (VMS)
Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов
Поддерживаемые модели:
LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью
Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU
Бонус - альтернатива diffusion-pipe-ui
#lora #training #finetuning #GUI
Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов
Поддерживаемые модели:
LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью
Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU
Бонус - альтернатива diffusion-pipe-ui
#lora #training #finetuning #GUI
Forwarded from Machinelearning
Он предназначенный для преобразования PDF-документов в персонализированный аудиоконтент с использованием технологий генеративного ИИ.
Ключевые компоненты:
- Инструмент преобразования PDF в Markdown: Извлекает содержимое из PDF-файлов и конвертирует его в формат Markdown для дальнейшей обработки.
- Сервис создания монологов или диалогов: Обрабатывает Markdown-контент, обогащая или структурируя его для создания естественного аудиоконтента.
- Сервис преобразования текста в речь (TTS): Преобразует обработанный контент в высококачественную речь.
Преимущества использования:
- Персонализация: Возможность адаптации решения под специфические потребности организации, включая брендинг, аналитику, реальное время перевода или интерфейс цифрового человека для повышения вовлеченности.
- Конфиденциальность: Решение соответствует требованиям конфиденциальности на всех этапах обработки данных.
- Гибкость: Модульная структура позволяет добавлять дополнительные функции, соответствующие потребностям пользователей.
- Микросервисы NVIDIA NIM используются для развертывания и масштабирования моделей на GPU.
- Модели Llama 3.1 применяются для обработки и генерации текста.
- Langchain используется для обработки и интеграции данных.
- Docling применяется для парсинга документов.
- ElevenLabs предоставляет сервисы преобразования текста в речь.
Лицензирование:
Использование моделей в этом проекте регулируется NVIDIA AI Foundation Models Community License.
▪ Github: https://github.com/NVIDIA-AI-Blueprints/pdf-to-podcast
▪Project: build.nvidia.com/nvidia/pdf-to-podcast
@ai_machinelearning_big_data
#nim #tts #pdftopodcast
Please open Telegram to view this post
VIEW IN TELEGRAM