Telegram Web Link
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: Human-Centric Video Foundation Model

Генератор видео по тексту и по картинке на основе Hunyuan

Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков

На 4090 должен вывозить 97 кадров 960px544

Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V

Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу

Их канал на Youtube

#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
👍1👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Video Model Studio (VMS)

Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов

Поддерживаемые модели:

LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью

Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU

Бонус - альтернатива diffusion-pipe-ui

#lora #training #finetuning #GUI
👎2
Forwarded from Machinelearning
🖥 PDF to Podcas- еще один проект преобразования текста в подкасты от NVIDIA

Он предназначенный для преобразования PDF-документов в персонализированный аудиоконтент с использованием технологий генеративного ИИ.

Ключевые компоненты:

- Инструмент преобразования PDF в Markdown: Извлекает содержимое из PDF-файлов и конвертирует его в формат Markdown для дальнейшей обработки.

- Сервис создания монологов или диалогов
: Обрабатывает Markdown-контент, обогащая или структурируя его для создания естественного аудиоконтента.

- Сервис преобразования текста в речь (TTS): Преобразует обработанный контент в высококачественную речь.

Преимущества использования:

- Персонализация: Возможность адаптации решения под специфические потребности организации, включая брендинг, аналитику, реальное время перевода или интерфейс цифрового человека для повышения вовлеченности.
- Конфиденциальность: Решение соответствует требованиям конфиденциальности на всех этапах обработки данных.
- Гибкость: Модульная структура позволяет добавлять дополнительные функции, соответствующие потребностям пользователей.

- Микросервисы NVIDIA NIM используются для развертывания и масштабирования моделей на GPU.

- Модели Llama 3.1 применяются для обработки и генерации текста.

- Langchain используется для обработки и интеграции данных.

- Docling применяется для парсинга документов.

- ElevenLabs предоставляет сервисы преобразования текста в речь.

Лицензирование:
Использование моделей в этом проекте регулируется NVIDIA AI Foundation Models Community License.

Github: https://github.com/NVIDIA-AI-Blueprints/pdf-to-podcast
Project: build.nvidia.com/nvidia/pdf-to-podcast

@ai_machinelearning_big_data


#nim #tts #pdftopodcast
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥1
Forwarded from Life2film
Еще один агент-инструмент для разработчиков и не только.

Goose https://block.github.io/goose/

Установить можно как десктоп-приложение, так и в терминал CLI.
Позволяет работать с помощью любой LLM доступной модели, например, даже локальной.

Умеет работать сразу из коробки с управлением компьютером, IDE JetBrains и т. п.

Самое главное преимущество — он работает с использованием нового протокола для агентов MCP - https://modelcontextprotocol.io/.

Это возможность подключить к вашему агенту более 1000 различных инструментов (базы данных, внешние сервисы) и даже легко написать свой сервис. И главное, вы можете поделиться этим инструментом, и любой другой агент сможет с ним работать… Это что-то вроде маркетплейса и SAAS децентрализованный.

Есть даже удобный каталог всех серверов и клиентов https://mcp.so/
И тут https://github.com/modelcontextprotocol/servers/

Старт этому протоколу дал Anthropic в конце ноября https://www.anthropic.com/news/model-context-protocol

Полетели!
👍3👎1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Google сделали Gemini Code Assist бесплатным.

🌐 Поддержка всех языков программирования в открытом доступе
💡 Окно контекста 128K токенов

https://blog.google/technology/developers/gemini-code-assist-free/

https://codeassist.google/products/individual

@ai_machinelearning_big_data
4👍3🔥3🤔1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Alibaba Wan 2.1 - новая SOTA опенсорс видео модель

Скорее всего это та самая загадочная модель, которая уже месяц доступна в Qwen Chat. На лидерборде VBench она занимает первое место, но там нет нескольких сильных конкурентов, вроде Veo 2 от гугла. Больше бенчей никаких нет, так что ждём полноценного техрепорта и тем временем вайбчекаем модель по генерациям). По ним, например, видно что модель очень хорошо генерирует текст, как на английском, так и на китайском, с чем другие модели справляются куда хуже.

Идёт в двух размерах — 1.3B и 14B и в нескольких разных вариантах для разных разрешений (поддерживаются 480p и 720p). Маленькой 1.3B модели нужно всего 8,2 гигабайта VRAM для запуска, а на генерацию видео уходит всего 4 минуты на 4090.

Большая моделька потребляет заметно больше — вплоть до 77 гигабайт. Но модели совсем не оптимизированные (замеры по памяти делали с fp32 моделями), так что есть много простора для оптимизации. Посмотрите на тот же Hunyuan, который при ~таком же количестве параметров неплохо запускается на консьюмерских видяхах. Умельцы за пару недель ещё оптимизируют эти модели, чтобы запускалось на каждом холодильнике.

Веса
Код
wanxai.com

@ai_newz
🔥3👎2
Forwarded from Denis Sexy IT 🤖
Deep Research стал доступен всем платным пользователям (10 запросов в месяц если у вас Plus), поэтому ловите практические советы как лучше его использовать:

— Неважно какую модель вы выбрали в ChatGPT, у Deep Research своя модель во время поиска, он проигнорируют выбор модели (UI-костыли, привет)
— Указывайте на каком языке писать отчет и на каком языке искать материалы
— Попросите его «не дублировать одну и ту же мысль много раз в тексте, если она уже описана», по умолчанию он так делает
— Deep Research не умеет смотреть на картинки — не ожидайте от него исследований где что-то нужно визуально исследовать
— Просите научные источники если хотите максимально научный отчет на фактах, можете также указать год с которого искать релевантные данные
— Поставьте приложение 11 labs — каждый такой отчет, это примерно 30-40 минут прослушивания, идеально для поездок (встроенная в ChatGPT фича глючит с длинным текстом)
— Deep Research основан на рассуждающей модели, это значит что вам все еще нужно очень детально описать, что вы хотите видеть, что не хотите, что считается банальным — иначе получите поверхностный отчет
— Deep Research имеет доступ к написанию кода, то есть он может генерировать графики, таблицы и тп тд, и включать их в финальный отчет
— Можете подсказать ключевые слова на которых стоит сделать акцент, модель же ищет в интернете и там иногда много ненужного
— Deep Research поддерживает файлы (и ссылки), можете сказать ему что в них смотреть, он может их сделать как частью контекста отчета, так и построить поиск на основе файлов (но из-за UI костылей OpenAI, сначала нужно выбрать 4o или любую модель, что поддерживает файлы на входе)
— Это все еще нейрока — ответы могут содержать ошибки и требует верификации человеком, например в тестах видел как модель делала отчет на основе картинок ПО НАЗВАНИЯМ картинок, bruh
— Это все еще лучший автономный ресечер что у нас есть, никто не может конкурировать — и Perplexity, и Google
— Deep Research не умеет смотреть за пейволл, такие статьи нужно прикладывать самим к чату

И напоследок, когда использовать Deep Research:
Когда вы начинаете исследовать какую-то тему — это быстрый и легкий способ погрузиться во что-то, дальше вы можете строить свое исследование на базе знаний из прошлых отчетов, углубляясь в тему с каждым запросом все глубже — от бизнеса до науки, пока не нашел сферу где нельзя было бы применить такой инструмент
This media is not supported in your browser
VIEW IN TELEGRAM
🚨 Только что Стэнфордский университет представил новый бесплатный инструмент искусственного интеллекта - Storm!

Это удобный сервис, который за секунды генерирует отчёты, по качеству сопоставимо с материалами Википедии. Автоматически вставляет точные ссылки на источники.

Полезы масса, не только исследователям и журналистам, но и всем, кто хочет быстро получить качественный и проверенный отчёт по интересующей теме.

Storm - пробуйте
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2👎2
CogView4-6B

Генератор картинок
Конкурент flux

Поддерживает очень длинный контекст, хорошо следует промпту

Выходное разрешение от 512 до 2048 пикселей с шагом 32

По потреблению памяти терпимо. Главный вопрос что с кастомизацией?

Гитхаб
Демо

#text2image
👎2
This media is not supported in your browser
VIEW IN TELEGRAM
LTX-Video v0.9.5

Обновка видеогенератора

- Поддержка ключевых кадров и продолжения видео
- нативная поддержка в #ComfyUI
- Поддержка более высоких разрешений
- Улучшенное понимание промптов
- Улучшенный VAE
- Новое интерактивное веб-приложение в LTX-Studio
- Автоматическое улучшение промптов

Кому интересно, оно без цензуры

Гитхаб
ComfyUI

Попробовать на офсайте (притворитесь что вы не в России)
👍1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🚀🚀🚀 HunyuanVideo I2V - новая версия одной из лучших опенсорс моделей преобразования изображения в видео!

Код обучения I2V здесь! 🛩️🛩️🛩️🛩️🛩️🛩️

Китайский зверь с 13B-параметрами.

Единственная модель, которая может сравниться с Runway Gen-3 и Wan 2.1.

Генерации выглядит хорошо!

Github
: https://github.com/Tencent/HunyuanVideo-I2V
HF: https://huggingface.co/tencent/HunyuanVideo-I2V

@ai_machinelearning_big_data

#Imagetovideo #diffusionmodels #videogeneration #imagetovideo #generation
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥21
Forwarded from e/acc
OpenAI презентовал новые продукты для разработки агентов

1. Web Search. Любой ваш агент через OAI может искать и использовать информацию из интернета.

2. File Search. Поиск по локальным файлам.

3. Computer Use. Вы можете сделать агента, который управляет компьютером автономно.

4. Multi-agent framework! Swarm теперь называется Agents SDK, который позволяет передавать беседы между агентами сохраняя контекст.

5. Observability, tracing — удар в сторону Ланграфа.

Стрим еще идет, буду обновлять пост: https://www.youtube.com/live/hciNKcLwSes
👍2🔥2
Forwarded from Data Secrets
OpenAI выкатили в API три новые аудио-модели

🔷 Первые две – speech2text. Лучше Whisper, и вообще заявляют SOTA, которые к тому же хорошо работают с акцентами, шумом и быстрой речью.

Отличие между двумя – в размерах (ну и цене): первая gpt-4o-transcribe, вторая – gpt-4o-mini-transcribe. Разницу в метриках и приросты оцените сами 👆

🔷 Третья моделька – gpt-4o-mini-tts – позанятнее. Это, наоборот, text2speech, то есть модель, проговаривающая текст. Но не просто проговаривающая, а с той интонацией и тем голосом, которые зададите вы. Поиграться уже можно здесь www.openai.fm/

🔷 Ну и новая либа для агентов Agents SDK теперь тоже поддерживает аудио, так что с этого дня там можно создавать говорящих агентов.

openai.com/index/introducing-our-next-generation-audio-models/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🤯2👎1
Forwarded from Life2film
Обновили GPT4o и он теперь умеет фотошопить!) Или рисовать новые или стилизовать… теперь для обычных задач может и не нужны сложности с comfyui или flux…

Консистентные персонажи (сохраняет персонажа), смена стиля, работа с текстом (даже с кирилицей), прозрачные фоны….

Мне точно пригодиться. Особенно если появиться в апи.

https://openai.com/index/introducing-4o-image-generation/
👍81👎1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 VideoMind - это агент для анализа видео, разработанный для точного понимания контента с привязкой ко времени.

Основная цель инструмента - обеспечить "temporal-grounded video understanding", то есть способность отвечать на вопросы о видео, точно указывая на конкретные моменты (визуальные доказательства) в видеоряде, что является сложной задачей для стандартных больших языковых моделей.

Как работает:
🟢 Внутри использует ролевой агентный подход (role-based agentic workflow), который включает специализированные компоненты (роли), такие как планировщик (planner) для координации, локализатор (grounder) для привязки ко времени, верификатор (verifier) для оценки точности временных интервалов и ответчик (answerer) для формулировки ответа.
🟢 Разработчики использовали очень интересную стратегию "Chain-of-LoRA", которая позволяет эффективно переключаться между различными ролями с помощью легковесных адаптеров LoRA (Low-Rank Adaptation) без необходимости загружать несколько отдельных моделей, оптимизируя баланс между гибкостью и вычислительной эффективностью.

✔️ Результаты: демонстрирует SOTA производительность на 14 бенчмарках для различных задач понимания видео, включая ответы на вопросы с привязкой ко времени (Grounded VideoQA), временную локализацию событий (VTG) и общие ответы на вопросы по видео (VideoQA).

🟡Github
🟡Demo
🟡Paper
🟡Dataset
🟡Checkpoints

@ai_machinelearning_big_data


#agent #ai #ml #video
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🔥1
Forwarded from Data Secrets
OpenAI официально запустили свою OpenAI Academy для всех

Помните, мы рассказывали, что OpenAI открывает OpenAI Academy для помощи ИИ-разработчикам и бизнесу в развивающихся регионах? Так вот теперь они расширились, и их курсы и вебинары стали доступны бесплатно абсолютно всем.

В основном это курсы по промпт-инжинерингу и тому, как использовать продукты OpenAI, но для разработчиков тоже что-то добавили.

Например, вот – курс с практическими уроками по дистилляции, файн-тюнингу, разворачиванию Realtime API и оркестрации мульти-агентных систем. А 8 апреля пройдет стрим про построение GraphRAG.

Стоит заглянуть, в общем: academy.openai.com
👍31👎1
Forwarded from Data Secrets
Бывший исследователь OpenAI Даниэль Кокотаджило предсказал, что случится с ИИ в 2026–2027

В 2024 Дэниэль вошел в список топ-100 самых влиятельных людей в ИИ по версии журнала TIME. Он известен двумя вещами.

Во-первых, в том же 2024 он с шумом ушел с высокой позиции в OpenAI, отказавшись подписать NDA. За подпись ему предлагали примерно $2 миллиона в виде акций, но он выбрал свободу слова.

Во-вторых, в 2021, еще до прихода в OpenAI и задолго до успеха ChatGPT, он написал статью, в которой описал свое виденье того, как будет выглядеть ИИ до 2026, и пока оказался необыкновенно прав. Представьте: он предсказал и массовый хайп, и венчурный бум, и даже ограничение экспорта чипов из США в Китай еще до того, как кто-либо вообще хотя бы единожды поговорил с чат-ботом.

Так вот, на днях Дэниэль показал свой новый прогноз до 2028. Его он разрабатывал уже не один, а с командой его собственной лаборатории AI Futures Project. Вот этот документ, вот подкаст по нему. Основное:

⭐️ 2025: агенты развиваются, но их эффективность все еще ограничена. Тем не менее, внутри компаний уже начинают разворачивать узкоспециализированных агентов, автоматизирующих некоторые задачи.

⭐️ Конец 2025: GPT-3 moment для агентов. Появляется система, действительно способная действовать автономно.

⭐️ Начало 2026: флагмагманские агенты дают 50%-ное ускорение алгоритмического прогресса в компаниях. Китай объединяет все свои ведущие AI-компании в единый центр, чтобы догнать США.

⭐️ Конец 2026: массовые увольнения и перестройка рынка труда.

⭐️ Начало 2027: новые прорывы, полная автоматизация разработки, экономика растет, но разрыв между классам увеличивается.

⭐️ Конец 2027: оказывается, что агенты не вполне безопасны, и вот тут возникает развилка. Либо в этот момент человечество решит приостановить разработку и поработать над элайментом, либо гонка продолжается.

Ну а дальше вы поняли. Либо суперинтеллект поглощает власть над всеми сферами жизни и людям каюк, либо развитие немного притормаживается и больше внимания мы начинаем уделять безопасности и жесткому международному мониторингу.

Что сказать. Сохраняйте, проверим через 3 года.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
🦙 Llama 4 от Meta: мульти-модальный ИИ нового поколения

Meta представила Llama 4 — модель с поддержкой текста, изображений и аудио, ориентированную на агентные сценарии и улучшенное рассуждение.

Что нового
- 🔀 Мультимодальность: единая модель для текста, аудио и изображений
- 🧠 Лучшие reasoning-навыки: сложные задачи и многошаговые запросы
- ⚙️ Mixture-of-Experts: активация только части модели для эффективности
- 🦾 Агентные функции: выполнение последовательных действий по команде

Meta вложит $65 млрд в инфраструктуру и обучила модель с 10× большим compute, чем Llama 2. Внедрение — в продуктах вроде Facebook и Ray-Ban Smart Glasses.


https://ai.meta.com/blog/llama-4-multimodal-intelligence/
🔥2
Тут толпа исследователей из разных компаний и универов сделалил большую обзорку по современным компонентам агентов

Обучение, ризонинги, память, world models, много про RL, реварды, действия и вызов тулов, эволюционные системы, самоулучшение, сейфти и вообще куча всего

190 страниц текста и 74 страницы ссылок

красота, стоит обратить внимание

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
https://arxiv.org/abs/2504.01990

Листик со ссылками
https://github.com/FoundationAgents/awesome-foundation-agents
👍41
2025/07/08 16:33:09
Back to Top
HTML Embed Code: