Forwarded from Анализ данных (Data analysis)
🎥 Минутное видео по тексту? Новый подход к генерации от исследователей!
Генерация длинных видео — всё ещё вызов для ИИ. Self-attention не тянет по скорости, Mamba — по сложности сюжета. Но тут на сцену выходят TTT-слои (Test-Time Training) — и делают шаг вперёд.
🧠 В чём суть: — TTT-слои умеют использовать выразительные скрытые состояния, которые сами являются нейросетями.
— Их добавляют в уже обученный трансформер — и он начинает генерировать минутные видео по текстовому сценарию с плавным движением и логичной историей.
— Проверяли на мультстиле Tom & Jerry — и получили +34 Elo-балла в человеческой оценке по сравнению с Mamba 2 и другими сильными базовыми методами.
ИИ уже близок к тому, чтобы полностью воспроизводить стили старых мультфильмов или аниме. Это может кардинально изменить производство анимации — вместо создания вручную, студии смогут "дообучать" модель и просто писать сценарии.
Прикрепленное видео, было создано с помощью промпта и обучено на сотнях часов Тома и Джерри.
Вот его полный промпт.
⚠️ Да, пока есть артефакты и ограничения — модель на 5B параметров и только минутные ролики. Но подход уже выглядит перспективным.
Следим за развитием.
📌Demos: http://test-time-training.github.io/video-dit/
📌Paper: http://test-time-training.github.io/video-dit/assets/ttt_cvpr_2025.pdf
📌Github: https://github.com/test-time-training/ttt-video-dit
@data_analysis_ml
Генерация длинных видео — всё ещё вызов для ИИ. Self-attention не тянет по скорости, Mamba — по сложности сюжета. Но тут на сцену выходят TTT-слои (Test-Time Training) — и делают шаг вперёд.
🧠 В чём суть: — TTT-слои умеют использовать выразительные скрытые состояния, которые сами являются нейросетями.
— Их добавляют в уже обученный трансформер — и он начинает генерировать минутные видео по текстовому сценарию с плавным движением и логичной историей.
— Проверяли на мультстиле Tom & Jerry — и получили +34 Elo-балла в человеческой оценке по сравнению с Mamba 2 и другими сильными базовыми методами.
ИИ уже близок к тому, чтобы полностью воспроизводить стили старых мультфильмов или аниме. Это может кардинально изменить производство анимации — вместо создания вручную, студии смогут "дообучать" модель и просто писать сценарии.
Прикрепленное видео, было создано с помощью промпта и обучено на сотнях часов Тома и Джерри.
Вот его полный промпт.
⚠️ Да, пока есть артефакты и ограничения — модель на 5B параметров и только минутные ролики. Но подход уже выглядит перспективным.
Следим за развитием.
📌Demos: http://test-time-training.github.io/video-dit/
📌Paper: http://test-time-training.github.io/video-dit/assets/ttt_cvpr_2025.pdf
📌Github: https://github.com/test-time-training/ttt-video-dit
@data_analysis_ml
Forwarded from Machinelearning
HiDream-I1 - генеративная модель text-to-imаge, разработанная китайской компанией HiDream, которая работает под брендом vivagoAI.
Модель получила 17 млрд. параметров и показывает высочайшее качество генерации изображений в фотореализме, анимационном и художественном стилях. Представлено 3 версии модели: Dev, Full и Fast.
Модель выпущена под лицензией MIT и уже заняла 1 место в GenAI-бенчмарках, обогнав предыдущего лидера, GPT-4o.
@ai_machinelearning_big_data
#news #ai #ml #HiDream #AImodel
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
💥 Исследователи поместили 1000 агентов ИИ на сервер Minecraft.
Агенты создали собственную цивилизацию с правительством, культурой и экономикой, а священники использовали веру, чтобы убеждать других вступить к ним.
https://www.reddit.com/r/Amazing/comments/1iqdhxv/researchers_placed_1000_ai_agents_in_a_minecraft/
Агенты создали собственную цивилизацию с правительством, культурой и экономикой, а священники использовали веру, чтобы убеждать других вступить к ним.
https://www.reddit.com/r/Amazing/comments/1iqdhxv/researchers_placed_1000_ai_agents_in_a_minecraft/
📚 LLM Agents Papers — коллекция ключевых исследований про агентов на основе языковых моделей
Этот репозиторий — сокровищница для тех, кто хочет глубоко разобраться в теме ИИ-агентов. Здесь собраны 300+ научных статей, разбитых на категории: от архитектур с памятью и планированием до мультиагентных систем и инструментария. Особый акцент делается на работах 2023-2024 годов, включая свежие публикации про Voyager, AutoGPT и MetaGPT.
🤖 GitHub
@neural
Этот репозиторий — сокровищница для тех, кто хочет глубоко разобраться в теме ИИ-агентов. Здесь собраны 300+ научных статей, разбитых на категории: от архитектур с памятью и планированием до мультиагентных систем и инструментария. Особый акцент делается на работах 2023-2024 годов, включая свежие публикации про Voyager, AutoGPT и MetaGPT.
🤖 GitHub
@neural
This media is not supported in your browser
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Исследователи из МiT, Microsoft и Goggle создали фреймворк, который может изменить подход к разработке алгоритмов машинного обучения - I-Con (Information Contrastive Learning).
Он объединил и систематизировал более 20 классических методов ML — от кластеризации до контрастивного обучения в единую структуру, напоминающую периодическую таблицу. Как и ее химический прародитель, эта таблица не только упорядочивает известные алгоритмы, но и указывает на пробелы, где могут существовать еще не открытые методы.
В основе I-Con лежит уравнение, минимизирующее расхождение Кульбака-Лейблера между двумя распределениями: «идеальным» (на основе данных) и тем, что обучает модель. Это уравнение, найденное почти случайно, стало ключом к объединению таких разных подходов, как k-средних, SimCLR и PCA.
Для примера - алгоритм кластеризации в I-Con рассматривается как способ выравнивания распределений сходства точек, а контрастивное обучение — как работа с аугментациями изображений. Такая унификация позволила ресерчерам буквально «скрещивать» методы: комбинация идей из контрастивного обучения и спектральной кластеризации дала новый алгоритм, который на 8% точнее предсказывает классы изображений без меток.
I-Con — не просто теория. В экспериментах на ImageNet-1K фреймворк показал, как перенос приемов между областями машинного обучения улучшает результаты. Например, техника дебайсинга (исправления смещений в данных), изначально созданная для контрастивного обучения, повысила точность кластеризации. А добавление проходов по neighbor propagation в алгоритмы помогло моделям лучше учитывать локальную структуру данных.
Но главное преимущество I-Con — его предсказательная сила. Пустые клетки в таблице указывают на гипотетические алгоритмы, которые ещё предстоит создать. Иными словами, комбинируя подходы из supervised и unsupervised обучения, можно разработать методы, эффективные для задач с частично размеченными данными. Уже сейчас фреймворк помогает избежать «изобретения велосипеда»: вместо того чтобы перебирать варианты наугад, исследователи могут целенаправленно комбинировать элементы из таблицы.
Пока рано говорить, станет ли I-Con общепринятым стандартом, но его потенциал очевиден. Как минимум, он предлагает свежий взгляд на машинное обучение — не как на набор разрозненных алгоритмов, а как на систему со скрытой структурой. И если химики когда-то заполняли пустоты в таблице Менделеева, то ML-исследователи теперь могут делать то же самое — осознанно, а не методом проб и ошибок.
# Clone the repo
git clone https://github.com/ShadeAlsha/ICon.git
cd ICon
# Create a conda env
conda create -n ICon
conda activate ICon
# Install dependencies
pip install -e .
# Evaluate Models
cd ICon
python evaluate.py
# After evaluation, see the results in tensorboard
cd ../logs/evaluate
tensorboard --logdir .
# Train a Model
cd ICon
python train.py
@ai_machinelearning_big_data
#AI #ML #ICon #Framework #Algorithms
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Kimi-Audio — инструктивная модель с 7 млрд. параметров, разработанная командой MoonshotAI, которая объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру. Модель показала SOTA-результаты на множестве аудиобенчмарков, от распознавания речи до эмоционального анализа.
Архитектура Kimi-Audio — это 3 компонента:
Отдельного внимания заслуживает пайплайн обучения, к нему команда разработки подошла ответственно и скрупулезно: 13 млн часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.
Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предобучения на задачах ASR и TTS модель прошла этап SFT на 300 тыс. часов данных (развернутые диалоги и аудиочаты).
В тестах ASR Kimi-Audio показала: WER 1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке).
@ai_machinelearning_big_data
#AI #ML #KimiAudio #MoonshotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Благое собрал лучшие БЕСПЛАТНЫЕ альтернативы платным нейросетям:
• Grok Илона Маска (ChatGPT) —обеспечивает точные и быстрые ответы с учетом контекста, поддерживая профессиональный уровень общения.
• Qwen (Claude) — типовая языковая модель от Alibaba, которая обеспечивает высокую точность в генерации текста, переводах и ответах на сложные запросы.
• Ideogram (KlingAI) — отлично генерирует высококачественные изображения, включая логотипы и иллюстрации, на основе текстовых описаний.
• HailuoAI (MidJourney) — нейросеть, которая генерирует реалистичные изображения из текстовых описаний.
• Fotor(Photoshop) — отредактирует изображения по тексту, предлагая удобный интерфейс для создания креативного контента и дизайна.
Сохраняем, чтобы не потерять.
• Grok Илона Маска (ChatGPT) —обеспечивает точные и быстрые ответы с учетом контекста, поддерживая профессиональный уровень общения.
• Qwen (Claude) — типовая языковая модель от Alibaba, которая обеспечивает высокую точность в генерации текста, переводах и ответах на сложные запросы.
• Ideogram (KlingAI) — отлично генерирует высококачественные изображения, включая логотипы и иллюстрации, на основе текстовых описаний.
• HailuoAI (MidJourney) — нейросеть, которая генерирует реалистичные изображения из текстовых описаний.
• Fotor(Photoshop) — отредактирует изображения по тексту, предлагая удобный интерфейс для создания креативного контента и дизайна.
Сохраняем, чтобы не потерять.
Forwarded from Machinelearning
🦾 Berkeley Humanoid Lite — открытый человекоподобный робот
Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.
Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.
🌟 100 % open-source под MIT-лицензией: прошивки, схемы, BOM, STL-модели, RL-контроллеры
✔️ Open Hardware: доступные в рознице электро- и мехкомпоненты, детали печатаются на обычном FDM-принтере
➡️ Итоговая стоимость сборки — примерно 5 000 USD
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
➡️ Экосистема: Isaac Lab / Isaac Sim / MuJoCo, телеметрия через SteamVR-контроллеры
⏩ Что доступно:
- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота
🌟 Что робот умеет уже сейчас
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики
🔥 Как удалось удешевить:
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат
*Clone → Print → Build → Hack!* 🤓
🔜 Проект
🔜 Код
🔜 Схемы
@ai_machinelearning_big_data
#robots #ai #ml #opensource
Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.
Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат
*Clone → Print → Build → Hack!* 🤓
@ai_machinelearning_big_data
#robots #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM