Neural Networks | Нейронные сети 9980

🎥 Минутное видео по тексту? Новый подход к генерации от исследователей!

Генерация длинных видео — всё ещё вызов для ИИ. Self-attention не тянет по скорости, Mamba — по сложности сюжета. Но тут на сцену выходят TTT-слои (Test-Time Training) — и делают шаг вперёд.

🧠 В чём суть: — TTT-слои умеют использовать выразительные скрытые состояния, которые сами являются нейросетями.
— Их добавляют в уже обученный трансформер — и он начинает генерировать минутные видео по текстовому сценарию с плавным движением и логичной историей.
— Проверяли на мультстиле Tom & Jerry — и получили +34 Elo-балла в человеческой оценке по сравнению с Mamba 2 и другими сильными базовыми методами.

ИИ уже близок к тому, чтобы полностью воспроизводить стили старых мультфильмов или аниме. Это может кардинально изменить производство анимации — вместо создания вручную, студии смогут "дообучать" модель и просто писать сценарии.

Прикрепленное видео, было создано с помощью промпта и обучено на сотнях часов Тома и Джерри.

Вот его полный промпт.

⚠️ Да, пока есть артефакты и ограничения — модель на 5B параметров и только минутные ролики. Но подход уже выглядит перспективным.

Следим за развитием.

📌Demos: http://test-time-training.github.io/video-dit/
📌Paper: http://test-time-training.github.io/video-dit/assets/ttt_cvpr_2025.pdf
📌Github: https://github.com/test-time-training/ttt-video-dit

@data_analysis_ml

1.7K views07:15

Neural Networks | Нейронные сети

Forwarded from Machinelearning

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

Релиз весов HiDream-I1: 17B параметров и превосходство над GPT-4o по качеству генерации изображений.

HiDream-I1 - генеративная модель text-to-imаge, разработанная китайской компанией HiDream, которая работает под брендом vivagoAI.

Модель получила 17 млрд. параметров и показывает высочайшее качество генерации изображений в фотореализме, анимационном и художественном стилях. Представлено 3 версии модели: Dev, Full и Fast.

Модель выпущена под лицензией MIT и уже заняла 1 место в GenAI-бенчмарках, обогнав предыдущего лидера, GPT-4o.

🟡

Попробовать

🟡

Github

🟡

HidreamAi в X (ex-Twitter)

@ai_machinelearning_big_data

#news #ai #ml #HiDream #AImodel

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views08:19

Neural Networks | Нейронные сети

2:18

Media is too big

VIEW IN TELEGRAM

💥 Исследователи поместили 1000 агентов ИИ на сервер Minecraft.

Агенты создали собственную цивилизацию с правительством, культурой и экономикой, а священники использовали веру, чтобы убеждать других вступить к ним.

https://www.reddit.com/r/Amazing/comments/1iqdhxv/researchers_placed_1000_ai_agents_in_a_minecraft/

1.9K views08:52

Neural Networks | Нейронные сети

📚 LLM Agents Papers — коллекция ключевых исследований про агентов на основе языковых моделей

Этот репозиторий — сокровищница для тех, кто хочет глубоко разобраться в теме ИИ-агентов. Здесь собраны 300+ научных статей, разбитых на категории: от архитектур с памятью и планированием до мультиагентных систем и инструментария. Особый акцент делается на работах 2023-2024 годов, включая свежие публикации про Voyager, AutoGPT и MetaGPT.

🤖 GitHub

@neural

2.2K views16:20

Neural Networks | Нейронные сети

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Krea запустила новую фичу: создание виртуальных миров с добавлением 3D-объектов 💃

ИИ генерирует базовое пространство и предлагает подходящие объекты, подсказывая промты для генерации.

Плюс — всё бесплатно!

Попробовать можно здесь.

#Krea #AI #3Dworlds #free

2.0K views15:15

Neural Networks | Нейронные сети

Forwarded from Machinelearning

5:46

Media is too big

VIEW IN TELEGRAM

🌟

Периодическая таблица машинного обучения.

Исследователи из МiT, Microsoft и Goggle создали фреймворк, который может изменить подход к разработке алгоритмов машинного обучения - I-Con (Information Contrastive Learning).

Он объединил и систематизировал более 20 классических методов ML — от кластеризации до контрастивного обучения в единую структуру, напоминающую периодическую таблицу. Как и ее химический прародитель, эта таблица не только упорядочивает известные алгоритмы, но и указывает на пробелы, где могут существовать еще не открытые методы.

В основе I-Con лежит уравнение, минимизирующее расхождение Кульбака-Лейблера между двумя распределениями: «идеальным» (на основе данных) и тем, что обучает модель. Это уравнение, найденное почти случайно, стало ключом к объединению таких разных подходов, как k-средних, SimCLR и PCA.

Для примера - алгоритм кластеризации в I-Con рассматривается как способ выравнивания распределений сходства точек, а контрастивное обучение — как работа с аугментациями изображений. Такая унификация позволила ресерчерам буквально «скрещивать» методы: комбинация идей из контрастивного обучения и спектральной кластеризации дала новый алгоритм, который на 8% точнее предсказывает классы изображений без меток.

I-Con — не просто теория. В экспериментах на ImageNet-1K фреймворк показал, как перенос приемов между областями машинного обучения улучшает результаты. Например, техника дебайсинга (исправления смещений в данных), изначально созданная для контрастивного обучения, повысила точность кластеризации. А добавление проходов по neighbor propagation в алгоритмы помогло моделям лучше учитывать локальную структуру данных.

Но главное преимущество I-Con — его предсказательная сила. Пустые клетки в таблице указывают на гипотетические алгоритмы, которые ещё предстоит создать. Иными словами, комбинируя подходы из supervised и unsupervised обучения, можно разработать методы, эффективные для задач с частично размеченными данными. Уже сейчас фреймворк помогает избежать «изобретения велосипеда»: вместо того чтобы перебирать варианты наугад, исследователи могут целенаправленно комбинировать элементы из таблицы.

Пока рано говорить, станет ли I-Con общепринятым стандартом, но его потенциал очевиден. Как минимум, он предлагает свежий взгляд на машинное обучение — не как на набор разрозненных алгоритмов, а как на систему со скрытой структурой. И если химики когда-то заполняли пустоты в таблице Менделеева, то ML-исследователи теперь могут делать то же самое — осознанно, а не методом проб и ошибок.

▶️Практическое применение:

# Clone the repo
git clone https://github.com/ShadeAlsha/ICon.git
cd ICon

# Create a conda env
conda create -n ICon
conda activate ICon

# Install dependencies
pip install -e . 

# Evaluate Models
cd ICon
python evaluate.py

# After evaluation, see the results in tensorboard
cd ../logs/evaluate
tensorboard --logdir .

# Train a Model
cd ICon
python train.py

🟡

Страница проекта

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #ICon #Framework #Algorithms

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views10:47

Neural Networks | Нейронные сети

Forwarded from Machinelearning

🌟 Kimi-Audio: открытая модель для аудиозадач.

Kimi-Audio — инструктивная модель с 7 млрд. параметров, разработанная командой MoonshotAI, которая объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру. Модель показала SOTA-результаты на множестве аудиобенчмарков, от распознавания речи до эмоционального анализа.

Архитектура Kimi-Audio — это 3 компонента:

🟢Гибридный токенизатор, который преобразует аудио в дискретные семантические токены (12.5 Гц) через векторное квантование и дополняет их непрерывными акустическими признаками из Whisper.

🟢Модифицированная LLM (на базе Qwen 2.5 7B) с общими слоями для мультимодальных данных и раздельными «головами» для генерации текста и аудио.

🟢Детокенизатор на основе flow matching и BigVGAN. Он превращает токены обратно в звук с задержкой менее секунды благодаря чанковому потоковому декодированию и look-ahead механизму.

Отдельного внимания заслуживает пайплайн обучения, к нему команда разработки подошла ответственно и скрупулезно: 13 млн часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.

Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предобучения на задачах ASR и TTS модель прошла этап SFT на 300 тыс. часов данных (развернутые диалоги и аудиочаты).

В тестах ASR Kimi-Audio показала: WER 1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке).

📌 Лицензирование кода : Apache 2.0 License.

📌 Лицензирование модели: MIT License.

🟡

Модель

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #KimiAudio #MoonshotAI

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K views12:32

Neural Networks | Нейронные сети

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Благое собрал лучшие БЕСПЛАТНЫЕ альтернативы платным нейросетям:

• Grok Илона Маска (ChatGPT) —обеспечивает точные и быстрые ответы с учетом контекста, поддерживая профессиональный уровень общения.

• Qwen (Claude) — типовая языковая модель от Alibaba, которая обеспечивает высокую точность в генерации текста, переводах и ответах на сложные запросы.

• Ideogram (KlingAI) — отлично генерирует высококачественные изображения, включая логотипы и иллюстрации, на основе текстовых описаний.

• HailuoAI (MidJourney) — нейросеть, которая генерирует реалистичные изображения из текстовых описаний.

• Fotor(Photoshop) — отредактирует изображения по тексту, предлагая удобный интерфейс для создания креативного контента и дизайна.

Сохраняем, чтобы не потерять.

1.7K views21:17

Neural Networks | Нейронные сети

Forwarded from Machinelearning

2:40

Media is too big

VIEW IN TELEGRAM

🦾 Berkeley Humanoid Lite — открытый человекоподобный робот

Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.

Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.

🌟 100 % open-source под MIT-лицензией: прошивки, схемы, BOM, STL-модели, RL-контроллеры
✔️ Open Hardware: доступные в рознице электро- и мехкомпоненты, детали печатаются на обычном FDM-принтере
➡️ Итоговая стоимость сборки — примерно 5 000 USD
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
➡️ Экосистема: Isaac Lab / Isaac Sim / MuJoCo, телеметрия через SteamVR-контроллеры

⏩

Что доступно:

- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота

🌟

Что робот умеет уже сейчас
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики

🔥 Как удалось удешевить:
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат

*Clone → Print → Build → Hack!* 🤓

🔜

Проект

🔜

Код

🔜

Схемы

@ai_machinelearning_big_data

#robots #ai #ml #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.6K views14:20

2025/07/06 01:45:12
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>