Forwarded from Machinelearning
OmniRe - метод для целостной реконструкции городских среды с движущимися объектами по существующим видеозаписям.
Метод использует нейронный граф сцены и гауссовы представления для моделирования различных динамических объектов - транспортные средства, пешеходов и велосипедистов.
OmniRe реконструирует и оптимизирует всю композицию сцены за один этап: гауссовские атрибуты, положения объектов, позы людей и веса сети деформаций.
Способность целостного моделирования динамических объектов позволяет применять OmniRe в проектах управления транспортными средствами, моделирования дорожного движения и симуляции поведения человека в условиях городской среды.
Ограничения и недостатки:
Прикладное применения метода реализовано в виде фреймворка Drive Studio. Помимо имплементации метода OmniRe, он имеет ряд полезных функций:
Фреймворк поддерживает методы OmniRe, Deformable-GS, PVG, Street Gaussians с использованием набора данных Waymo, NuScenes, NuPlan, ArgoVerse, PandaSet, KITTI.
Планы по развитию Drive Studio:
⚠️ Важно! Перед началом обучения внимательно ознакомьтесь с инструкциями по подготовке наборов данных.
# Clone repository with submodules
git clone --recursive https://github.com/ziyc/drivestudio.git
cd drivestudio
# Create venv and install requirements
conda create -n drivestudio python=3.9 -y
conda activate drivestudio
pip install -r requirements.txt
pip install git+https://github.com/facebookresearch/pytorch3d.git
pip install git+https://github.com/NVlabs/nvdiffrast
# Set up for SMPL Gaussians
cd third_party/smplx/
pip install -e .
cd ../..
@ai_machinelearning_big_data
#AI #DriveStudio #ML #OmiRe #Gaussian
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Программа конференции Practical ML Conf о практическом применении ML
В этом году мероприятие пройдет 14 сентября. Среди наиболее интересных докладов:
— Ирина Барская, руководитель службы аналитики и исследований – «Человек и LLM. Как оценивать качество моделей и строить их метрики качества».
— Виктор Плошихин, руководитель ML-лаборатории в Yandex Platform Engineering — «AI-инструмент для разработчика: как мы обучали LLM работе с кодом».
— Савва Степурин, старший разработчик команды рекомендаций — «Как улучшить знакомые подходы для рекомендации незнакомого — как умная система рекомендаций помогает пользователям Яндекс Музыки открывать новые треки и артистов».
Чтобы посетить конференцию офлайн или онлайн, необходимо заранее зарегистрироваться.
🔗 Подробности и регистрация
@neural
В этом году мероприятие пройдет 14 сентября. Среди наиболее интересных докладов:
— Ирина Барская, руководитель службы аналитики и исследований – «Человек и LLM. Как оценивать качество моделей и строить их метрики качества».
— Виктор Плошихин, руководитель ML-лаборатории в Yandex Platform Engineering — «AI-инструмент для разработчика: как мы обучали LLM работе с кодом».
— Савва Степурин, старший разработчик команды рекомендаций — «Как улучшить знакомые подходы для рекомендации незнакомого — как умная система рекомендаций помогает пользователям Яндекс Музыки открывать новые треки и артистов».
Чтобы посетить конференцию офлайн или онлайн, необходимо заранее зарегистрироваться.
🔗 Подробности и регистрация
@neural
Forwarded from Искусственный интеллект. Высокие технологии
Media is too big
VIEW IN TELEGRAM
⚡️ Alibaba и Tencent представили нейросеть Minimax для создания видео из текста. Она способна быстро и качественно генерировать ролики с нуля, но с ограничением по длительности до 6 секунд.
Станет ли это конкурентом для Sora или очередным источником странных нейрогенераций? Узнать можно бесплатно после регистрации.
— Потребуется китайский;
— Работает только на ПК или в десктоп-версии на смартфоне.
• Попробовать
@vistehno
Станет ли это конкурентом для Sora или очередным источником странных нейрогенераций? Узнать можно бесплатно после регистрации.
— Потребуется китайский;
— Работает только на ПК или в десктоп-версии на смартфоне.
• Попробовать
@vistehno
Forwarded from Machinelearning
In-Context Robot Transformer (ICRT) - модель, которая позволяет роботу выполнять новые задачи, интерпретируя контекстную информацию, предоставленную во время демонстрационной фазы, без обновления параметров базовой политики.
ICRT представляет собой причинно-следственный трансформер, который выполняет автоматический прогноз сенсомоторных траекторий без использования лингвистических данных или функции вознаграждения. Он позволяет гибко и без обучения выполнять новые задачи на основе наблюдений изображений, действий и состояний, собранных с помощью телеопераций человека.
Модель состоит из трех частей: предварительно обученного кодировщика изображений, серии проекторов для каждой из входных модальностей и каузального трансформера:
Для предварительного обучения модели использовался датасет DROID и созданный вручную мультизадачный датасет ICRT-Multi-Task (ICRT-MT - 1098 траекторий, 26 задач с 6 примитивами), который использовался в этапе дообучения.
Результаты экспериментов показывают, что ICRT способен обобщать незнакомые задачи и объекты, даже в средах, которые отличаются от демонстрационных.
# Create & activate venv
conda create -n icrt python=3.10 -y
conda activate icrt
# Install torch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
conda install -c conda-forge ffmpeg
# Clone the Repository
git clone https://github.com/Max-Fu/icrt.git
cd icrt
# Install required packages
pip install -e .
# Install git-lfs
sudo apt install git-lfs
git lfs install
# Download checkpoints
git clone [email protected]:mlfu7/ICRT checkpoints
Пример инференса приведен в ноутбуке inference.ipynb. Перед его запуском обязательно ознакомьтесь с рекомендациями по загрузке и созданию собственного датасета.
@ai_machinelearning_big_data
#AI #ML #Robotics #ICRT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
OpenVLA - набор моделей с 7млрд. параметров, которые предназначены для универсального управления роботами.
OpenVLA состоит из комбинации визуальных энкодеров SigLIP, DinoV2 и языковой модели Llama 2, выступающей в качестве основы. Обучение производилось на наборе данных Open-X, который состоит из 970 тыс. траекторий манипуляций в различных средах.
Модели принимают на вход языковую инструкцию и изображение рабочей области с камеры робота. Затем, OpenVLA предсказывает нормализированные действия робота, состоящие из 7-DoF дельт конечных эффекторов в виде координатных положений (x, y, z, roll, pitch, yaw, gripper).
Для выполнения на реальной роботизированной платформе действия должны быть де-нормализованы с учетом статистики, вычисляемой для каждого робота и каждого набора данных.
OpenVLA готовы к использованию для управления роботами в комбинациях действий и обстановках, если они схожи с действиями и задачами, которые присутствуют в Open-X (например, для сред BridgeV2 с роботом Widow-X).
Модели не умеют самообучаться на условиях, не представленных в предварительном обучении; для решения таких случаев разработчики подготовили подробные инструкции по самостоятельному дообучению на вашем наборе демонстраций.
Семейство OpenVLA состоит из 5 модификаций базовой OpenVLA-7B:
# Create venv
conda create -n openvla python=3.10 -y
conda activate openvla
# Install PyTorch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y
# Clone and install the openvla repo
git clone https://github.com/openvla/openvla.git
cd openvla
pip install -e .
# for training only
# Install Flash Attention 2
pip install packaging ninja
ninja --version; echo $? # --> should return code "0"
pip install "flash-attn==2.5.5" --no-build-isolation
@ai_machinelearning_big_data
#AI #ML #OpetVLA #Robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🧬 Machine Learning: Медицинский дайджест 1.09-07.09 2024 г
https://habr.com/ru/articles/841870/
@neural
https://habr.com/ru/articles/841870/
@neural
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Крутая бесплатная нейросеть которая превращает любое видео в обучающий курс
Утилита
Всё, что нужно — вставить перед ссылкой
Утилита
study.new
загрузит видео, достанет из него всё самое важное и выдаст вам.Всё, что нужно — вставить перед ссылкой
study.new/
Forwarded from Искусственный интеллект. Высокие технологии
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Gen-3 video-to-video только что вышел
Runway Gen-3 представили новую функцию video-to-video!
Теперь можно загружать видео до 10 секунд и редактировать его с помощью текстовых команд.
Меняйте стиль, погоду, освещение и движения, при этом сохраняя детали и геометрию сцены. Новая функция доступна только для подписчиков.
https://runwayml.com/product
@vistehno
Runway Gen-3 представили новую функцию video-to-video!
Теперь можно загружать видео до 10 секунд и редактировать его с помощью текстовых команд.
Меняйте стиль, погоду, освещение и движения, при этом сохраняя детали и геометрию сцены. Новая функция доступна только для подписчиков.
https://runwayml.com/product
@vistehno
👉 Открытые решения в сфере ML/Data в России
Исследовательский центр ИТМО провел анализ использования Open Source в области машинного обучения и работы с данными в России. Результаты показали, что отечественные компании активно развивают и применяют открытые технологии, ориентируясь как на внутренний, так и на международный рынок.
Исследование также отмечает, что идея о том, что участие в опенсорс-разработках помогает конкурентам, постепенно теряет свою актуальность. Всё больше компаний нацелены на развитие всей отрасли.
Лидером среди российских разработчиков открытого ПО стали Яндекс, Сбер и Т-банк. У Яндекса насчитали 120 открытых решений, среди которых выделяются: CatBoost — библиотека для градиентного бустинга, YTsaurus — платформа для работы с большими данными и YDB — распределённая SQL база данных. Вне основного рейтинга был отмечен проект ClickHouse.
▪️ Источник: https://opensource.itmo.ru
@neural
Исследовательский центр ИТМО провел анализ использования Open Source в области машинного обучения и работы с данными в России. Результаты показали, что отечественные компании активно развивают и применяют открытые технологии, ориентируясь как на внутренний, так и на международный рынок.
Исследование также отмечает, что идея о том, что участие в опенсорс-разработках помогает конкурентам, постепенно теряет свою актуальность. Всё больше компаний нацелены на развитие всей отрасли.
Лидером среди российских разработчиков открытого ПО стали Яндекс, Сбер и Т-банк. У Яндекса насчитали 120 открытых решений, среди которых выделяются: CatBoost — библиотека для градиентного бустинга, YTsaurus — платформа для работы с большими данными и YDB — распределённая SQL база данных. Вне основного рейтинга был отмечен проект ClickHouse.
▪️ Источник: https://opensource.itmo.ru
@neural