Telegram Web Link
Forwarded from AI для Всех
Compressed Vision for Efficient Video Understanding

DeepMind опубликовал интересную статью, с далеко идущими последствиями. Идея довольно простая и элегантная:

У нас есть много длинных видео, работать с ними сложно по ряду причин (long sequences, размер и тп). Так почему бы нам сначала не сжать эти видосы (с помощью нейрокодека), а потом обучать нейросеть уже на сжатых видео?

Так они и поступили. Мне кажется этот подход будет хорошо работать и с другими долгими последовательностями, например со стримами с датчиков.

🌟 Блог-пост
📖 Статья
👍6👎3🌭2
https://github.com/instill-ai/vdp

Visual Data Preparation (VDP) is an open-source visual data ETL tool to streamline the end-to-end visual data processing pipeline:

Extract unstructured visual data from pre-built data sources such as cloud/on-prem storage, or IoT devices

Transform it into analysable structured data by Vision AI models

Load the transformed data into warehouses, applications, or other destinations
👍4👎3
Forwarded from Технологии | Нейросети | Боты
Media is too big
VIEW IN TELEGRAM
🕺 🎵 Musika! Fast Infinite
Waveform Music
Generation 🎵

Моментальная генерация стереомузыки:
Техно, Метал, Лофи


Возможность обучать Musika на своем собственном музыкальном наборе данных (с нуля или путем точной настройки).

• Попробовать
• GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
The Washington Post сделал офигенную статью для не технических людей, о том как работает диффузионные модели и все эти генераторы артов:
https://www.washingtonpost.com/technology/interactive/2022/ai-image-generator/

Все на пальцах, рекомендую.

Особенно желательно к просмотру тем, кто думает что нейронка «сшивает» картинки из чужих работ – никакого коллажирования, чистый синтез
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️NerfStudio: Простая библиотека для создания NeRF-ов и с охеренным web-GUI

Если хотите покрутить нерф, но не знаете с чего начать, либо просто хотите поиграться с фотками и реконструировать 3Д сцену, то эта библиотека для вас. Для запуска не требуется глубокого понимания того, как работает нейронный рендеринг. Нужно просто обработать фотки в COLMAP и запустить скрипт. На видео – примеры работы либы.

🔥Реализованные методы:

- Nerfacto: кастомный нерф, которые включает в себя все последние трюки для лучшего качества и скорости рендеринга.
- Базовый NeRF
- Instant NGP: быстро тренируем нерф за счёт оптимизации на гриде и рендеринге маленькими MLP сетками.
- MipNerf: решает проблему алиасинга при редеринге объекта в разных масштабах.
- NerfW: NeRF in the Wild
- Semantic NeRF: в 3D рендерятся лейблы семантическоц сегментации вместо текстуры рбъектов.

❱❱ Сайт проекта
❱❱ Web Viewer (нужно соединить с NeRF-ом, который крутится на GPU) сеткой
❱❱ Как использовать свои фото
❱❱ Видео tutorial

@ai_newz
🔥4👍1
Forwarded from эйай ньюз
На рождество получил отличный подарок. Это библия Reinforcement Learning от Ричарда Саттона. Второе дополненное издание особенно крутое.

Собираюсь за праздники подтянуть базу по RL. Советую эту книгу всем, кто хочет реально разобраться, на каких принципах работают, например:
- ChatGPT (это без комментариев)
- AlphaGo (победил чемпиона Европы в игру Go)
- AlphaStar (AI, которые обыгрывает профессионалов в StarCraft)
- MuZero (умеет профессионально играть в кучу игр сразу, включая Go, шахматы, Atari и др)
- OpenAI Five (AI который выносит людей в Доту 2)
и другие современные AI агенты.

❱❱ Вот тут есть PDF версия книги.

@ai_newz
12
Forwarded from Connectable Jobs
Middle/Senior Python Developer в ZenPulsar

📍Португалия или remote не из РФ
💸3500-4500€ в месяц
💎Опыт от 3 лет
🚀Фаундер – Александр Писемский, ex Head of Forensic Technology в PwC, ко-фаундер Group-IB

ZenPulsar – AI-инструмент извлечения сигналов для финансового рынка из соцсетей.

Размер команды – 11-50 | Инвестиции – €1M

Узнать подробнее: тут

Прямой контакт для отклика: @salavatov

Другая вакансия в стартапе:
System Administrator

#backend #python #zenpulsar
👍2🤮2🐳1
Forwarded from Machinelearning
🎶 Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion

Audio generation using diffusion models, in PyTorch.

Полнофункциональная библиотека генерации звука на PyTorch.

pip install audio-diffusion-pytorch

🖥 Github: https://github.com/archinetai/audio-diffusion-pytorch

✅️ Paper: https://arxiv.org/abs/2301.11757v1

⭐️ A-unet: https://github.com/archinetai/a-unet

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍2
⚡️Приглашаем вас на бесплатный вебинар «Методы суррогатного моделирования сложных динамических систем», который пройдет 16 февраля в 10:00 по московскому времени

Суррогатное моделирование в последнее время стало набирать обороты в сфере математического моделирования динамических систем.

Сложные технические системы могут быть описаны разными способами, как через дифференциальные уравнения, что сильно замедляет процесс расчета, так и через специфические модели для их симуляции, или даже через экспериментальные данные. При этом любое упрощение системы уравнений ведёт к серьезной потере точности.

Суррогатные модели решают две проблемы: ускоряют расчеты и позволяют сохранить точность упрощенных моделей при наличии нескольких экспериментальных точек данных.

В докладе будут представлены суррогатные аналоги модели механизма элерона самолета в Simulink на базе рекуррентных нейронных сетей и адаптивных алгоритмов с подробным сравнением результатов моделирования.

Регистрация тут 👈
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Dreamix: Video Diffusion Models are General Video Editors

New Google's text-based motion model.

Given a small collection of images showing the same subject, Dreamix can generate new videos with the subject in motion.

Всего из нескольких картинок или ролику новая модель от Google - Dreamix генерирует видео по текстовому описанию!

На видео Dreamix превращает обезьяну в танцующего медведя по промпту «Медведь танцует и прыгает под веселую музыку, двигая всем телом».

⭐️ Project: https://dreamix-video-editing.github.io/

✅️ Paper: https://arxiv.org/pdf/2302.01329.pdf

⭐️ Video: https://www.youtube.com/watch?v=xcvnHhfDSGM
.

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Open-sources PhyCV: The First Physics-inspired Computer Vision Library

Unlike traditional algorithms that are a sequence of hand-crafted empirical rules, physics-inspired algorithms leverage physical laws of nature as blueprints.

PhyCV - новый класс алгоритмов компьютерного зрения, высокой точности, которые имитируют распространение света через физические объекты. Алгоритмы основаны на уравнениях дифракции света в оптических системах.


pip install phycv

🖥 Github: https://github.com/sarafridov/K-Planes

📝 Paper: https://arxiv.org/abs/2301.12531v1

🎥 Video: https://www.youtube.com/watch?v=PJXXwXVyjdk&embeds_euri=https%3A%2F%2Fwww.imveurope.com%2F&feature=emb_logo

⭐️ Project: https://photonics.ucla.edu/2022/05/12/jalali-lab-open-sources-phycv-a-physics-inspired-computer-vision-library/

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3🥰1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ In-N-Out: Face Video Inversion and Editing with Volumetric Decomposition

The core idea is to represent the face in a video using two neural radiance fields, one for in-distribution and the other for out-of-distribution data, and compose them together for reconstruction.

Новая модель от Adobe Research, для редактирования видео с поддержкой 3D, позволяет манипулировать объектами в условиях сдвига данных. (OOD generalization).

⭐️ Project: https://colab.research.google.com/drive/1VSFps4siwASXDwhK_o29dKA9COvTnG8A?usp=sharing

✅️ Paper: hhttps://arxiv.org/abs/2302.03668v1

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥1
Streamline AI & ML Product Delivery

https://github.com/jina-ai/jina
🔍 Haystack is an open source NLP framework to interact with your data using Transformer models and LLMs (GPT-3 and alike). Haystack offers production-ready tools to quickly build ChatGPT-like question answering, semantic search, text generation, and more.

https://github.com/deepset-ai/haystack/
Появился сервис AIcyclopedia, в котором собрано более 1000 ИИ-инструментов по категориям из сотен источников, более 900 промтов и инструкций ChatGPT, подкасты и даже фильмы. Всё это по нейросетям в одном месте, чтобы было намного проще найти то, что вас интересует.

Ссылка

r/#InternetIsBeautiful
👍5
Forwarded from Machinelearning
📡 Learning Visual Representations via Language-Guided Sampling

New approach deviates from image-text contrastive learning by relying on pre-trained language models to guide the learning rather than minimize a cross-modal similarity.

Новый альтернативный подход к визуальному обучению: с использованием языкового сходства для выборки семантически схожих пар изображений.

🖥 Github: https://github.com/mbanani/lgssl

⭐️Paper: https://arxiv.org/abs/2302.12248v1

Pre-trained Checkpoints: https://www.dropbox.com/sh/me6nyiewlux1yh8/AAAPrD2G0_q_ZwExsVOS_jHQa?dl=0

💻 Dataset : https://paperswithcode.com/dataset/redcaps

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥1
2025/07/11 23:28:57
Back to Top
HTML Embed Code: