Forwarded from Machinelearning
Этот проект был создан, с целью изучения понимания внутренней работы PyTorch и других популярных фреймворков глубокого обучения.
Главная цель проекта - создание с нуля минималистичного, но при этом мощного фреймворк глубокого обучения, который можно использовать как для исследований, так и для продакшена.
Фреймворк написан на C и Python и спроектирован так, чтобы его было легко понять и модифицировать.
Знаменитая цитат Ричарда Фейнмена - То, что я не могу создать, я не понимаю.
Создание собственного языка программирования, игрового движка и конечно фреймворка машинного обучения позволит понять, как работает современное программное обеспечение, до мельчайших деталей.
◾️GitHub
◾️Demo
◾️Docs
@ai_machinelearning_big_data
#c99 #python #framework
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥4❤1
💡Alibaba выпустили V-makeup - инструмент генрации макияжа с открытым исходным кодом
Позволяет делать качественный перенос макияжа с помощью диффузионных моделей
https://github.com/Snowfallingplum/SHMT
Позволяет делать качественный перенос макияжа с помощью диффузионных моделей
https://github.com/Snowfallingplum/SHMT
👍3❤1🔥1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍5🔥3👏1
Forwarded from Machinelearning
NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.
Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.
NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.
После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.
@ai_machinelearning_big_data
#NVIDIA #parsing #embedding
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥3❤1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤3🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro TTS — это модель 82M TTS, которая звучит очень реалистично и работает ⚡ быстро!
📌 HF: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
@machinelearning_ru
📌 HF: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
@machinelearning_ru
👍7❤2🔥2👎1🥰1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Новый веб-вьювер HDR и редактор для создания видеоклипов!
📺Web Viewer: https://srameo.github.io/projects/le3d/
🧑💻Github: https://github.com/Srameo/LE3D
#ComputerVision #3DReconstruction #GaussianSplatting
📺Web Viewer: https://srameo.github.io/projects/le3d/
🧑💻Github: https://github.com/Srameo/LE3D
#ComputerVision #3DReconstruction #GaussianSplatting
❤3🔥1
🗣 Токенизация речи 16kHz при очень низком битрейте.
▪ Код инференса: https://github.com/Stability-AI/stable-codec
▪ Код модели: https://github.com/Stability-AI/stable-audio-tools
▪ Веса модели: https://huggingface.co/stabilityai/stable-codec-speech-16k
▪ arXiv: https://arxiv.org/abs/2411.19842
▪ Демо: https://stability-ai.github.io/stable-codec-demo/ https://pic.x.com/YCxHw07LE4
@machinelearning_ru
▪ Код инференса: https://github.com/Stability-AI/stable-codec
▪ Код модели: https://github.com/Stability-AI/stable-audio-tools
▪ Веса модели: https://huggingface.co/stabilityai/stable-codec-speech-16k
▪ arXiv: https://arxiv.org/abs/2411.19842
▪ Демо: https://stability-ai.github.io/stable-codec-demo/ https://pic.x.com/YCxHw07LE4
@machinelearning_ru
❤1👎1🤔1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🥰2
Forwarded from Machinelearning
💰 Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget
Вышел официальный код и чекпоинты для MicroDiffusion от Sony.
Советую прочитать статью, в ней авторы подробно рассказывают о том, как они обучили модель уровня SD1 (MicroDiT) за $1890, используя диффузионный трансформер с MoE и наборы реальных+синтетических данных на 37M.
Теперь любой желающий может обучить модель Stable Diffusion v1/v2-уровня с нуля всего за 2,5 дня, используя 8 графических процессоров H100 (стоимостью < $2000)
Здесь можно посмотреть конфигурацию обучения для каждого этапа.
▪Paper: https://arxiv.org/abs/2407.15811v1
▪Github: https://github.com/SonyResearch/micro_diffusion
▪HF: https://huggingface.co/VSehwag24/MicroDiT
▪Dataset: https://github.com/SonyResearch/micro_diffusion/blob/main/micro_diffusion/datasets/README.md
@ai_machinelearning_big_data
#stablediffusion #guide #sd #ml #sony
Вышел официальный код и чекпоинты для MicroDiffusion от Sony.
Советую прочитать статью, в ней авторы подробно рассказывают о том, как они обучили модель уровня SD1 (MicroDiT) за $1890, используя диффузионный трансформер с MoE и наборы реальных+синтетических данных на 37M.
Теперь любой желающий может обучить модель Stable Diffusion v1/v2-уровня с нуля всего за 2,5 дня, используя 8 графических процессоров H100 (стоимостью < $2000)
Здесь можно посмотреть конфигурацию обучения для каждого этапа.
▪Paper: https://arxiv.org/abs/2407.15811v1
▪Github: https://github.com/SonyResearch/micro_diffusion
▪HF: https://huggingface.co/VSehwag24/MicroDiT
▪Dataset: https://github.com/SonyResearch/micro_diffusion/blob/main/micro_diffusion/datasets/README.md
@ai_machinelearning_big_data
#stablediffusion #guide #sd #ml #sony
👍3❤2
🚀 LlamaV-o1: Мультимодальная модель рассуждений с открытым исходным кодом! 🌟 ✅
✅ Рассуждение с обучением и масштабированием во время тестирования
✅ 3,8% прироста по 6 бенчмаркам, 5× более быстрое масштабирование выводов, чем у Llava-CoT
✅ Новый VRC-Bench для мультимодальных рассуждений
🔗 https://mbzuai-oryx.github.io/LlamaV-o1/
@machinelearning_ru
✅ Рассуждение с обучением и масштабированием во время тестирования
✅ 3,8% прироста по 6 бенчмаркам, 5× более быстрое масштабирование выводов, чем у Llava-CoT
✅ Новый VRC-Bench для мультимодальных рассуждений
🔗 https://mbzuai-oryx.github.io/LlamaV-o1/
@machinelearning_ru
🔥7❤3👍2