Forwarded from Machinelearning
POINTS1.5 - усовершенствованная версия VLM POINTS1.0, построенная по принципу LLaVA (визуальный энкодер+LLM) на базе Qwen2.5-7B-Instruct.
В отличие от предыдущей версии, где использовался энкодер изображений CLIP, POINTS1.5 использует энкодер NaViT, который позволяет модели обрабатывать изображения различного разрешения без необходимости их разделения.
Для повышения качества модели были применены методы фильтрации данных для обучения. Данные, не требующие анализа изображения для ответа на вопрос и содержащие грамматические ошибки, были удалены.
Обучение POINTS1.5 выполнялось в два этапа: предварительное обучение и настройка на выполнение визуальных инструкций. На этапе предварительного обучения проектор и LLM обучались совместно.
На этапе настройки на выполнение визуальных инструкций использовались специализированные наборы данных, которые обучают модель понимать инструкции, связанные с изображениями.
POINTS1.5 была протестирована на бенчмарках MMBench, MMMU, MathVista, HallucinationBench, OCRBench, MMVet, ChartQA, MME, LLaVA-wild, SEEDBench, ScienceQA, MATH-Vision и MathVerse и показала высокие результаты, особенно в задачах, требующих математических навыков.
Модели семейства POINTS могут быть запущены в режиме model soup (совместный запуск нескольких моделей, настроенных с разными наборами инструкций для получения итоговой "усредненной" модели) и CATTY (стратегия разбиения изображения большого разрешения на небольшие фрагменты одинакового размера).
# Clone repo
git clone https://github.com/WePOINTS/WePOINTS.git
# Install required packages
cd WePOINTS
pip install -e .
# Inference example
from transformers import AutoModelForCausalLM, AutoTokenizer
from wepoints.utils.images import Qwen2ImageProcessorForPOINTSV15
import torch
from PIL import Image
import requests
from io import BytesIO
model_path = 'WePOINTS/POINTS-1-5-Qwen-2-5-7B-Chat'
model = AutoModelForCausalLM.from_pretrained(model_path,
trust_remote_code=True,
torch_dtype=torch.float16,
device_map='cuda')
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
image_processor = Qwen2ImageProcessorForPOINTSV15.from_pretrained(model_path)
image_url = '%link to image%'
response = requests.get(image_url)
image_data = BytesIO(response.content)
pil_image = Image.open(image_data)
pil_image = pil_image.save('image.jpg')
prompt = 'please describe the image in detail'
content = [
dict(type='image', image='image.jpg'),
dict(type='text', text=prompt)
]
messages = [
{
'role': 'user',
'content': content
}
]
generation_config = {
'max_new_tokens': 1024,
'temperature': 0.0,
'top_p': 0.0,
'num_beams': 1,
}
response = model.chat(
messages,
tokenizer,
image_processor,
generation_config
)
print(response)
📌Лицензирование: Apache 2.0 License.
▪Модель
▪Arxiv
▪GitHub
▪Руководство по Prompt Engineering
@ai_machinelearning_big_data
#AI #ML #VLM #WePOINTS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
Media is too big
VIEW IN TELEGRAM
👍4❤2👎2🔥2
Media is too big
VIEW IN TELEGRAM
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥3
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2
🔥 Новая эра разработки ИИ от NVIDIA
NVIDIA удивила новым решением для обучения ИИ-моделей прямо дома! Представлен компактный одноплатный компьютер Jetson Orin Nano Super. Инженеры компании смогли не просто увеличить производительность устройства на 70%, но и уменьшить его стоимость вдвое по сравнению с предыдущей моделью.
Основу новинки составляет шестиядерный процессор Arm Cortex-A78AE, работающий на частоте 1,7 ГГц. Вместе с графическим процессором, который функционирует на частоте 1020 МГц и оснащен 1024 ядрами CUDA и 32 тензорными ядрами, система обеспечивает производительность до 67 TOPS.
Устройство отличается высокой совместимостью благодаря четырем портам USB 3.2 Type-A, двум интерфейсам MIPI CSI для подключения камер и разъемам M.2 для SSD-накопителей. Питание компьютера возможно как через USB Type-C, так и через специальный разъем, при этом максимальная мощность потребления составляет всего 25 Вт.
На практике Jetson Orin Nano Super значительно ускоряет выполнение различных задач: обучение языковых моделей становится быстрее на 37–63%, машинное зрение улучшается на 36–104%, а скорость распознавания изображений возрастает на 43–69%.
Продажи начнутся до конца декабря, цена составит 250 долларов (около 26 000 рублей). Так что самое время задуматься о создании своего домашнего робота!
https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-orin/nano-super-developer-kit/
@machinelearning_ru
NVIDIA удивила новым решением для обучения ИИ-моделей прямо дома! Представлен компактный одноплатный компьютер Jetson Orin Nano Super. Инженеры компании смогли не просто увеличить производительность устройства на 70%, но и уменьшить его стоимость вдвое по сравнению с предыдущей моделью.
Основу новинки составляет шестиядерный процессор Arm Cortex-A78AE, работающий на частоте 1,7 ГГц. Вместе с графическим процессором, который функционирует на частоте 1020 МГц и оснащен 1024 ядрами CUDA и 32 тензорными ядрами, система обеспечивает производительность до 67 TOPS.
Устройство отличается высокой совместимостью благодаря четырем портам USB 3.2 Type-A, двум интерфейсам MIPI CSI для подключения камер и разъемам M.2 для SSD-накопителей. Питание компьютера возможно как через USB Type-C, так и через специальный разъем, при этом максимальная мощность потребления составляет всего 25 Вт.
На практике Jetson Orin Nano Super значительно ускоряет выполнение различных задач: обучение языковых моделей становится быстрее на 37–63%, машинное зрение улучшается на 36–104%, а скорость распознавания изображений возрастает на 43–69%.
Продажи начнутся до конца декабря, цена составит 250 долларов (около 26 000 рублей). Так что самое время задуматься о создании своего домашнего робота!
https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-orin/nano-super-developer-kit/
@machinelearning_ru
🔥8👍4❤2👏1
Forwarded from Machinelearning
Bamba-9B - модель, разработанная IBM, Princeton, CMU и UIUC на основе полностью открытых данных. Модель демонстрирует улучшение пропускной способности в 2.5 раза и снижение задержки инференса в 2 раза по сравнению с Transformers в vLLM. Bamba-9B доступна для использования в HF Transformers, vLLM, TRL и llama.cpp.
Bamba-9B использует уникальный распределенный, не сохраняющий состояние data loader, обеспечивающий бесшовное возобновление работы, автоматическое масштабирование, потоковую передачу данных с zero-overhead for shuffling.
Модель основана на архитектуре NVIDIA hybrid Mamba2, но с некоторыми изменениями. Bamba-9B имеет 32 слоя, из которых 3 полноценных слоя внимания и 29 слоев Mamba2, в то время как NVIDIA hybrid Mamba2 имеет 29 слоев, из которых 4 слоя внимания и 25 слоев Mamba2.
Bamba-9B была обучена на 2.2T токенов с датасетом Dolma v1.7 на первом этапе и FineWeb-edu и Cosmopedia на втором.
По проведенным замерам, средняя производительность Bamba-9B почти сравнима с Llama 3.1 8B (45.53 против 44.68), при том что Llama 3.1 8B была обучена на 7x большем объеме данных.
Bamba-9B превзошла Olmo 7B, обученную на идентичном количестве токенов и наборах данных. В сравнении с другими моделями на базе Mamba/Mamba2, Bamba-9B показывает хорошие результаты, при этом обеспечивая значительное улучшение (до 5x) эффективности логического вывода.
llm-compressor
версия Bamba 9Bllm-compressor
версия Bamba 9B 2Тllm-compressor
версия Bamba 9B 1.8Тfrom transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("ibm-fms/Bamba-9B")
tokenizer = AutoTokenizer.from_pretrained("ibm-fms/Bamba-9B")
message = ["Mamba is a snake with following properties "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
@ai_machinelearning_big_data
#AI #ML #LLM #Bamba #IBM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2👍1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1
Media is too big
VIEW IN TELEGRAM
⚡️ Математика машинного обучения.Базовые понятия тензорного исчисления. Урок 3
📌 Видео
📌 Урок 1 / Урок2
📌 Colab
📌 Видео
📌 Урок 1 / Урок2
📌 Colab
🔥6👍2🥰1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥2
Блогер Zara Dar, известная своими объяснениями математики и машинного обучения, решила отказаться от защиты докторской диссертации ради работы на платформе OnlyFans. Ранее она занималась этим проектом как хобби, однако со временем доходы от OnlyFans стали настолько значительными, что позволили ей приобрести автомобиль, дом и продолжить обучение без необходимости брать студенческий кредит.
Основная причина этого решения заключается в том, что получение докторской степени могло бы привести к жизни с относительно невысоким доходом и обязанностью выполнять работу, которая не всегда приносит удовольствие.
@machinelearning_ru
Основная причина этого решения заключается в том, что получение докторской степени могло бы привести к жизни с относительно невысоким доходом и обязанностью выполнять работу, которая не всегда приносит удовольствие.
@machinelearning_ru
😢19😁14❤11👍3👎3🔥3🎉2
Media is too big
VIEW IN TELEGRAM
📹 Новый искусственный интеллект генерация сверхвысового разреешения - работает на 10 x быстрее
📌 Источник
@machinelearning_ru
📌 Источник
@machinelearning_ru
👍6🔥3❤2👎1