🤖 MiniMax-M2: новая MoE-модель серии MiniMax
MiniMax-M2 переосмысливает эффективность: это 230 млрд параметров (из них активно только 10 млрд) - мощная, быстрая и экономичная модель, которая сочетает интеллект уровня топовых LLM с оптимизацией под агентные применения и программирование.
🔹 Основные особенности
🧠 Интеллект мирового уровня.
По данным *Artificial Analysis*, MiniMax-M2 демонстрирует отличные результаты в математике, науке, программировании, следовании инструкциям и использовании инструментов.
Модель занимает #1 место среди всех open-source моделей по суммарному индексу интеллекта.
💻 Кодинг
Разработана для полного цикла разработкт - от файловых правок до тестировании кода и его автокоррекции.
Модель показывает отличные результаты на Terminal-Bench и (Multi-)SWE-Bench, что делает её эффективной в IDE, терминалах и CI-системах.
🧩 Агентные возможности.
MiniMax-M2 умеет планировать и выполнять сложные цепочки действий через shell, браузер, retrieval и code runners.
В тестах BrowseComp уверенно находит труднодоступные источники и восстанавливается после сбоев, не теряя цепочку рассуждений.
MiniMax M2 построена по принципу GPT-OSS и использует сочетание Full Attention и Sliding Window Attention (SWA). Это помогает эффективно работать с длинным контекстом - часть модели анализирует всё сразу, другая концентрируется на ближайших фрагментах текста.
Каждая attention-голова имеет собственный RMSNorm, а блоки Full Attention и SWA используют разные RoPE-параметры, это повышает гибкость и устойчивость модели.
MiniMax-M2 - это новый стандарт эффективности для AGI-агентов и кодинга: умнее, быстрее и дешевле, чем аналоги.
https://huggingface.co/MiniMaxAI/MiniMax-M2
@ai_machinelearning_big_data
#AI #MiniMax #LLM #ArtificialIntelligence #Benchmarks
MiniMax-M2 переосмысливает эффективность: это 230 млрд параметров (из них активно только 10 млрд) - мощная, быстрая и экономичная модель, которая сочетает интеллект уровня топовых LLM с оптимизацией под агентные применения и программирование.
🔹 Основные особенности
🧠 Интеллект мирового уровня.
По данным *Artificial Analysis*, MiniMax-M2 демонстрирует отличные результаты в математике, науке, программировании, следовании инструкциям и использовании инструментов.
Модель занимает #1 место среди всех open-source моделей по суммарному индексу интеллекта.
💻 Кодинг
Разработана для полного цикла разработкт - от файловых правок до тестировании кода и его автокоррекции.
Модель показывает отличные результаты на Terminal-Bench и (Multi-)SWE-Bench, что делает её эффективной в IDE, терминалах и CI-системах.
🧩 Агентные возможности.
MiniMax-M2 умеет планировать и выполнять сложные цепочки действий через shell, браузер, retrieval и code runners.
В тестах BrowseComp уверенно находит труднодоступные источники и восстанавливается после сбоев, не теряя цепочку рассуждений.
MiniMax M2 построена по принципу GPT-OSS и использует сочетание Full Attention и Sliding Window Attention (SWA). Это помогает эффективно работать с длинным контекстом - часть модели анализирует всё сразу, другая концентрируется на ближайших фрагментах текста.
Каждая attention-голова имеет собственный RMSNorm, а блоки Full Attention и SWA используют разные RoPE-параметры, это повышает гибкость и устойчивость модели.
MiniMax-M2 - это новый стандарт эффективности для AGI-агентов и кодинга: умнее, быстрее и дешевле, чем аналоги.
https://huggingface.co/MiniMaxAI/MiniMax-M2
@ai_machinelearning_big_data
#AI #MiniMax #LLM #ArtificialIntelligence #Benchmarks
🔥49❤23👍10🤗5
В России растет тренд на использование нейросетей в облачной инфраструктуре
Компании перестали опасаться ИИ в облаках и всё чаще используют их в своих корпоративных процессах. Облачные платформы предлагают готовые инструменты для адаптации моделей под задачи компании, для создания ИИ-ассистентов и агентских систем, они также предлагают более выгодную и прогнозируемую экономику внедрения.
При этом опенсорс-модель от AliBaba уже на втором месте по потреблению после YandexGPT.
@ai_machinelearning_big_data
#AI #ML #GenerativeAI
Компании перестали опасаться ИИ в облаках и всё чаще используют их в своих корпоративных процессах. Облачные платформы предлагают готовые инструменты для адаптации моделей под задачи компании, для создания ИИ-ассистентов и агентских систем, они также предлагают более выгодную и прогнозируемую экономику внедрения.
Пример: в Yandex AI Studio с начала 2025 года спрос на генеративные модели вырос в 5 раз, каждый месяц на платформе потребляют десятки миллиардов токенов. На ней активно используются как собственные модели YandexGPT, так и опенсорсные решения вроде Qwen3-235b, применяемые для агентских сценариев и генерации кода.
При этом опенсорс-модель от AliBaba уже на втором месте по потреблению после YandexGPT.
@ai_machinelearning_big_data
#AI #ML #GenerativeAI
👍34🤣15❤10🔥2🥰2🤬2🌭2😁1🌚1🤝1🦄1
Простой, гибкий и мощный фреймворк от LMMs-Lab для обучения моделей, которые понимают текст, изображения, аудио и видео, всё в одном месте.
Что внутри:
• Поддержка 19+ архитектур, включая:
• Qwen3-VL - обработка изображений в native-разрешении, контекст до 10 000+ токенов
• Qwen2.5-Omni - единая модель для текста, изображений и аудио
• WanVideo - генерация видео из текста/изображений (T2V, I2V, V2V)
• dLLM - диффузионные языковые модели
• LLaVA-OneVision, Bagel, SiT, RAE-SigLip и другие
📜 Лицензия: Apache 2.0 (можно использовать даже в коммерческих проектах)
🔗 GitHub: https://github.com/EvolvingLMMs-Lab/lmms-engine
@ai_machinelearning_big_data
#llm #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48❤24🔥6🥰1🤗1
🖥 Технологическая платформа Авито открыла доступ к своим нейросетям — A-Vibe и A-Vision
Они дообучены на миллионах данных e-commerce, и предназначены для решения задач рынка. ИИ от Авито называют первыми российскими моделями с глубокой оптимизацией под электронную коммерцию и русский язык. A-Vibe занимает лидирующие позиции в различных популярных рейтингах не только по пониманию русского, но и по работе с кодом, решению сложных задач. Компания вложила в разработку моделей более полумиллиарда рублей.
Вместе с этими инструментами команда Авито выпустила переведенные на русский версии известных тестов для замера качества моделей. Ранее они были доступны только на английском.
Эксперты отмечают, что у отечественных компаний до сих пор не было открытых моделей, обученных специально на русском языке и под локальные сценарии электронной коммерции. Авито, по их мнению, — один из немногих игроков, который располагает достаточными объемами данных и вычислительными ресурсами, чтобы предложить рынку уже обученные и протестированные решения. Это снизит порог входа для стартапов и корпоративных разработчиков, которые смогут создавать продукты на базе готовых моделей, а не тратить ресурсы на адаптацию западных или азиатских систем.
Моделями можно воспользоваться бесплатно в любых целях — все данные и документация находятся на Hugging Face.
@ai_machinelearning_big_data
#news #ai #ml
Они дообучены на миллионах данных e-commerce, и предназначены для решения задач рынка. ИИ от Авито называют первыми российскими моделями с глубокой оптимизацией под электронную коммерцию и русский язык. A-Vibe занимает лидирующие позиции в различных популярных рейтингах не только по пониманию русского, но и по работе с кодом, решению сложных задач. Компания вложила в разработку моделей более полумиллиарда рублей.
Вместе с этими инструментами команда Авито выпустила переведенные на русский версии известных тестов для замера качества моделей. Ранее они были доступны только на английском.
Эксперты отмечают, что у отечественных компаний до сих пор не было открытых моделей, обученных специально на русском языке и под локальные сценарии электронной коммерции. Авито, по их мнению, — один из немногих игроков, который располагает достаточными объемами данных и вычислительными ресурсами, чтобы предложить рынку уже обученные и протестированные решения. Это снизит порог входа для стартапов и корпоративных разработчиков, которые смогут создавать продукты на базе готовых моделей, а не тратить ресурсы на адаптацию западных или азиатских систем.
Моделями можно воспользоваться бесплатно в любых целях — все данные и документация находятся на Hugging Face.
@ai_machinelearning_big_data
#news #ai #ml
👍38❤11😁6🥰2👾2🔥1
⚡️ Glyph: масштабирование контекста через визуально-текстовую компрессию
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
👍69🔥19❤15😨6
Исследователи из Thinking Machines Lab предложили метод, который может изменить то, как обучаются языковые модели. Он называется on-policy distillation - и учит ИИ не просто копировать, а думать и анализировать свои ошибки.
Обычно «дистилляция» работает просто: большая модель-учитель показывает ответы, а маленькая модель-ученик запоминает их. Это похоже на заучивание по шпаргалке - быстро, но без понимания сути.
В новом подходе всё иначе. Ученик сам решает задачи, а учитель оценивает и направляет - объясняет, где логика сбоит и как улучшить рассуждение. Таким образом, меньшая модель перенимает не только знания, но и способ мышления более крупной модели.
Что показали результаты
Эксперименты проводились на задачах математического и логического рассуждения, где важно не просто выдать правильный ответ, а выстроить цепочку шагов.
Результаты впечатляют:
Модель-ученик после обучения с on-policy distillation показала почти ту же точность, что и гораздо более крупная модель-учитель.
При этом вычислительные затраты снизились в несколько раз, делая модель заметно эффективнее и дешевле.
Кроме того, ученик стал лучше понимать собственные ошибки, что повысило устойчивость и надёжность при решении новых, незнакомых задач.
Почему это важно
On-policy distillation решает ключевую проблему традиционных методов - отсутствие адаптивности.
Модель теперь учится на собственных шагах, как человек, — экспериментирует, ошибается, корректирует поведение и растёт.
Уникальность подхода - в балансе между качеством RL и экономичностью KD. Это реальная схема, где маленькая модель учится “в поле” (реагируя на собственные действия), но без дорогих RL-запусков и сложных reward-моделей.
Это не новый метод обучения, а новая инженерная формула, которая позволяет дешевле «учить» компактные модели, ведущие себя как большие.
Это открывает путь к созданию компактных LLM нового поколения, которые рассуждают почти как топовые модели, но стоят в разы дешевле.
Такие модели можно запускать на edge-устройствах, в автономных агентах и локальных сервисах, где важны скорость, приватность и энергоэффективность.
@ai_machinelearning_big_data
#ThinkingMachines #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62❤27👍16👏2😁1
