Машинное обучение RU 2349

🔥

Вышла новая модель MiniMax-01 456B с открытым исходным кодом с контекстом 4M !

🚀 Функции MiniMax-Text-01 и MiniMax-VL-01 основаны на ультрасовременной архитектуре "Lightning Attention".

→ В MiniMax-Text-01 реализован гибридный подход, при котором в 7 из каждых 8 слоев используется Lightning Attention, а в одном - SoftMax для улучшения баланса модель.

Такая архитектура позволяет эффективно обрабатывать сверхдлинные последовательности.

→ Версия с открытым исходным кодом включает в себя полный набор весов и API. По цене примерно 0,2 доллара за миллион входных токенов и 1,1 доллара за миллион выходных токенов — вполне конкурентоспособные цены.

На тестах модель превосходит платный Deep Seek v3 ! 💥

→ В задачах с длинным контекстом MiniMax-Text-01 достиг 100% точности в тесте поиска "Needle-in-a-Haystack" с использованием 4 миллионов токенов, превосходя топовые модели в реальных задачах с использованием искусственного интеллекта.

🖥

Github: https://github.com/MiniMax-AI/MiniMax-01
📑Paper：https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
📖Read more: https://minimaxi.com/en/news/minimax-01-series-2

@ai_machinelearning_big_data

#llm #MiniMax #ai #agents #ml #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥2

1.63K views05:44

Машинное обучение RU

🔥

Cline — автономный помощник по программированию, интегрированный непосредственно в вашу среду разработки (IDE)!

💡 Cline способен создавать и редактировать файлы, выполнять команды в терминале, использовать браузер и многое другое, получая ваше разрешение на каждом этапе.

🌟 Интегрируясь с моделями OpenAI, Google и Anthropic, Cline может пошагово выполнять сложные задачи разработки ПО. Он анализирует структуру файлов и абстрактные синтаксические деревья (AST) вашего проекта, выполняет регулярные выражения и читает соответствующие файлы, чтобы эффективно интегрироваться в существующие проекты.

🔐 Лицензия: Apache-2.0

🖥

Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥1🥰1

2.17K views10:02

Машинное обучение RU

🥁🎷JASCO 🎶🪇 training & inference code + model weights are out!

JASCO состоит из модели для токенизации звука и модели согласования потоков, основанной на архитектуре transformer для музыкального моделирования.

Модель представлена в 2х размерах: 400 м и 1B; и в настоящее время имеет два варианта управления: text-to-music + {аккорды, ударные} и text-to-music + {аккорды, ударные, мелодия}.

▪Сатья📜: https://arxiv.org/abs/2406.10970
▪Примеры🔊: https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/
▪Код🐍: https://github.com/facebookresearch/audiocraft/blob/main/docs/JASCO.md
▪Модели🤗: https://huggingface.co/facebook/jasco-chords-drums-melody-1B

@machinelearning_ru

❤3👍2🔥2

2.07K views14:22

Машинное обучение RU

🔥

Agentarium — это мощный фреймворк на Python для создания и управления симуляциями с ИИ-агентами!

🌟 Он предоставляет интуитивную платформу для разработки сложных и интерактивных сред, где агенты могут действовать, обучаться и развиваться.

🌟 Фреймворк поддерживает управление агентами, взаимодействие между ними, создание синтетических данных через их действия и сохранение состояния с помощью контрольных точек. Agentarium оптимизирован для производительности и масштабируемости, а также предлагает гибкую конфигурацию окружения через YAML.

🔐 Лицензия: Apache-2.0

🖥

Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2❤1🥰1

2.33K views14:20

Машинное обучение RU

Forwarded from Machinelearning

🥥 Training Large Language Models to Reason in a Continuous Latent Space

Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).

Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.

Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем

При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.

В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами <bot> и <eot>.

Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.

На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.

Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.

Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.

Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов

git clone [email protected]:facebookresearch/coconut.git
cd coconut

▪Github
▪Paper

@ai_machinelearning_big_data

#deeplearning #nlp #reasoning #llm #ml

❤7

2.25K views08:06

Машинное обучение RU

🔥

Это видео объясняет проблемы понимания больших языковых моделей и инновационный подход разреженных автоэнкодеров к извлечению понятных человеку признаков, проливая свет на скрытые сложности моделей ИИ!

🕞 Продолжительность: 24:08

🔗 Ссылка: *клик*

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2

2.41K views09:04

Машинное обучение RU

how it feels watching a training run as loss falls

❤12👍2👎2🔥2

2.5K views12:18

Машинное обучение RU

🤖

Отличная, иллюстрированная статья, чтобы разобраться в устройстве трансформеров.

https://jalammar.github.io/illustrated-transformer/

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥1🥰1😁1

3.37K views05:00

Машинное обучение RU

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: www.tg-me.com/ai_machinelearning_big_data
C++ www.tg-me.com/cpluspluc
Python: www.tg-me.com/pythonl
Linux: www.tg-me.com/linuxacademiya
Хакинг: www.tg-me.com/linuxkalii
Devops: www.tg-me.com/DevOPSitsec
Data Science: www.tg-me.com/data_analysis_ml
Javascript: www.tg-me.com/javascriptv
C#: www.tg-me.com/csharp_ci
Java: www.tg-me.com/javatg
Базы данных: www.tg-me.com/sqlhub
Python собеседования: www.tg-me.com/python_job_interview
Мобильная разработка: www.tg-me.com/mobdevelop
Docker: www.tg-me.com/DevopsDocker
Golang: www.tg-me.com/Golang_google
React: www.tg-me.com/react_tg
Rust: www.tg-me.com/rust_code
ИИ: www.tg-me.com/vistehno
PHP: www.tg-me.com/phpshka
Android: www.tg-me.com/android_its
Frontend: www.tg-me.com/front
Big Data: www.tg-me.com/bigdatai
Собеседования МЛ: www.tg-me.com/machinelearning_interview
МАТЕМАТИКА: www.tg-me.com/data_math
Kubernets: www.tg-me.com/kubernetc
Разработка игр: https://www.tg-me.com/gamedev
Haskell: www.tg-me.com/haskell_tg
Физика: www.tg-me.com/fizmat

💼 Папка с вакансиями: www.tg-me.com/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: www.tg-me.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tg-me.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tg-me.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tg-me.com/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: www.tg-me.com/memes_prog
🇬🇧Английский: www.tg-me.com/english_forprogrammers
🧠ИИ: www.tg-me.com/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://www.tg-me.com/addlist/BkskQciUW_FhNjEy

👍2

3.22K views11:04

2025/07/12 23:27:50
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>