Neural Shit

Животные и их укусы по версии ChatGPT

8.6K views10:57

База про архитектурные особенности современных LLM

📝 Кто такие эти ваши LLM?
По сути, LLM — это всего лишь крупный (с большим количеством параметров) transformer decoder, который был дообучен на инструкционном датасете.

✨Ребята из финтеха Точка хорошо разобрали архитектурные особенности современных LLM в своём канале. Если кратко, вот конспект:
• Rotary Positional Encoding (RoPE) — помогает работать с длинным контекстом без потери качества.
• RMSNorm вместо LayerNorm — быстрее и проще в вычислении.
• Sliding Window, Grouped-Query или Multi-Query Attention — ускоряют работу за счёт меньшего количества параметров.
• Модель может использовать Mixture-of-Experts — увеличивая параметры без роста сложности вычислений.

Если подробнее, читайте их пост ниже или по ссылке:
Читать весь пост

А чтобы полностью разобраться в архитектуре LLM и тонкостях её обучения, подписывайтесь на канал .ml. Часть особенностей уже разобрали в постах, а часть — ещё на подходе.

Реклама «АО Точка», tochka.com, 18+, erid=2VtzquX2Y9U

.ml

Архитектура LLM

Что вообще такое эти ваши LLM и чем они отличаются от привычных трансформеров? Давайте разбираться.

Если пытаться дать определение, то LLM — это большая языковая модель, которая была обучена генерировать ответ на какую-либо инструкцию.
Тут…

5.5K views14:20

Neural Shit

Forwarded from .ml

Архитектура LLM

Что вообще такое эти ваши LLM и чем они отличаются от привычных трансформеров? Давайте разбираться.

Если пытаться дать определение, то LLM — это большая языковая модель, которая была обучена генерировать ответ на какую-либо инструкцию.
Тут два ключевых момента, не считая размер модели: то, что модель генеративная, и то, что она умеет принимать на вход какие-либо инструкции.

📝 Разбираемся с генеративностью

Какая часть трансформера умеет в генерацию текста? Правильно, декодер. Собственно, LLM — это просто жирный (с большим количеством параметров) transformer decoder. Или encoder-decoder, но это только у старых моделей, типа T5. Новые GPT-like архитектуры от энкодеров отошли.

Способность же принимать на вход инструкцию обусловлена пайплайном обучения модели, включая специфичные инструкционные данные, а не какими-либо архитектурными модификациями.

Особенность этого пайлайна — после этапа pre-train модели проводят этап alignment, дообучая модель на инструкционных датасетах. В таких датасете каждый сэмпл — это диалог человека с LLM, который может включать в себя системный промпт (как раз-таки инструкцию), сообщения от лица человека и сообщения от лица LLM, зачастую промаркированные на предмет «хорошести» ответа. Сейчас самые популярные инструкционные датасеты — это Nectar и UltraFeedback.

Итого, LLM — это просто здоровенный transformer decoder, дообученный на инструкционном датасете.
Если углубляться в детали, то популярными архитектурными особенностями современных LLM являются:

- Rotary Positional Encoding (RoPE) и его модификации в качестве позиционного кодирования — вот наш пост про это.

Почему? Помогает работать с более длинным контекстом без значимой потери качества.

- RMSNorm вместо LayerNorm для нормализации.

Почему? Работает сопоставимо по качеству, но проще (быстрее) вычислять — а скорость нам важна.

- Sliding Window, Grouped-Query или Multi-Query вместо ванильного Multi-Head Attention:

Почему? Чем меньше параметров, тем быстрее вычислять.

- Может использоваться Mixture-of-Experts, но это скорее частные случаи.

Почему? Увеличиваем количество параметров модели, не увеличивая при этом сложность вычислений (хоть и страдаем по памяти).

P.S.: если вы увидели много незнакомых слов — не переживайте, в следующих постах расскажем про то, как именно работают все эти навороты.

Эти же архитектурный особенности характерны и для негенеративных современных моделек: например, для энкодеров. Так что нельзя сказать, что это что-то LLM-специфичное — скорее архитектурная база любых современных трансформеров.

5.3K views14:20

2025/06/30 22:22:33
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>