Telegram Web Link
🔥Gemma 3 - новый лидер (второе место) в опен-сорсе

Перфоманс:
- Топ2 среди опенсорса в human preference evaluations на LLM арене, то есть, генерит тексты, которые людям нравятся больше!
- Уделывает и Qwen-2.5-Max и o3-mini, приземлились где-то по середине между DeepSeek-V3 и DeepSeek-R1
- По перфомансу она сравнима (где-то лушче, где-то хуже) с Gemini 1.5 Flash, только зато теперь открытая!

Характеристики
- Контекст 128к токенов.
- 4 размера: 1B, 4B, 12B, 27B.
- Завезли мультимодальность в модели размерах 4-27B. Тут используют SigLIP (это сота CLIP на данный момент) в качестве картиночного энкодера.
- Мультиязычность на стероидах: Поддерживает 140 языков. Гораздо лучше GPT-4o на русском.
- Function Calling & Structured Output:
- 27B влезает в одну H100/A100 GPU в bf16 - и это очень удобно! Ее специально под это оптимизировали.
- На демо показали, что bf16 инференс съедает 20GB VRAM на A100.
- Уже завезли в Ollama и есть официальные квантованные версии.

Моя критика:
- Мультимодальность пока под вопросам. По некоторым бенчам Гемму-27B бьет даже Qwen-2.5-VL-7B, не говоря уже об InternVL-38B-MPO.
- Поговорил с человеком, который делал multimodal pre-training. Внятного ответа не получил. Был ответ в стиле "китайцы и мистраль накручивают бенчи".
- Ждем полноценного появления на VLM лидерборде. И нужно тестить на своих задачах.

В любом случае я рад появлению еще одной сильной модельки в опенсорсе, приближая нас к умному ассистенту у нас в кармане/под столом.

Tech Report
Бесплатное демо онлайн
Hugging Face
GitHub

@ai_newz
1🔥213👍5242❤‍🔥6😁5🤩5🦄3🙏2
Опубликовали техрепорт о претрейне рускоязычных LLM T-lite и T-pro.

Вышел подробный технический отчет о процессе создания русскоязычных моделей T-lite и T-pro от Т-банка. Часто бывает, что команды скупо описывают свои методики обучения, особенно в части обработки данных, но тут ребята детально раскрыла весь процесс от выбора базовой модели и подбора датасетов, до финальных экспериментов. Вместо обучения с нуля они использовали взяли за основу модель Qwen2.5 (я до сих пор считаю ее одной из лучших моделей, чтобы поверх тренить что-то свое) и продолжили претрейн на русском языке.

Претрейн происходил в две стадии — первая с бюджетом 100 миллиардов токенов и распределением 90% русского и 10% английского языка. Значительную часть датасета (25%) составил код, что согласуется с исследованиями о влиянии кодовых данных на способности рассуждения. Вторая стадия (40 миллиардов токенов) фокусировалась на высококачественных данных, включая инстракт датасеты. По заветам FineWeb-Edu, команда отфильтровала датасет по образовательной ценности (лишь 6% веб-контента получило высшие оценки). Обучались на 256 H100.

По результатам бенчей модели показали заметный прирост в русскоязычных задачах, особенно в направлениях ЕГЭ, RWSD и математических рассуждениях. О деталях посттрейна (SFT и alignment) обещают рассказать в следующем посте.

ТехРепорт на хабре

@ai_newz
👍102🔥5012😁9🙏1
LanDiff – гибридный видеогенератор из LLM и Диффузии

Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами. Пишут, что на VBench в отдельных номинациях бьёт и Kling, и Sora (правда, даже по черрипикам так не скажешь), но для своих 5B параметров и датасета в 200M видео-текст пар — очень хороший результат.

Сначала разработчики запилили семантический токенайзер для видео, то есть запихнули 3D представление видео токенов в дискретные 1D коды, чем сжали датасет в 14 000 раз, оптимизировав процесс тренировки. Теперь LLM переводит промпт юзера в семантические токены. Ну а последняя уже делает видос на их основе. То есть эти токены служат не просто промптом, а высокоуровневыми инструкциями для всего процесса генерации.

Таким образом, авторы надеются взять лучшее от двух подходов: смысловое (семантическое) понимание авторегрессионных LLM и качественную картинку диффузионок, которые таким пониманием не обладают.

Черрипики выше — судите сами. Помните, что это всего 5B параметров.


Project page
Пейпер

@ai_newz
56👍39🔥14😱6❤‍🔥3😁2😍1
RIP Photoshop (нет)

Потестил я мультимодальную Gemini Flash 2.0 (Image Generation) Experimental. Мог бы сказать, что фотошоп в целом больше не нужен, но, блин, эта штука в туории может куда больше, чем мог бы Photoshop. Я совсем не представляю, как можно было бы вручную наложить шоколадный крем на круассаны с первой пикчи. 

Никакой из доступных из коробки методов не способен был такое провернуть. Через ControlNet или inpainting так не сделаешь, потому что они изменяют детали — круассаны будут чуть другими или по-другому лежать. А здесь мы имеем хирургически точное редактирование картинки одним только текстом. Единственный минус пока - это низкая детализация и низкое разрешение генераций.

Другие юзкейсы: 

- Product photo — раньше нужно было бы тренить LoRA, чтобы получить пикчу №2. Нужно больше фотографий + примерно час работы. 
- Character sheet design — пикча №3. По одному концепту получаем разворот с трех сторон для моделлеров. Можно было бы погенерить что-то подобное, но здесь мы видим консистентность, которой раньше было сложно добиться моделями из коробки.
- Нейрофотосессии — пикча №4. Повторяем лицо по одной фотографии так, словно это LoRA для Flux
- Гайды — пикчи №5,6,7. Может на картинке выделять, куда тыкнуть, рисовать консистентные гайды, как здесь в примере с готовкой. 
И т.д.

Вот она, сила мультимодальных моделей. Все это благодаря тому, что тут генерация изображений и LLM объединены вместе. В отличие от, например Flux или Imagen 3, тут картиночные токены выплевываются напрямую из LLM, без вызова диффузии. За счет этого и достигается более нативное редактирование входных картинок. Но такой метод все же пока уступает диффузии в качестве генерации.

Кстати, в Grok такую LLM-генерацию (Aurora) завезли еще в декабре, и ее можно попробовать в Grok3, вот только редактирование там пока отключили.
Что-то подобное показывала OpenAI ещё в прошлом году, но так в прод и не завезли (эх Cэма-Сэма). Если Gemini Flash так хорош и дешевле, то что будет с 4o

Попробовать можно в ai studio.

@ai_newz
164🔥96👍54😍8😱4😁3💯3🤯1🤩1🙏1
Нейродайджест за неделю (#60)
🎉 Юбилейный выпуск!

LLM
- Анонсы OpenAI – докинули удобных фич для API, в том числе computer use.
- Прямое включение – привет с Gemma Developer Day, смотрю на Gemma 3 из первых рук.
- Gemma 3 – топ-2 моделька в опенсорсе сразу после DeepSeek R1, удобно влезает в одну H100/A100 GPU в bf16.
- T-lite и T-pro – челиксы запилили очень подробный техрепорт о тренировке LLM.

Генеративные модели
- LanDiff – еще один видеогенератор, но на этот раз вместе с LLM. Обещает хорошо понимать, что вообще происходит в кадре, за счет семантических токенов.
- Gemini Flash 2.0 – редактируем картинки текстом при помощи мультимодальной LLM.

> Читать дайджест #59

#дайджест
@ai_newz
3👍36238❤‍🔥6
2025/07/12 21:28:55
Back to Top
HTML Embed Code: