Telegram Web Link
Media is too big
VIEW IN TELEGRAM
ПРОЕКТ: МоЧА

Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием)

Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете.

Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают.

Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но потом возможно дотренируют Ещё интересно, что тренили в 4 стадии:
сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру и увеличивали количество людей в кадре, т.к. несколько персонажей генерить сложнее. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка.

Генерация, конечно же не онлайн.

Пейпер
Project page

@ai_newz
🔥77👍3615🫡6😁5🤩5🤯1
Разработчики из ШАДа и Yandex B2B Tech создали реально работающий инструмент для экологов-практиков. Их нейросеть анализирует снимки с дронов и превращает их в детальную карту мусорных скоплений на побережьях — причём делает это с точностью выше 80%.

Работает хорошо даже в полевых условиях Камчатки. Алгоритм не только отмечает местоположение мусора, но и классифицирует его по шести типам: от рыболовных сетей до пластика. Благодаря этому волонтёры смогли точно рассчитать, что им понадобится 20 человек, пара самосвалов и погрузчик, причём на организацию ушло в 4 раза меньше времени. В итоге убрали 5 тонн мусора.

Код полностью выложен в открытый доступ, и любая экологическая организация может использовать это решение бесплатно. Особенно круто, что технология масштабируется на другие заповедники и может быть дообучена на новые типы отходов. Дальше планируют внедрить её в других труднодоступных регионах Дальнего Востока и Арктики, где каждая экспедиция — очень трудна в организации, и предварительная разведка жизненно необходима.

@ai_newz
👍406148🔥122😁23😱7🦄6🫡5
Qwen 3 выйдет на следующей неделе

Об этом сообщают китайские СМИ. Команда Qwen точно хочет успеть релизнуть свою модель до Llama Con, который пройдёт 29 апреля. Судя по всему, семейство Qwen 3 целится сразу во все сегменты рынка и включает в себя сильно больше размеров — будут как и MoE модели, которые часто поражают своими размерами, так и мобильная моделька всего на 600m.

Над поддержкой везде работают заранее — код для моделей уже смержили в трансформеры пару дней назад. Хотя вот удивительно, что Qwen2.5 до сих пор не поддерживается в LMDeploy, в одном из самых быстрых inference движков.

Компания лишь недавно релизнула свою первую омни модель — Qwen 2.5 Omni 7B, так что Qwen 3 вряд-ли будет омнимодальным на релизе. А вот релизнуться сразу с VLM моделями им ничего не мешает. Про ризонеры пока что ничего не ясно, кроме того что они точно будут.

@ai_newz
1🔥126👍4315😱3
Для Gemma 3 вышли официальные квантизированные версии

Квантизация это сейчас стандарт, мало кто будет запускать модели локально в нативных bf16 — большая часть пользователей использует 4 битную квантизацию. И тут проявляется большая проблема — модели, по большей части, выпускают в bfloat16 и совершенно не расчитывают, что кто-то когда-то будет их запускать как-то по-другому, из-за чего заметно страдает качество моделей при локальном использовании. Дело в том, что дешёвая Post-training квантизация, которая не требует тренировки, сильно просаживает качество.

Google специально дотренировали Gemma 3 с quantization aware training, чтобы таких проблем не было. Обещают "схожее качество" с bf16 моделями, но результатов бенчей не дали (а хотелось бы). Такой же релиз делала и Meta с Llama 3.2, правда только для 1B и 3B, а Google выпустил сразу всю линейку. А остальным авторам открытых моделей тоже стоит начать делать подобные релизы.

Скачать

@ai_newz
🔥148👍5023❤‍🔥43😁2😱2
Midjourney v7 🥳

Долгожданная седьмая версия самого эстетичного генератора картинок вышла в релиз этим утром. С мультимодальной GPT-4o и Gemini тяжело бороться, но Midjourney явно нашли свою нишу среди эстетов.

Персонализация теперь включена по умолчанию. Чтобы сделать всё красиво, есть персонализация модели под конкретного пользовател. Ты рейтишь 200 пар картинок — и получаешь свою персонализированную модель, что-то вроде LoRA, но внутри самого Midjourney. Причём, если задаться целью, можно натюнить и на 10К картинок! За что, кстати, выдают бесплатные часы генерации, так что это ещё и выгодно — команда таким образом собирает бесплатную разметку для улучшения модели.

Более того, перед релизом 7-й версии провели аж 3 раунда публичного голосования за лучшие рандомные картинки, поэтому ожидайте от v7 ретро-эстетики и выгоревших под плёнку чёрных.

Редактировать по тексту она, конечно, не умеет. Да и генерить его тоже — для этого есть, выше упомянутые, Gemini и GPT-4o. В целом, если сравнивать картинки из 6-й и 7-й версии, то разница не слишком заметна, но последняя кажется глазу более реалистичной. Насчет следования промпту пока сказать тяжело, но говорят, что тоже обновился и улучшился + не нужно писать параграфы, как во флюксе.

Draft-режим мощно обновился — и это теперь режим, в котором будут сделаны 90% тестовых картинок, промпты из которых потом, по всей видимости, будут вставляться в standard-модель. Именно модель — ведь всё указывает на то, что draft — это дистилляция из старшей модели, потому что в этом режиме картинки генерятся в 10 раз быстрее, практически в реалтайме. Настолько быстро, что Midjourney добавили ГОЛОСОВОЙ РЕЖИМ! Причём он воспринимает голосовые инструкции, а внутренняя LLM интерпретирует их в промпт. Да, прямо как в ChatGPT.

К сожалению, ничего более не показали. Нет ощущения революшена, как от предыдущих версий. Остальные фичи, которых будет ещё очень много, выложат в течение следующих двух месяцев. Так что новая v7 ещё долго будет мелькать в инфополе. Обещают, что их новые style и object references — это разнос. Если им удастся передавать детали референсного объекта так же точно, как это делает LoRA для Flux’а или хотя бы GPT-4o, — это действительно революшен. Потому что только этого сейчас не хватает Midjourney — консистентности.

@ai_newz
84🔥41👍22🤩14😁3🫡2
Media is too big
VIEW IN TELEGRAM
Вот как работает режим Draft в MJ v7:

Он понимает не только английский, но и другие языки. Просто диктуешь, что изменить или добавить — проходит пара секунд, и у тебя уже новая картинка. Правда, он изменяет только промпт, а не редактирует саму картинку.

@ai_newz
57🔥31👍19🦄6😁3🤩3🫡2
Ушел гений.

Он хоть и не был в AI тусовке, но Паша – это просто легенда. Он был и остается одним из моих любимых иполнителей.

Дерзкий, харизматичный, по-своему остроумный — и плевать на корпоративную этику, моду и чужое мнение. Пошутил — кенты лежат со смеха, заговорил — слова разлетаются на цитаты (очень метко про него сказал Даня prnrp).

Безумно жаль, что больше не выйдет его новых треков. RIP.

@ai_newz
43🫡604153😁128😢65💔48🤯37🦄21👍14🙏11😱9
Cohere Command A - техрепорт

Вышел подробнейший техрепорто от Cohere, где они делятся рецептами по обучению современных LLM.

Модель Command A с 111B параметров разработана для специфических корпоративных задач, а не для конкуренции с frontier-моделями от Гугла и OpenAI. Модель вышла пару недель назад, а вот техрепорт только подоспел.

Вот ключевые моменты:
➡️ Цель Cohere: Создание умных, но эффективных моделей для корпоративных задач (RAG, многоязычность), которые можно развернуть локально (on-premise).
➡️ Архитектура: Стандартный плотный Transformer (SwiGLU, GQA), с 3:1 перемежающимися слоями локального и полного аттеншена (Gemma 3 использовала похожий трюк), но без позиционных эмбеддингов на full-attention и без bias.
➡️ Обучение: Используются muP, различные виды параллелизма, FP8-тренировка с последующим "отжигом" (annealing) в BF16 для восстановления производительности и постепенным увеличением контекста до 256K.
➡️ Слияние моделей (Merging):
Впервые кто-то из крупных игроков делится рецептами мерджинга. Они активно применяе слияник как на этапе SFT, так RL-тюна. Процесс: базовая instruct-модель -> 6 SFT-моделей по доменам (Код, RAG, Безопасность и т.д.) -> слияние -> 6 RL-моделей -> слияние -> финальный преференс тюн. Это упрощает разработку и позволило командам работать параллельно гад своими промежуточными моделями.
➡️ Данные: Основной упор на синтетические данные с оценкой людьми, с фокусом на RAG, использование инструментов (tool use), следование системным промптам и поддержку 23 языков.
➡️ Эффективность: Command A требует значительно меньше вычислительных ресурсов - модель можно засёрвить на 2x A100/H100 и бегает довольно шустро.

Статья хорошо написана и легко читается. Там много других интересных деталей, дополняющих техрепорт о Llama 3 своим акцентом на пост-тренировку. Маст рид для тех, кто занимается тренировкой современных LLM!

Тех Репорт

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥88👍3518❤‍🔥5🤯2😁1😱1🤩1🙏1🦄1
🔥Llama 4 — Scout, Maverick и Behemoth

Все модели мультимодальные — нативно воспринимают текст, изображения и видео. Тренировали на 30 триллионах токенов, причём токенов с других языков теперь в 10x больше по сравнению с Llama 3. Идёт в трёх размерах:

Scout (109B)— модель с 10 млн токенов контекста, что рекорд для релизнутой модели. По бенчам бьёт Gemma 3 и Gemini 2.0 Flash Lite, слегка не дотягивая до полноценной Flash 2.0. Это MoE модель с 16 экспертами, 109B параметров при 17B активных. С квантизацией влезает в одну GPU.

Maverick (400B)— лучше Gemini 2.0 Flash с GPT 4o, примерно на одном уровне с обновлённым DeepSeek V3, но при этом модель мультимодальная и заметно меньше в размерах. Контекст — 1 миллион токенов, меньше чем у Scout, но сильно лучше чем у других конкурентов. Активных параметров всё те же 17B, но экспертов уже 128, поэтому и 400B параметров, Модель можно запустить в fp8 на одной ноде с 8xH100.

Behemoth — гигантская модель на два триллиона параметров (288B активных, 16 экспертов). Бьёт вообщё все Instruct модели с заметным отрывом. Бегемота ещё тренируют, но его ранние версии уже были дистиллированы в Scout и Maverick, что сильно бустануло их перформанс.

Это всё ещё Instruct релиз, но Llama 4 Reasoning тоже скоро будет.

Веса

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥290👍5527🤯17❤‍🔥7😱32🦄2😁1💔1
Нейродайджест за неделю (#63)

LLM
- Ждём Qwen 3 — будут модельки всех размеров от мобильных до гигантских.
- Квантизация Gemma 3 — официальные модельки обещают быть оптимизированны с минимальными потерями в качестве благодаря quantization aware training.
- Yandex GPT 5 Lite Instruct — выложили в опенсорс. Хороший прирост производительности.
- Техрепорт Cohere Command A — подробнейших текст о ллм для корпоративных задач.
- Llama 4 — две младшие модельки опубликовали с неплохими результатами, старшая ещё тренируется.
- Цены на Gemini 2.5 Pro — от $1.25 за инпут и от $10 за аутпут.

Генеративные модели
- GPT 4o на Image Арене — ТОП-1 вместе с Reve. Очень хороший результат для LLM.
- Runway GEN-4 — лучший генератор видео за доступную цену. Хуже чем VEO 2, но значительно превосходит (примеры: здесь) всех остальных конкурентов.
- Проект МоЧа — липсинкаем не только губы но и всю верхнюю часть тела.
- MidJourney v7 — самая красивая, но пока в раннем доступе, ждём когда покажут все фичи.
- Голосовой режим MidJourney — draft mode настолько быстрый, что генерит на лету по голосу.

> Читать дайджест #62

#дайджест
@ai_newz
👍54🔥26113💯1
Nvidia выпустила своего большого ризонера

В основе — Llama 3.1 405B, которую запрунили до 253B параметров. В целом обгоняет DeepSeek R1 по качеству, причём практически на всех бенчах, в отличие от QwQ 32B, которая обгоняла лишь на отдельных.

Модель влезает в FP8 в 4xH100, но для BF16 уже понадобится 8xH100, либо 4xB100. Для простых смертных они уже пару недель как выпустили модельки поменьше — 8B и 49B, основанные на Llama 8B и 70B соответственно.

Веса

@ai_newz
👍99🔥3711🤯6🦄2😁1
Вышел DeepCoder 14B Preview

Новый ризонер специально для кода, лидирующий в 14B весовой категории и догоняющий o3-mini и o1, когда они обе на low настройках. Неприятный звоночек — модель не сравнивают с QwQ 32B, основным конкурентом этой модели, а с моделями OpenAI сравнивают только на low настройках. Причём непонятно почему — результаты достойные, даже o3-mini (low) обойти это непросто.

За основу взят DeepSeek R1 Distill 14B, поверх которого запустили RL на 24к задач для кодинга. Это сильно бампануло качество кодинга по сравнению с бейзлайном, при этом случайно улучшив результаты на математике.

Сделали эту модель в колабе с Together AI, это один из клауд провайдеров заточенных специально на ИИ. Я уже писал пару лет назад об их датасете RedPajama, воспроизводящем датасет оригинальной Llama.

А вот самая лучшая часть — авторы опубликовали не только веса, но и код с датасетом. Всё это можно прямо сейчас скачать с 🤗 и гитхаба.

И мы все ближе к маленьким и умелым моделькам, которые можно запускать локально (а 14B можно запускать и на обычном железе) и которые могут заменить проприетарные модели. На этот раз в кодинге. Не устану повторять, что опен сорс – это круто!

Веса

Код
Датасет

@ai_newz
❤‍🔥154🔥8438👍28🤩1
Почему опенсорс – это круто?

Наткнулся на такой тред в X – некоторые люди не понимают, зачем что-то опенсорсить (первый срин). Тут очень простой ответ, если ты большая корпорация - то ты как правило ничего не теряешь от релиза некоторых моделей на публику (при этом не нужно релизить абсолютно все наработки), но взамен приобретаешь следующее:

1️⃣ Можешь застолбить за собой целую область. Так делает, например, Llama, у которой недавно перевалило за 1 млрд скачиваний. Люди из комьюнити будут использовать твой стек технологий, дообучать и строить на базе твоих моделей. Часть полезных улучшений ты можешь перенять и бесплатно использовать для своего продукта. На каждый доллар, потраченный на опенсорс, тебе возвращается польза в кратном размере – это особенно валидно на макроуровне больших компаний и государств.
2️⃣ Это двигает прогресс в целом. В науке всё строится по кирпичикам на базе предыдущих работ. Пример с DeepSeek R1 это подтверждает. Они взяли открытые решения, собрали релевантные статьи, подумали и выкатили переимплементацию ризонинга, который до этого был только у закрытых моделей OpenAI. А дальше все будут строить на базе их модели и продолжать улучшать публичные модели. Еще примеры с LLM на русском: YandexGPT 5 Pro построили модель для русского языка на базе Qwen, а поверх мелкой модели YandexGPT 5 Lite (c llama-like архитектурой) комьюнити теперь строит свои тюны.
3️⃣ С релизами в опенсорс становится проще хайрить людей, ведь они уже знакомы с вашими технологиями.
4️⃣ Репутационный буст - все хотят работать там, где можно показать результаты своей работы наружу, и кроме того вам летят плюсы в карму за поддержку опен-сорс комьюнити.

Это то что с ходу приходит в голову - можно придумать и другие полезные вещи, вытекающие для компаний из опенсорс-релизов. Пишите в комменты свои мысли по этому поводу.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
229👍103🔥37😁14💯10❤‍🔥3🤯3
TPU v7 — Ironwood

Google показали новое поколение TPU, на одном уровне с Blackwell. В новом поколении 4.6 Dense петафлопса на чип — чуть больше чем в B200. Дают 192 гигабайта видеопамяти, с пропускной способностью чуть похуже чем у B200 — 7.4TB/s против 8. Энергоэффективность в два раза лучше чем у Trillium (v6e) и чуть лучше чем у Blackwell.

Новые TPU могут объединятся в поды из over 9000 чипов, только вместо Infiniband/Ethernet там кастомный нетворкинг. Он больше похож на тот, что Nvidia делает в NVL72, но, в отличии от решения Nvidia, которая обещает 576 чипов через NVLink только в 2027, он скейлится на тысячи чипов. Но есть и минусы — TPU v7 даёт всего 1.2TB/s на чип, когда NVLink 5 в GPU Blackwell даёт 1.8TB/s.

Главный вопрос — смогут ли они купить достаточно HBM для массовых деплойментов. Но даже если смогут, не смотря на очень хорошие характеристики, это не конкурент Nvidia. Дело в том, что Google не продаёт TPU другим компаниям, лишь сдаёт в аренду в клауде. Да и сами они не отказываются от массового деплоймента GPU — одних Blackwell компания закупила на 10 миллиардов долларов, правда в основном для Google Cloud.

@ai_newz
2🔥84😱16👍158🤩3❤‍🔥1😁1🫡1🦄1
2025/07/12 02:00:26
Back to Top
HTML Embed Code: