Midjourney v7 🥳
Долгожданная седьмая версия самого эстетичного генератора картинок вышла в релиз этим утром. С мультимодальной GPT-4o и Gemini тяжело бороться, но Midjourney явно нашли свою нишу среди эстетов.
Персонализация теперь включена по умолчанию. Чтобы сделать всё ✨красиво✨, есть персонализация модели под конкретного пользовател. Ты рейтишь 200 пар картинок — и получаешь свою персонализированную модель, что-то вроде LoRA, но внутри самого Midjourney. Причём, если задаться целью, можно натюнить и на 10К картинок! За что, кстати, выдают бесплатные часы генерации, так что это ещё и выгодно — команда таким образом собирает бесплатную разметку для улучшения модели.
Более того, перед релизом 7-й версии провели аж 3 раунда публичного голосования за лучшие рандомные картинки, поэтому ожидайте от v7 ретро-эстетики и выгоревших под плёнку чёрных.
Редактировать по тексту она, конечно, не умеет. Да и генерить его тоже — для этого есть, выше упомянутые, Gemini и GPT-4o. В целом, если сравнивать картинки из 6-й и 7-й версии, то разница не слишком заметна, но последняя кажется глазу более реалистичной. Насчет следования промпту пока сказать тяжело, но говорят, что тоже обновился и улучшился + не нужно писать параграфы, как во флюксе.
Draft-режим мощно обновился — и это теперь режим, в котором будут сделаны 90% тестовых картинок, промпты из которых потом, по всей видимости, будут вставляться в standard-модель. Именно модель — ведь всё указывает на то, что draft — это дистилляция из старшей модели, потому что в этом режиме картинки генерятся в 10 раз быстрее, практически в реалтайме. Настолько быстро, что Midjourney добавили ГОЛОСОВОЙ РЕЖИМ! Причём он воспринимает голосовые инструкции, а внутренняя LLM интерпретирует их в промпт. Да, прямо как в ChatGPT.
К сожалению, ничего более не показали. Нет ощущения революшена, как от предыдущих версий. Остальные фичи, которых будет ещё очень много, выложат в течение следующих двух месяцев. Так что новая v7 ещё долго будет мелькать в инфополе. Обещают, что их новые style и object references — это разнос. Если им удастся передавать детали референсного объекта так же точно, как это делает LoRA для Flux’а или хотя бы GPT-4o, — это действительно революшен. Потому что только этого сейчас не хватает Midjourney — консистентности.
@ai_newz
Долгожданная седьмая версия самого эстетичного генератора картинок вышла в релиз этим утром. С мультимодальной GPT-4o и Gemini тяжело бороться, но Midjourney явно нашли свою нишу среди эстетов.
Персонализация теперь включена по умолчанию. Чтобы сделать всё ✨красиво✨, есть персонализация модели под конкретного пользовател. Ты рейтишь 200 пар картинок — и получаешь свою персонализированную модель, что-то вроде LoRA, но внутри самого Midjourney. Причём, если задаться целью, можно натюнить и на 10К картинок! За что, кстати, выдают бесплатные часы генерации, так что это ещё и выгодно — команда таким образом собирает бесплатную разметку для улучшения модели.
Более того, перед релизом 7-й версии провели аж 3 раунда публичного голосования за лучшие рандомные картинки, поэтому ожидайте от v7 ретро-эстетики и выгоревших под плёнку чёрных.
Редактировать по тексту она, конечно, не умеет. Да и генерить его тоже — для этого есть, выше упомянутые, Gemini и GPT-4o. В целом, если сравнивать картинки из 6-й и 7-й версии, то разница не слишком заметна, но последняя кажется глазу более реалистичной. Насчет следования промпту пока сказать тяжело, но говорят, что тоже обновился и улучшился + не нужно писать параграфы, как во флюксе.
Draft-режим мощно обновился — и это теперь режим, в котором будут сделаны 90% тестовых картинок, промпты из которых потом, по всей видимости, будут вставляться в standard-модель. Именно модель — ведь всё указывает на то, что draft — это дистилляция из старшей модели, потому что в этом режиме картинки генерятся в 10 раз быстрее, практически в реалтайме. Настолько быстро, что Midjourney добавили ГОЛОСОВОЙ РЕЖИМ! Причём он воспринимает голосовые инструкции, а внутренняя LLM интерпретирует их в промпт. Да, прямо как в ChatGPT.
К сожалению, ничего более не показали. Нет ощущения революшена, как от предыдущих версий. Остальные фичи, которых будет ещё очень много, выложат в течение следующих двух месяцев. Так что новая v7 ещё долго будет мелькать в инфополе. Обещают, что их новые style и object references — это разнос. Если им удастся передавать детали референсного объекта так же точно, как это делает LoRA для Flux’а или хотя бы GPT-4o, — это действительно революшен. Потому что только этого сейчас не хватает Midjourney — консистентности.
@ai_newz
Media is too big
VIEW IN TELEGRAM
Ушел гений.
Он хоть и не был в AI тусовке, но Паша – это просто легенда. Он был и остается одним из моих любимых иполнителей.
Дерзкий, харизматичный, по-своему остроумный — и плевать на корпоративную этику, моду и чужое мнение. Пошутил — кенты лежат со смеха, заговорил — слова разлетаются на цитаты (очень метко про него сказал Даня prnrp).
Безумно жаль, что больше не выйдет его новых треков. RIP.
@ai_newz
Он хоть и не был в AI тусовке, но Паша – это просто легенда. Он был и остается одним из моих любимых иполнителей.
Дерзкий, харизматичный, по-своему остроумный — и плевать на корпоративную этику, моду и чужое мнение. Пошутил — кенты лежат со смеха, заговорил — слова разлетаются на цитаты (очень метко про него сказал Даня prnrp).
Безумно жаль, что больше не выйдет его новых треков. RIP.
@ai_newz
Cohere Command A - техрепорт
Вышел подробнейший техрепорто от Cohere, где они делятся рецептами по обучению современных LLM.
Модель Command A с 111B параметров разработана для специфических корпоративных задач, а не для конкуренции с frontier-моделями от Гугла и OpenAI. Модель вышла пару недель назад, а вот техрепорт только подоспел.
Вот ключевые моменты:
➡️ Цель Cohere: Создание умных, но эффективных моделей для корпоративных задач (RAG, многоязычность), которые можно развернуть локально (on-premise).
➡️ Архитектура: Стандартный плотный Transformer (SwiGLU, GQA), с 3:1 перемежающимися слоями локального и полного аттеншена (Gemma 3 использовала похожий трюк), но без позиционных эмбеддингов на full-attention и без bias.
➡️ Обучение: Используются muP, различные виды параллелизма, FP8-тренировка с последующим "отжигом" (annealing) в BF16 для восстановления производительности и постепенным увеличением контекста до 256K.
➡️ Слияние моделей (Merging):
Впервые кто-то из крупных игроков делится рецептами мерджинга. Они активно применяе слияник как на этапе SFT, так RL-тюна. Процесс: базовая instruct-модель -> 6 SFT-моделей по доменам (Код, RAG, Безопасность и т.д.) -> слияние -> 6 RL-моделей -> слияние -> финальный преференс тюн. Это упрощает разработку и позволило командам работать параллельно гад своими промежуточными моделями.
➡️ Данные: Основной упор на синтетические данные с оценкой людьми, с фокусом на RAG, использование инструментов (tool use), следование системным промптам и поддержку 23 языков.
➡️ Эффективность: Command A требует значительно меньше вычислительных ресурсов - модель можно засёрвить на 2x A100/H100 и бегает довольно шустро.
Статья хорошо написана и легко читается. Там много других интересных деталей, дополняющих техрепорт о Llama 3 своим акцентом на пост-тренировку. Маст рид для тех, кто занимается тренировкой современных LLM!
Тех Репорт
@ai_newz
Вышел подробнейший техрепорто от Cohere, где они делятся рецептами по обучению современных LLM.
Модель Command A с 111B параметров разработана для специфических корпоративных задач, а не для конкуренции с frontier-моделями от Гугла и OpenAI. Модель вышла пару недель назад, а вот техрепорт только подоспел.
Вот ключевые моменты:
Впервые кто-то из крупных игроков делится рецептами мерджинга. Они активно применяе слияник как на этапе SFT, так RL-тюна. Процесс: базовая instruct-модель -> 6 SFT-моделей по доменам (Код, RAG, Безопасность и т.д.) -> слияние -> 6 RL-моделей -> слияние -> финальный преференс тюн. Это упрощает разработку и позволило командам работать параллельно гад своими промежуточными моделями.
Статья хорошо написана и легко читается. Там много других интересных деталей, дополняющих техрепорт о Llama 3 своим акцентом на пост-тренировку. Маст рид для тех, кто занимается тренировкой современных LLM!
Тех Репорт
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Все модели мультимодальные — нативно воспринимают текст, изображения и видео. Тренировали на 30 триллионах токенов, причём токенов с других языков теперь в 10x больше по сравнению с Llama 3. Идёт в трёх размерах:
Scout (109B)— модель с 10 млн токенов контекста, что рекорд для релизнутой модели. По бенчам бьёт Gemma 3 и Gemini 2.0 Flash Lite, слегка не дотягивая до полноценной Flash 2.0. Это MoE модель с 16 экспертами, 109B параметров при 17B активных. С квантизацией влезает в одну GPU.
Maverick (400B)— лучше Gemini 2.0 Flash с GPT 4o, примерно на одном уровне с обновлённым DeepSeek V3, но при этом модель мультимодальная и заметно меньше в размерах. Контекст — 1 миллион токенов, меньше чем у Scout, но сильно лучше чем у других конкурентов. Активных параметров всё те же 17B, но экспертов уже 128, поэтому и 400B параметров, Модель можно запустить в fp8 на одной ноде с 8xH100.
Behemoth — гигантская модель на два триллиона параметров (288B активных, 16 экспертов). Бьёт вообщё все Instruct модели с заметным отрывом. Бегемота ещё тренируют, но его ранние версии уже были дистиллированы в Scout и Maverick, что сильно бустануло их перформанс.
Это всё ещё Instruct релиз, но Llama 4 Reasoning тоже скоро будет.
Веса
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейродайджест за неделю (#63)
LLM
- Ждём Qwen 3 — будут модельки всех размеров от мобильных до гигантских.
- Квантизация Gemma 3 — официальные модельки обещают быть оптимизированны с минимальными потерями в качестве благодаря quantization aware training.
- Yandex GPT 5 Lite Instruct — выложили в опенсорс. Хороший прирост производительности.
- Техрепорт Cohere Command A — подробнейших текст о ллм для корпоративных задач.
- Llama 4 — две младшие модельки опубликовали с неплохими результатами, старшая ещё тренируется.
- Цены на Gemini 2.5 Pro — от $1.25 за инпут и от $10 за аутпут.
Генеративные модели
- GPT 4o на Image Арене — ТОП-1 вместе с Reve. Очень хороший результат для LLM.
- Runway GEN-4 — лучший генератор видео за доступную цену. Хуже чем VEO 2, но значительно превосходит (примеры: здесь) всех остальных конкурентов.
- Проект МоЧа — липсинкаем не только губы но и всю верхнюю часть тела.
- MidJourney v7 — самая красивая, но пока в раннем доступе, ждём когда покажут все фичи.
- Голосовой режим MidJourney — draft mode настолько быстрый, что генерит на лету по голосу.
> Читать дайджест #62
#дайджест
@ai_newz
LLM
- Ждём Qwen 3 — будут модельки всех размеров от мобильных до гигантских.
- Квантизация Gemma 3 — официальные модельки обещают быть оптимизированны с минимальными потерями в качестве благодаря quantization aware training.
- Yandex GPT 5 Lite Instruct — выложили в опенсорс. Хороший прирост производительности.
- Техрепорт Cohere Command A — подробнейших текст о ллм для корпоративных задач.
- Llama 4 — две младшие модельки опубликовали с неплохими результатами, старшая ещё тренируется.
- Цены на Gemini 2.5 Pro — от $1.25 за инпут и от $10 за аутпут.
Генеративные модели
- GPT 4o на Image Арене — ТОП-1 вместе с Reve. Очень хороший результат для LLM.
- Runway GEN-4 — лучший генератор видео за доступную цену. Хуже чем VEO 2, но значительно превосходит (примеры: здесь) всех остальных конкурентов.
- Проект МоЧа — липсинкаем не только губы но и всю верхнюю часть тела.
- MidJourney v7 — самая красивая, но пока в раннем доступе, ждём когда покажут все фичи.
- Голосовой режим MidJourney — draft mode настолько быстрый, что генерит на лету по голосу.
> Читать дайджест #62
#дайджест
@ai_newz
Nvidia выпустила своего большого ризонера
В основе — Llama 3.1 405B, которую запрунили до 253B параметров. В целом обгоняет DeepSeek R1 по качеству, причём практически на всех бенчах, в отличие от QwQ 32B, которая обгоняла лишь на отдельных.
Модель влезает в FP8 в 4xH100, но для BF16 уже понадобится 8xH100, либо 4xB100. Для простых смертных они уже пару недель как выпустили модельки поменьше — 8B и 49B, основанные на Llama 8B и 70B соответственно.
Веса
@ai_newz
В основе — Llama 3.1 405B, которую запрунили до 253B параметров. В целом обгоняет DeepSeek R1 по качеству, причём практически на всех бенчах, в отличие от QwQ 32B, которая обгоняла лишь на отдельных.
Модель влезает в FP8 в 4xH100, но для BF16 уже понадобится 8xH100, либо 4xB100. Для простых смертных они уже пару недель как выпустили модельки поменьше — 8B и 49B, основанные на Llama 8B и 70B соответственно.
Веса
@ai_newz
Вышел DeepCoder 14B Preview
Новый ризонер специально для кода, лидирующий в 14B весовой категории и догоняющий o3-mini и o1, когда они обе на low настройках. Неприятный звоночек — модель не сравнивают с QwQ 32B, основным конкурентом этой модели, а с моделями OpenAI сравнивают только на low настройках. Причём непонятно почему — результаты достойные, даже o3-mini (low) обойти это непросто.
За основу взят DeepSeek R1 Distill 14B, поверх которого запустили RL на 24к задач для кодинга. Это сильно бампануло качество кодинга по сравнению с бейзлайном, при этом случайно улучшив результаты на математике.
Сделали эту модель в колабе с Together AI, это один из клауд провайдеров заточенных специально на ИИ. Я уже писал пару лет назад об их датасете RedPajama, воспроизводящем датасет оригинальной Llama.
А вот самая лучшая часть — авторы опубликовали не только веса, но и код с датасетом. Всё это можно прямо сейчас скачать с 🤗 и гитхаба.
И мы все ближе к маленьким и умелым моделькам, которые можно запускать локально (а 14B можно запускать и на обычном железе) и которые могут заменить проприетарные модели. На этот раз в кодинге. Не устану повторять, что опен сорс – это круто!
Веса
Код
Датасет
@ai_newz
Новый ризонер специально для кода, лидирующий в 14B весовой категории и догоняющий o3-mini и o1, когда они обе на low настройках. Неприятный звоночек — модель не сравнивают с QwQ 32B, основным конкурентом этой модели, а с моделями OpenAI сравнивают только на low настройках. Причём непонятно почему — результаты достойные, даже o3-mini (low) обойти это непросто.
За основу взят DeepSeek R1 Distill 14B, поверх которого запустили RL на 24к задач для кодинга. Это сильно бампануло качество кодинга по сравнению с бейзлайном, при этом случайно улучшив результаты на математике.
Сделали эту модель в колабе с Together AI, это один из клауд провайдеров заточенных специально на ИИ. Я уже писал пару лет назад об их датасете RedPajama, воспроизводящем датасет оригинальной Llama.
А вот самая лучшая часть — авторы опубликовали не только веса, но и код с датасетом. Всё это можно прямо сейчас скачать с 🤗 и гитхаба.
И мы все ближе к маленьким и умелым моделькам, которые можно запускать локально (а 14B можно запускать и на обычном железе) и которые могут заменить проприетарные модели. На этот раз в кодинге. Не устану повторять, что опен сорс – это круто!
Веса
Код
Датасет
@ai_newz
Почему опенсорс – это круто?
Наткнулся на такой тред в X – некоторые люди не понимают, зачем что-то опенсорсить (первый срин). Тут очень простой ответ, если ты большая корпорация - то ты как правило ничего не теряешь от релиза некоторых моделей на публику (при этом не нужно релизить абсолютно все наработки), но взамен приобретаешь следующее:
1️⃣ Можешь застолбить за собой целую область. Так делает, например, Llama, у которой недавно перевалило за 1 млрд скачиваний. Люди из комьюнити будут использовать твой стек технологий, дообучать и строить на базе твоих моделей. Часть полезных улучшений ты можешь перенять и бесплатно использовать для своего продукта. На каждый доллар, потраченный на опенсорс, тебе возвращается польза в кратном размере – это особенно валидно на макроуровне больших компаний и государств.
2️⃣ Это двигает прогресс в целом. В науке всё строится по кирпичикам на базе предыдущих работ. Пример с DeepSeek R1 это подтверждает. Они взяли открытые решения, собрали релевантные статьи, подумали и выкатили переимплементацию ризонинга, который до этого был только у закрытых моделей OpenAI. А дальше все будут строить на базе их модели и продолжать улучшать публичные модели. Еще примеры с LLM на русском: YandexGPT 5 Pro построили модель для русского языка на базе Qwen, а поверх мелкой модели YandexGPT 5 Lite (c llama-like архитектурой) комьюнити теперь строит свои тюны.
3️⃣ С релизами в опенсорс становится проще хайрить людей, ведь они уже знакомы с вашими технологиями.
4️⃣ Репутационный буст - все хотят работать там, где можно показать результаты своей работы наружу, и кроме того вам летят плюсы в карму за поддержку опен-сорс комьюнити.
Это то что с ходу приходит в голову - можно придумать и другие полезные вещи, вытекающие для компаний из опенсорс-релизов. Пишите в комменты свои мысли по этому поводу.
@ai_newz
Наткнулся на такой тред в X – некоторые люди не понимают, зачем что-то опенсорсить (первый срин). Тут очень простой ответ, если ты большая корпорация - то ты как правило ничего не теряешь от релиза некоторых моделей на публику (при этом не нужно релизить абсолютно все наработки), но взамен приобретаешь следующее:
Это то что с ходу приходит в голову - можно придумать и другие полезные вещи, вытекающие для компаний из опенсорс-релизов. Пишите в комменты свои мысли по этому поводу.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
TPU v7 — Ironwood
Google показали новое поколение TPU, на одном уровне с Blackwell. В новом поколении 4.6 Dense петафлопса на чип — чуть больше чем в B200. Дают 192 гигабайта видеопамяти, с пропускной способностью чуть похуже чем у B200 — 7.4TB/s против 8. Энергоэффективность в два раза лучше чем у Trillium (v6e) и чуть лучше чем у Blackwell.
Новые TPU могут объединятся в поды из over 9000 чипов, только вместо Infiniband/Ethernet там кастомный нетворкинг. Он больше похож на тот, что Nvidia делает в NVL72, но, в отличии от решения Nvidia, которая обещает 576 чипов через NVLink только в 2027, он скейлится на тысячи чипов. Но есть и минусы — TPU v7 даёт всего 1.2TB/s на чип, когда NVLink 5 в GPU Blackwell даёт 1.8TB/s.
Главный вопрос — смогут ли они купить достаточно HBM для массовых деплойментов. Но даже если смогут, не смотря на очень хорошие характеристики, это не конкурент Nvidia. Дело в том, что Google не продаёт TPU другим компаниям, лишь сдаёт в аренду в клауде. Да и сами они не отказываются от массового деплоймента GPU — одних Blackwell компания закупила на 10 миллиардов долларов, правда в основном для Google Cloud.
@ai_newz
Google показали новое поколение TPU, на одном уровне с Blackwell. В новом поколении 4.6 Dense петафлопса на чип — чуть больше чем в B200. Дают 192 гигабайта видеопамяти, с пропускной способностью чуть похуже чем у B200 — 7.4TB/s против 8. Энергоэффективность в два раза лучше чем у Trillium (v6e) и чуть лучше чем у Blackwell.
Новые TPU могут объединятся в поды из over 9000 чипов, только вместо Infiniband/Ethernet там кастомный нетворкинг. Он больше похож на тот, что Nvidia делает в NVL72, но, в отличии от решения Nvidia, которая обещает 576 чипов через NVLink только в 2027, он скейлится на тысячи чипов. Но есть и минусы — TPU v7 даёт всего 1.2TB/s на чип, когда NVLink 5 в GPU Blackwell даёт 1.8TB/s.
Главный вопрос — смогут ли они купить достаточно HBM для массовых деплойментов. Но даже если смогут, не смотря на очень хорошие характеристики, это не конкурент Nvidia. Дело в том, что Google не продаёт TPU другим компаниям, лишь сдаёт в аренду в клауде. Да и сами они не отказываются от массового деплоймента GPU — одних Blackwell компания закупила на 10 миллиардов долларов, правда в основном для Google Cloud.
@ai_newz
HiDream-I1 (17B) - новая txt2img SOTA
Пора бы уже привыкнуть, что нонейм команда из Китая нагибает западные СОТА. HiDream заняла второе место (уже слетела на третье) сразу после GPT 4o на Image Arena. И веса в опенсорсе!
Они взяли VAE от самого удачного открытого Flux и намешали поверх кашу из MoE — двух MMDiT-блоков в одиночном и двойном потоках, туда же насыпали разных энкодеров и декодеров. Аж два клипа: OpenCLIP ViT-bigG и OpenAI CLIP ViT-L, и чисто текстовые: T5-XXL и Llama-3.1-8B-Instruct (что довольно необычно). Никаких данных о том, как это работает, нет, но по всей видимости более продвинутый механизм обработки промпта дает нехилый буст в плане понимания и следования инструкций — и, как следствие, эстетики картинки, в том числе на этапе тренировки.
Есть всего 3 версии одной и той же модели, и они отличаются только количеством шагов. Видимо дистиллировали под разный бюджет на инференсе. Модель на 17B параметров, поэтому она очень медленная и требовательная (62GB VRAM), но это поправимо со временем.
Интересно, что моделька распространяется под лицензией MIT, но вот T5-XXL и Llama-3.1-8B-Instruct — нет. Неловко вышло, однако :)
Кидайте свои генерации в комменты.
Демо, говорят там пожатая модель
Гитхаб
Обнимающее лицо
@ai_newz
Пора бы уже привыкнуть, что нонейм команда из Китая нагибает западные СОТА. HiDream заняла второе место (уже слетела на третье) сразу после GPT 4o на Image Arena. И веса в опенсорсе!
Они взяли VAE от самого удачного открытого Flux и намешали поверх кашу из MoE — двух MMDiT-блоков в одиночном и двойном потоках, туда же насыпали разных энкодеров и декодеров. Аж два клипа: OpenCLIP ViT-bigG и OpenAI CLIP ViT-L, и чисто текстовые: T5-XXL и Llama-3.1-8B-Instruct (что довольно необычно). Никаких данных о том, как это работает, нет, но по всей видимости более продвинутый механизм обработки промпта дает нехилый буст в плане понимания и следования инструкций — и, как следствие, эстетики картинки, в том числе на этапе тренировки.
Есть всего 3 версии одной и той же модели, и они отличаются только количеством шагов. Видимо дистиллировали под разный бюджет на инференсе. Модель на 17B параметров, поэтому она очень медленная и требовательная (62GB VRAM), но это поправимо со временем.
Интересно, что моделька распространяется под лицензией MIT, но вот T5-XXL и Llama-3.1-8B-Instruct — нет. Неловко вышло, однако :)
Кидайте свои генерации в комменты.
Демо, говорят там пожатая модель
Гитхаб
Обнимающее лицо
@ai_newz