Новый генератор — шлак?
Генерацию картинок в 4o уже раскатили. Похоже, что вопреки всему, этот генератор ничем не хуже текущего топа. Рандомные примеры от комьюнити и мои тесты прилагаются.
Окей, генерит он и фотореализм тоже, но вот с лицами что-то не так. В первом моём тесте я вообще на себя не похож. Сравните с Gemini. Может, просто не повезло?
Бегом тестить пока сервер не лег!
@ai_newz
Генерацию картинок в 4o уже раскатили. Похоже, что вопреки всему, этот генератор ничем не хуже текущего топа. Рандомные примеры от комьюнити и мои тесты прилагаются.
Окей, генерит он и фотореализм тоже, но вот с лицами что-то не так. В первом моём тесте я вообще на себя не похож. Сравните с Gemini. Может, просто не повезло?
Бегом тестить пока сервер не лег!
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Ideogram 3.0
Рисует красиво, ничего не скажешь. Заявляют SOTA на внутренних метриках, других бенчмарков нет. Из функционала, с релизом модели докинули возможность создавать свои стили (да, этого там не было). А с последнего раза когда я писал про них, завезли ещё и inpaint/outpaint.
Бесплатно дают 10 "медленных" кредитов в неделю, этого достаточно на 6-20 генераций с новой моделью, в зависимости от режима. Платная подписка начинается с 8 долларов в месяц и доходит до 60.
Блогпост
ideogram.ai
@ai_newz
Рисует красиво, ничего не скажешь. Заявляют SOTA на внутренних метриках, других бенчмарков нет. Из функционала, с релизом модели докинули возможность создавать свои стили (да, этого там не было). А с последнего раза когда я писал про них, завезли ещё и inpaint/outpaint.
Бесплатно дают 10 "медленных" кредитов в неделю, этого достаточно на 6-20 генераций с новой моделью, в зависимости от режима. Платная подписка начинается с 8 долларов в месяц и доходит до 60.
Блогпост
ideogram.ai
@ai_newz
GPT-4o серьёзно апнули
Модель заметно выросла по всем бенчам, особенно по кодингу. Модель сравнялась в бенчах с новой Claude 3.7 и апдейтнутой DeepSeek V3. До ризонеров довольно далеко, но ризонеры дорогие и подходят не для всех задач. К сожалению, сравнения с GPT-4.5 нет (сильно дорого бенчмаркать), но судя по LMSYS арене, новая GPT-4o лучше чем GPT-4.5.
@ai_newz
Модель заметно выросла по всем бенчам, особенно по кодингу. Модель сравнялась в бенчах с новой Claude 3.7 и апдейтнутой DeepSeek V3. До ризонеров довольно далеко, но ризонеры дорогие и подходят не для всех задач. К сожалению, сравнения с GPT-4.5 нет (сильно дорого бенчмаркать), но судя по LMSYS арене, новая GPT-4o лучше чем GPT-4.5.
@ai_newz
Сколько энергии тратят LLM на юзера?
Нашёл в интернете классную инфографику, наглядно показывающую сколько энергии нужно на год использования LLM, в сравнении с другими ежедневными занятиями. Исходят из расчёта на 100 обычных сообщений в день с не reasoning моделью. К методике у меня есть пара претензий, да и всё очень сильно зависит от конкретной модели, но порядок цифр верный. Я всё ещё постоянно вижу заявления о каких-то безумных расходах энергии и воды, даже от уважаемых изданий, надеюсь такой дезинформации станет меньше.
@ai_newz
Нашёл в интернете классную инфографику, наглядно показывающую сколько энергии нужно на год использования LLM, в сравнении с другими ежедневными занятиями. Исходят из расчёта на 100 обычных сообщений в день с не reasoning моделью. К методике у меня есть пара претензий, да и всё очень сильно зависит от конкретной модели, но порядок цифр верный. Я всё ещё постоянно вижу заявления о каких-то безумных расходах энергии и воды, даже от уважаемых изданий, надеюсь такой дезинформации станет меньше.
@ai_newz
Нейродайджест за неделю (#62)
LLM
- Нативная мультимодальная генерация картинок в 4o — Сама наконец развязал руки 4o. Прекрасно генерит картинки и редактирует их текстом, к тому же без дотошной цензуры. Но при этом крутит детали и меняет лица при редактировании. Правда, пока сервера положили все те, кто делают что-то там в стиле Ghibli. Более того, GPT-4o серьёзно апнули — Малая по бенчам сравнялась с Claude 3.7.
- DeepSeek V3 обновили — Дотюнили изначальный вариант, по бенчам немного подскачил.
- Gemini 2.5 Pro — Пушка от Google и СОТА модель сегодняшний день (выкуси Сама).
- Чатботы почти не тратят электроэнергию — Сравнение расходов электричества на LLM и другие повседневные дела.
Роботех
- LeRobot — Опенсорс-робототехника жёстко обновилась: роборуку можно собрать за 110 баксов, а потом за ночь обучить на домашнем железе.
Генеративные картиночные модели
- REVE — Новая СОТА в text2image. Отличное понимание промпта и знание русской эстетики.
- Ideogram 3.0 — Говорят, что СОТА, но на деле неизвестно. Выложили в ответ REVE и OpenAI.
> Читать дайджест #61
#дайджест
@ai_newz
LLM
- Нативная мультимодальная генерация картинок в 4o — Сама наконец развязал руки 4o. Прекрасно генерит картинки и редактирует их текстом, к тому же без дотошной цензуры. Но при этом крутит детали и меняет лица при редактировании. Правда, пока сервера положили все те, кто делают что-то там в стиле Ghibli. Более того, GPT-4o серьёзно апнули — Малая по бенчам сравнялась с Claude 3.7.
- DeepSeek V3 обновили — Дотюнили изначальный вариант, по бенчам немного подскачил.
- Gemini 2.5 Pro — Пушка от Google и СОТА модель сегодняшний день (выкуси Сама).
- Чатботы почти не тратят электроэнергию — Сравнение расходов электричества на LLM и другие повседневные дела.
Роботех
- LeRobot — Опенсорс-робототехника жёстко обновилась: роборуку можно собрать за 110 баксов, а потом за ночь обучить на домашнем железе.
Генеративные картиночные модели
- REVE — Новая СОТА в text2image. Отличное понимание промпта и знание русской эстетики.
- Ideogram 3.0 — Говорят, что СОТА, но на деле неизвестно. Выложили в ответ REVE и OpenAI.
> Читать дайджест #61
#дайджест
@ai_newz
А вот и YandexGPT 5 Lite Instruct подъехал в опенсорс.
Я уже писал про 5-е поколение моделей Яндекса, но тогда выложили только pre-train версию, а теперь релизят Instruct версию. Ее неплохо бафнули в плане кода и матана и увеличили контекст с 8 до 32k. По сравнению с Qwen 2.5-7B-Instruct моделька значительно лучше справляется с классификацией и разметкой русского языка, в том числе в вопросах культурного наследия и локальных фактов. Челы из Яндекса хвастают, что в side-by-side обходят Qwen в 62% и имеют паритет с YandexGPT 4 Pro, а в типичных задачах сервисов Яндекса обходят даже GPT-4o Mini.
Добавили также поддержку llama.cpp и GGUF. Моделька всего на 8B, так что влезет в домашний ПК.
Кроме того, обновили лицензию. Теперь обе модельки можно использовать в коммерческих целях — но не более 10 млн выходных токенов в месяц.Хватит на небольшого кастомер-саппорт-бота. Однако крупному бизнесу придётся платить за лицензию. Для них приятная плюшка — это совместимость с OpenAI API в Yandex Cloud. То есть можно переключаться между ними практически бесшовно. Странно, что сразу так не сделали.
Обнимающее лицо
@ai_newz
Я уже писал про 5-е поколение моделей Яндекса, но тогда выложили только pre-train версию, а теперь релизят Instruct версию. Ее неплохо бафнули в плане кода и матана и увеличили контекст с 8 до 32k. По сравнению с Qwen 2.5-7B-Instruct моделька значительно лучше справляется с классификацией и разметкой русского языка, в том числе в вопросах культурного наследия и локальных фактов. Челы из Яндекса хвастают, что в side-by-side обходят Qwen в 62% и имеют паритет с YandexGPT 4 Pro, а в типичных задачах сервисов Яндекса обходят даже GPT-4o Mini.
Добавили также поддержку llama.cpp и GGUF. Моделька всего на 8B, так что влезет в домашний ПК.
Кроме того, обновили лицензию. Теперь обе модельки можно использовать в коммерческих целях — но не более 10 млн выходных токенов в месяц.Хватит на небольшого кастомер-саппорт-бота. Однако крупному бизнесу придётся платить за лицензию. Для них приятная плюшка — это совместимость с OpenAI API в Yandex Cloud. То есть можно переключаться между ними практически бесшовно. Странно, что сразу так не сделали.
Обнимающее лицо
@ai_newz
GPT 4o залетела на Image Arena
Модель теперь делит первое место с Reve, а Ideogram V3 на арену пока что так и не добралась. Это не единственная LLM на арене — там уже есть Gemini 2.0 Flash, которая по качеству где-то между Stable Diffusion 3.5 Medium и FLUX 1.0 schnell, что на целых 150 ELO отстаёт от топа. Кстати, возможности генерации изображений должны быть у всех моделей Gemini, интересно что будет выдавать Gemini 2.5 Pro, когда её включат, и как повиляет на это ризонинг.
А как скоро LLM начнут генерить ещё и видео? Хотя такая статейка уже была у гугла пару лет назад.
@ai_newz
Модель теперь делит первое место с Reve, а Ideogram V3 на арену пока что так и не добралась. Это не единственная LLM на арене — там уже есть Gemini 2.0 Flash, которая по качеству где-то между Stable Diffusion 3.5 Medium и FLUX 1.0 schnell, что на целых 150 ELO отстаёт от топа. Кстати, возможности генерации изображений должны быть у всех моделей Gemini, интересно что будет выдавать Gemini 2.5 Pro, когда её включат, и как повиляет на это ризонинг.
А как скоро LLM начнут генерить ещё и видео? Хотя такая статейка уже была у гугла пару лет назад.
@ai_newz
Media is too big
VIEW IN TELEGRAM
GEN-4, Runway is soo back 🔥 🔥 🔥
После выхода GEN-3 прошло довольно много времени, и после релиза Kling 1.6 использовать Runway было как-то зашкварно. Хотя у них и был безлимитный план. А после выхода Luma Ray 2, где теперь тоже есть безлим, Runway был вообще бесполезным и в последнее время казался морально устаревшим.
А теперь они без предварительных анонсов неожиданно дропают модельку на уровне VEO 2🔥
Сразу с img2video, более того — это одна из самых лучших моделей в плане подхвата референса по одной картинке с очень хорошей консистентностью. В демо-черрипиках — это уровень Grok 3 и Gemini Flash 2.0 (даже не 4o).
Никаких технических данных нет, как обычно. Но выглядит так, будто она вообще не трогает детали референса, только рисует новые ракурсы и моушен. Пока звучит как фантастика, нужно щупать своими ручками.
Но ждать недолго! Её уже должны были открыть для платных пользователей.
Черрипики-фильмы от ранвей в ниже.
Анонс
@ai_newz
После выхода GEN-3 прошло довольно много времени, и после релиза Kling 1.6 использовать Runway было как-то зашкварно. Хотя у них и был безлимитный план. А после выхода Luma Ray 2, где теперь тоже есть безлим, Runway был вообще бесполезным и в последнее время казался морально устаревшим.
А теперь они без предварительных анонсов неожиданно дропают модельку на уровне VEO 2
Сразу с img2video, более того — это одна из самых лучших моделей в плане подхвата референса по одной картинке с очень хорошей консистентностью. В демо-черрипиках — это уровень Grok 3 и Gemini Flash 2.0 (даже не 4o).
Никаких технических данных нет, как обычно. Но выглядит так, будто она вообще не трогает детали референса, только рисует новые ракурсы и моушен. Пока звучит как фантастика, нужно щупать своими ручками.
Но ждать недолго! Её уже должны были открыть для платных пользователей.
Черрипики-фильмы от ранвей в ниже.
Анонс
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
ПРОЕКТ: МоЧА
Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием)
Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете.
Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают.
Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но потом возможно дотренируют Ещё интересно, что тренили в 4 стадии:
сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру и увеличивали количество людей в кадре, т.к. несколько персонажей генерить сложнее. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка.
Генерация, конечно же не онлайн.
Пейпер
Project page
@ai_newz
Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием)
Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете.
Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают.
Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но потом возможно дотренируют Ещё интересно, что тренили в 4 стадии:
сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру и увеличивали количество людей в кадре, т.к. несколько персонажей генерить сложнее. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка.
Генерация, конечно же не онлайн.
Пейпер
Project page
@ai_newz
Разработчики из ШАДа и Yandex B2B Tech создали реально работающий инструмент для экологов-практиков. Их нейросеть анализирует снимки с дронов и превращает их в детальную карту мусорных скоплений на побережьях — причём делает это с точностью выше 80%.
Работает хорошо даже в полевых условиях Камчатки. Алгоритм не только отмечает местоположение мусора, но и классифицирует его по шести типам: от рыболовных сетей до пластика. Благодаря этому волонтёры смогли точно рассчитать, что им понадобится 20 человек, пара самосвалов и погрузчик, причём на организацию ушло в 4 раза меньше времени. В итоге убрали 5 тонн мусора.
Код полностью выложен в открытый доступ, и любая экологическая организация может использовать это решение бесплатно. Особенно круто, что технология масштабируется на другие заповедники и может быть дообучена на новые типы отходов. Дальше планируют внедрить её в других труднодоступных регионах Дальнего Востока и Арктики, где каждая экспедиция — очень трудна в организации, и предварительная разведка жизненно необходима.
@ai_newz
Работает хорошо даже в полевых условиях Камчатки. Алгоритм не только отмечает местоположение мусора, но и классифицирует его по шести типам: от рыболовных сетей до пластика. Благодаря этому волонтёры смогли точно рассчитать, что им понадобится 20 человек, пара самосвалов и погрузчик, причём на организацию ушло в 4 раза меньше времени. В итоге убрали 5 тонн мусора.
Код полностью выложен в открытый доступ, и любая экологическая организация может использовать это решение бесплатно. Особенно круто, что технология масштабируется на другие заповедники и может быть дообучена на новые типы отходов. Дальше планируют внедрить её в других труднодоступных регионах Дальнего Востока и Арктики, где каждая экспедиция — очень трудна в организации, и предварительная разведка жизненно необходима.
@ai_newz
Qwen 3 выйдет на следующей неделе
Об этом сообщают китайские СМИ. Команда Qwen точно хочет успеть релизнуть свою модель до Llama Con, который пройдёт 29 апреля. Судя по всему, семейство Qwen 3 целится сразу во все сегменты рынка и включает в себя сильно больше размеров — будут как и MoE модели, которые часто поражают своими размерами, так и мобильная моделька всего на 600m.
Над поддержкой везде работают заранее — код для моделей уже смержили в трансформеры пару дней назад. Хотя вот удивительно, что Qwen2.5 до сих пор не поддерживается в LMDeploy, в одном из самых быстрых inference движков.
Компания лишь недавно релизнула свою первую омни модель — Qwen 2.5 Omni 7B, так что Qwen 3 вряд-ли будет омнимодальным на релизе. А вот релизнуться сразу с VLM моделями им ничего не мешает. Про ризонеры пока что ничего не ясно, кроме того что они точно будут.
@ai_newz
Об этом сообщают китайские СМИ. Команда Qwen точно хочет успеть релизнуть свою модель до Llama Con, который пройдёт 29 апреля. Судя по всему, семейство Qwen 3 целится сразу во все сегменты рынка и включает в себя сильно больше размеров — будут как и MoE модели, которые часто поражают своими размерами, так и мобильная моделька всего на 600m.
Над поддержкой везде работают заранее — код для моделей уже смержили в трансформеры пару дней назад. Хотя вот удивительно, что Qwen2.5 до сих пор не поддерживается в LMDeploy, в одном из самых быстрых inference движков.
Компания лишь недавно релизнула свою первую омни модель — Qwen 2.5 Omni 7B, так что Qwen 3 вряд-ли будет омнимодальным на релизе. А вот релизнуться сразу с VLM моделями им ничего не мешает. Про ризонеры пока что ничего не ясно, кроме того что они точно будут.
@ai_newz
Для Gemma 3 вышли официальные квантизированные версии
Квантизация это сейчас стандарт, мало кто будет запускать модели локально в нативных bf16 — большая часть пользователей использует 4 битную квантизацию. И тут проявляется большая проблема — модели, по большей части, выпускают в bfloat16 и совершенно не расчитывают, что кто-то когда-то будет их запускать как-то по-другому, из-за чего заметно страдает качество моделей при локальном использовании. Дело в том, что дешёвая Post-training квантизация, которая не требует тренировки, сильно просаживает качество.
Google специально дотренировали Gemma 3 с quantization aware training, чтобы таких проблем не было. Обещают "схожее качество" с bf16 моделями, но результатов бенчей не дали (а хотелось бы). Такой же релиз делала и Meta с Llama 3.2, правда только для 1B и 3B, а Google выпустил сразу всю линейку. А остальным авторам открытых моделей тоже стоит начать делать подобные релизы.
Скачать
@ai_newz
Квантизация это сейчас стандарт, мало кто будет запускать модели локально в нативных bf16 — большая часть пользователей использует 4 битную квантизацию. И тут проявляется большая проблема — модели, по большей части, выпускают в bfloat16 и совершенно не расчитывают, что кто-то когда-то будет их запускать как-то по-другому, из-за чего заметно страдает качество моделей при локальном использовании. Дело в том, что дешёвая Post-training квантизация, которая не требует тренировки, сильно просаживает качество.
Google специально дотренировали Gemma 3 с quantization aware training, чтобы таких проблем не было. Обещают "схожее качество" с bf16 моделями, но результатов бенчей не дали (а хотелось бы). Такой же релиз делала и Meta с Llama 3.2, правда только для 1B и 3B, а Google выпустил сразу всю линейку. А остальным авторам открытых моделей тоже стоит начать делать подобные релизы.
Скачать
@ai_newz