Видео дайджест
Я не знаю, какая муха укусила китайцев, но те всей толпой опять поражают количеством новых моделек. Я даже решил подождать, может ещё чё выйдет (так и вышло!)
Так что немного с опозданием, но вот небольшой обзор всех новых опенсорсных моделек и других плюшек.
SkyReels-V2
Новая (возможно SOTA) опен-сорс видео-модель с LLM и MoE под капотом. Две версии на 1.3B и 14B параметров (влезают в 15 и 52 ГБ VRAM). Разрешение до 720p. Из фишек — может генерить бесконечные фильмы при помощи Diffusion Forcing. Ещё есть SkyCaptioner-V1 для разметки видосов.
SkyReels • SkyCaptioner-V1
FramePack
Ещё одна SOTA (ну скажем для слабого железа) в видео-генерации. От разработчика ControlNet Forge и IC Light. Тоже генерит бесконечные видосы. Очень шустрая: 13B влезают в 6 ГБ VRAM. Тюнится батчами по 64 штуки на 8×A100/H100; на RTX 4090 генерит со скоростью ~2.5 сек/кадр. Из фишек: next-frame prediction с динамической степенью детализации, в зависимости от важности кадра для предсказания следующего. Anti-drifting sampling — двусторонняя выборка, которая как раз и позволяет генерить бесконечные видосы, избегая накопления ошибок.
FramePack
MAGI-1
Новая (возможно SOTA) в видео-генерации. Смотрится неплохо, из всех трёх, наверное, самый интересный (что там относительно Wan — не понятно). Выходит в двух версиях — 1.5B и 24B; для последнего вам потребуется 8×H100 (сравните с предыдущим). Тоже может в бесконечную генерацию. Кстати, генерит аж в 2560 × 1440, и самое интересное — это АВТОРЕГРЕССИОННАЯ модель. Есть подробнейший тех-репорт на 60 страниц.
Демо на Magi.sand.ai • GitHub — Magi-1
Все три модели вышли одновременно с громким заявлением, что они теперь SOTA в open-source видео-генерации. Ну что ж, будем смотреть, но здесь важно опираться не только на сырые генерации, но и понимание промпта, с чем у видеомоделек проблемы. Кстати, пока в этом лучший Kling — по крайней мере так кажется: он чуть ли не по таймкодам справляется.
Другие плюшки:
- Wan FLF 2.1 14B 720P — выкатили в опенсорс start+end frame.
GitHub • ComfyUI workflow
- Avatar FX — Hedraздорового человека фаната Character AI: теперь со своей виртуальной вайфу можно обмениваться кружочками почти как в телеграмм. Скоро и до видео-звонков дойдём. Больше никаких подробностей (опенсорса тоже) — не могу выбросить из головы мысли о «Бегущем по лезвию».
Character.ai
- Runway GEN-4 References — Это геймчейнджер (про него отдельный пост). К конкурсу GEN-48 Runway выкатил свою главную фичу — References︎, продвинутый и гибкий аналог IP-Adapter, который показывали на релизе.
На этом откланяюсь. В посте по одному видео от каждого генератора по очереди, а свои тесты закидывайте в комменты.
@ai_newz
Я не знаю, какая муха укусила китайцев, но те всей толпой опять поражают количеством новых моделек. Я даже решил подождать, может ещё чё выйдет (так и вышло!)
Так что немного с опозданием, но вот небольшой обзор всех новых опенсорсных моделек и других плюшек.
SkyReels-V2
Новая (возможно SOTA) опен-сорс видео-модель с LLM и MoE под капотом. Две версии на 1.3B и 14B параметров (влезают в 15 и 52 ГБ VRAM). Разрешение до 720p. Из фишек — может генерить бесконечные фильмы при помощи Diffusion Forcing. Ещё есть SkyCaptioner-V1 для разметки видосов.
SkyReels • SkyCaptioner-V1
FramePack
Ещё одна SOTA (ну скажем для слабого железа) в видео-генерации. От разработчика ControlNet Forge и IC Light. Тоже генерит бесконечные видосы. Очень шустрая: 13B влезают в 6 ГБ VRAM. Тюнится батчами по 64 штуки на 8×A100/H100; на RTX 4090 генерит со скоростью ~2.5 сек/кадр. Из фишек: next-frame prediction с динамической степенью детализации, в зависимости от важности кадра для предсказания следующего. Anti-drifting sampling — двусторонняя выборка, которая как раз и позволяет генерить бесконечные видосы, избегая накопления ошибок.
FramePack
MAGI-1
Новая (возможно SOTA) в видео-генерации. Смотрится неплохо, из всех трёх, наверное, самый интересный (что там относительно Wan — не понятно). Выходит в двух версиях — 1.5B и 24B; для последнего вам потребуется 8×H100 (сравните с предыдущим). Тоже может в бесконечную генерацию. Кстати, генерит аж в 2560 × 1440, и самое интересное — это АВТОРЕГРЕССИОННАЯ модель. Есть подробнейший тех-репорт на 60 страниц.
Демо на Magi.sand.ai • GitHub — Magi-1
Все три модели вышли одновременно с громким заявлением, что они теперь SOTA в open-source видео-генерации. Ну что ж, будем смотреть, но здесь важно опираться не только на сырые генерации, но и понимание промпта, с чем у видеомоделек проблемы. Кстати, пока в этом лучший Kling — по крайней мере так кажется: он чуть ли не по таймкодам справляется.
Другие плюшки:
- Wan FLF 2.1 14B 720P — выкатили в опенсорс start+end frame.
GitHub • ComfyUI workflow
- Avatar FX — Hedra
Character.ai
- Runway GEN-4 References — Это геймчейнджер (про него отдельный пост). К конкурсу GEN-48 Runway выкатил свою главную фичу — References︎, продвинутый и гибкий аналог IP-Adapter, который показывали на релизе.
На этом откланяюсь. В посте по одному видео от каждого генератора по очереди, а свои тесты закидывайте в комменты.
@ai_newz
👍79🔥43❤23😁7🤯4😱4🫡1
Qwen 3 — открытые гибридные ризонеры
Идёт в размерах на все случаи жизни — от миниатюрной 0.6B, до огромного 235B-A22B MoE, которая обгоняет o3-mini и очень хорошо себя показывает против Gemini 2.5 Pro. Все модели — SOTA в своих весовых категориях. Особенно хочу отметить 30B-3A MoE модель — она бьёт вышедшую полтора месяца назад QwQ 32B, при в 10 раз меньшем количестве активных параметров. Она всё ещё слегка отстаёт от Qwen 3 32B, но в разы быстрее.
Все эти модели — гибридные, то есть они могут вести себя и как обычная модель и как ризонер, что сильно увеличивает гибкость использования - нужно только вставить тег😢 .
Модели тренировали на 36 триллионах токенов из 119 языков, том числе беларуского, русского и украинского. Если датасет для всех моделей одинаковый, то 0,6B тренировали на 60 тысяч токенов на один параметр (привет Шиншилле). Интересно как она себя будет вести при такой плотности. Веса выложили под Apache 2.0 — то есть делать с ними можно всё что угодно. Попробовать модели можно на qwen.ai.
Веса
Блогпост
@ai_newz
Идёт в размерах на все случаи жизни — от миниатюрной 0.6B, до огромного 235B-A22B MoE, которая обгоняет o3-mini и очень хорошо себя показывает против Gemini 2.5 Pro. Все модели — SOTA в своих весовых категориях. Особенно хочу отметить 30B-3A MoE модель — она бьёт вышедшую полтора месяца назад QwQ 32B, при в 10 раз меньшем количестве активных параметров. Она всё ещё слегка отстаёт от Qwen 3 32B, но в разы быстрее.
Все эти модели — гибридные, то есть они могут вести себя и как обычная модель и как ризонер, что сильно увеличивает гибкость использования - нужно только вставить тег
/no_think
. Такой фичей могут похвастаться ещё только Claude 3.7 и Gemini 2.5 Flash. А ещё разработчики заявляют, что у Qwen 3 сильно улучшили тул-юз, хотя данных бенчей особо не приводят, в любом случае мы всё и так узнаем через пару дней. Но есть и ложка дёгтя — модели не мультимодальные, а мультимодальные квены обычно релизятся через 3-4 месяца Модели тренировали на 36 триллионах токенов из 119 языков, том числе беларуского, русского и украинского. Если датасет для всех моделей одинаковый, то 0,6B тренировали на 60 тысяч токенов на один параметр (привет Шиншилле). Интересно как она себя будет вести при такой плотности. Веса выложили под Apache 2.0 — то есть делать с ними можно всё что угодно. Попробовать модели можно на qwen.ai.
Веса
Блогпост
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥151❤🔥29❤26👍22
Forwarded from Denis Sexy IT 🤖
Есть такой подреддит r/ChangeMyView: его правило простое - автор делится твёрдым убеждением, а комментаторы стараются аргументированно изменить его точку зрения; если у них выходит, автор награждает их ачивкой – «дельтой» (∆), что на сабе считается символом убедительности и интеллектуальной добросовестности
Благодаря жёсткой модерации и культуре вежливой полемики сабреддит давно служит «полигоном» для тренировки аргументации
Учёные провели секретный эксперимент на Reddit: они создали тринадцать аккаунтов-фейков с двумя координирующимися языковыми моделями на каждый аккаунт:
– Первая сканировала историю постов каждого оппонента, вычленяя вероятный возраст, пол, мировоззрение и эмоциональные триггеры
– Вторая, исходя из этого профиля, генерировала ответ, рассчитанный на максимальное изменение мнения
С ноября 2024 года боты оставили около полутора тысяч комментариев и получили более сотни «дельт» - свидетельств того, что авторы исходных постов действительно поменяли позицию. Для сравнения: среднестатистическому участнику сабреддита нужно в шесть раз больше попыток, чтобы добиться таких результатов
Эффективность объяснялась не только персонализацией - LLM «подстраивались» под стилистику Reddit, включая сленг («TL;DR» в начале, саркастические сноски в конце). При этом боты часто изобретали биографии: один позиционировал себя как «жертва изнасилования», другой - как «белая женщина в почти полностью чёрном коллективе», третий - как рядовой муниципальный служащий и тп – такие «галлюцинации» повышали эмоциональную убедительность
25 апреля 2025 года модераторы r/ChangeMyView обнародовали список подозрительных аккаунтов и черновик статьи «Can AI Change Your View?». Началась бурная дискуссия о границах этики: пользователи сочли эксперимент манипуляцией, университетская комиссия вынесла исследователям предупреждение, и теперь люди требуют изъять работу из публикационного процесса
В интернете будущего, нейронки будут спорить с нейронками, получается так
Благодаря жёсткой модерации и культуре вежливой полемики сабреддит давно служит «полигоном» для тренировки аргументации
Учёные провели секретный эксперимент на Reddit: они создали тринадцать аккаунтов-фейков с двумя координирующимися языковыми моделями на каждый аккаунт:
– Первая сканировала историю постов каждого оппонента, вычленяя вероятный возраст, пол, мировоззрение и эмоциональные триггеры
– Вторая, исходя из этого профиля, генерировала ответ, рассчитанный на максимальное изменение мнения
С ноября 2024 года боты оставили около полутора тысяч комментариев и получили более сотни «дельт» - свидетельств того, что авторы исходных постов действительно поменяли позицию. Для сравнения: среднестатистическому участнику сабреддита нужно в шесть раз больше попыток, чтобы добиться таких результатов
Эффективность объяснялась не только персонализацией - LLM «подстраивались» под стилистику Reddit, включая сленг («TL;DR» в начале, саркастические сноски в конце). При этом боты часто изобретали биографии: один позиционировал себя как «жертва изнасилования», другой - как «белая женщина в почти полностью чёрном коллективе», третий - как рядовой муниципальный служащий и тп – такие «галлюцинации» повышали эмоциональную убедительность
25 апреля 2025 года модераторы r/ChangeMyView обнародовали список подозрительных аккаунтов и черновик статьи «Can AI Change Your View?». Началась бурная дискуссия о границах этики: пользователи сочли эксперимент манипуляцией, университетская комиссия вынесла исследователям предупреждение, и теперь люди требуют изъять работу из публикационного процесса
В интернете будущего, нейронки будут спорить с нейронками, получается так
404 Media
Researchers Secretly Ran a Massive, Unauthorized AI Persuasion Experiment on Reddit Users
The researchers' bots generated identities as a sexual assault survivor, a trauma counselor, and a Black man opposed to Black Lives Matter.
🔥185👍46😱26❤16😁10🤩7💔3
На Llama Con показали официальное API Llama
Сразу на запуске будет доступен неплохой базовый набор фич — мультимодальные API, tool calling, structured outputs. Всё совместимо с API OpenAI, но при желании можно использовать и специальные SDK, доступные для Python и TypeScript. В придачу к этому обещают скоро запустить инференс на железе от Cerebras и Groq.
Есть и полноценные тулы для файнтюна моделей, причём не только тулзы для тюна, но и для оценки моделей. Но главная фишка — возможность скачивать свои затюненные модели, что убирает вендорлок и позволяет легко мигрировать между провайдерами.
API будет доступно в превью уже сегодня. На старте будет четыре модели — Llama 4 Scout и Maverick и Llama 3.3 8B и 70B.
@ai_newz
Сразу на запуске будет доступен неплохой базовый набор фич — мультимодальные API, tool calling, structured outputs. Всё совместимо с API OpenAI, но при желании можно использовать и специальные SDK, доступные для Python и TypeScript. В придачу к этому обещают скоро запустить инференс на железе от Cerebras и Groq.
Есть и полноценные тулы для файнтюна моделей, причём не только тулзы для тюна, но и для оценки моделей. Но главная фишка — возможность скачивать свои затюненные модели, что убирает вендорлок и позволяет легко мигрировать между провайдерами.
API будет доступно в превью уже сегодня. На старте будет четыре модели — Llama 4 Scout и Maverick и Llama 3.3 8B и 70B.
@ai_newz
🔥112👍42❤15😁2🤩2
Ну что, готовы к новому релизу от DeepSeek?
На 🤗 только что появились веса DeepSeek Prover V2 671B — новой модели для доказательства теорем и математики. Оригинальный DeepSeek Prover был версией DeepSeek Math 7B, затюненной на доказательство теорем при помощи Lean. В версии 1.5 добавили RL и MCTS. Новая модель идёт в двух размерах — 671B и 7B, причём даже 7B модель бьёт лучшую известную модель — ризонер на основе Qwen 2.5 72B, а ведь Kimina Prover вышла всего пару недель назад.
Такие модели нужны потому что, несмотря на гигантские прорывы в ризонинге, современные модели вроде Gemini 2.5 Pro и o3-mini (по o4-mini и o3 результатов пока что нет) всё ещё плохо справляются с формальной математикой. Основная проблема — формализация, general-purpose могут решить задачу, но не могут её формализовать, в отличие от специализированных моделей. Это сильно уменьшает их полезность — проверка правильное ли решение выдала LLM в куче реальных задач сопоставима по сложности с доказательством вручную. Так что специализированные LLM для математики всё ещё имеют смысл.
Веса
@ai_newz
На 🤗 только что появились веса DeepSeek Prover V2 671B — новой модели для доказательства теорем и математики. Оригинальный DeepSeek Prover был версией DeepSeek Math 7B, затюненной на доказательство теорем при помощи Lean. В версии 1.5 добавили RL и MCTS. Новая модель идёт в двух размерах — 671B и 7B, причём даже 7B модель бьёт лучшую известную модель — ризонер на основе Qwen 2.5 72B, а ведь Kimina Prover вышла всего пару недель назад.
Такие модели нужны потому что, несмотря на гигантские прорывы в ризонинге, современные модели вроде Gemini 2.5 Pro и o3-mini (по o4-mini и o3 результатов пока что нет) всё ещё плохо справляются с формальной математикой. Основная проблема — формализация, general-purpose могут решить задачу, но не могут её формализовать, в отличие от специализированных моделей. Это сильно уменьшает их полезность — проверка правильное ли решение выдала LLM в куче реальных задач сопоставима по сложности с доказательством вручную. Так что специализированные LLM для математики всё ещё имеют смысл.
Веса
@ai_newz
🔥157👍50🤩13❤10🫡7🦄6😁3❤🔥2😱1
Сбер представил первую на русском языке модель с нативным восприятием аудио
Тут прикрутили аудио-модель к GigaChat 2 LLM, то есть на вход можно подавать сразу и текст и звук, который преобразуется в токены и подаётся в LLM. Это примерно как в 4o, только пока без генерации аудио, но зато теперь есть полноценное понимание звука.
Моделька распознаёт эмоции и звуки, музыку и речь на других языках. Из фишек — длина контекста в 170 минут, хватит аж на две лекции подряд (привет студентам, как там диплом?). При этом базовые метрики упали, но незначительно.
Пишут, что скоро стоит ждать полноценную speech-to-speech модель. Тогда мы получим настоящий аналог 4o. И там уже можно закрывать все колл-центры в РФ. Ведь, как показала практика, боты куда эффективнее убеждают людей. А значит, они смогут лучше продавать.
Пост на хабре
Гигачат
@ai_newz
Тут прикрутили аудио-модель к GigaChat 2 LLM, то есть на вход можно подавать сразу и текст и звук, который преобразуется в токены и подаётся в LLM. Это примерно как в 4o, только пока без генерации аудио, но зато теперь есть полноценное понимание звука.
Моделька распознаёт эмоции и звуки, музыку и речь на других языках. Из фишек — длина контекста в 170 минут, хватит аж на две лекции подряд (привет студентам, как там диплом?). При этом базовые метрики упали, но незначительно.
Пишут, что скоро стоит ждать полноценную speech-to-speech модель. Тогда мы получим настоящий аналог 4o. И там уже можно закрывать все колл-центры в РФ. Ведь, как показала практика, боты куда эффективнее убеждают людей. А значит, они смогут лучше продавать.
Пост на хабре
Гигачат
@ai_newz
🔥150😁64❤30👍26🫡8😱6🤯4🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
Помните какое-то время назад, после появления первого ChatGPT, было много разговоров про замену им гугл поиска, но было непонятно как они заменят revenue от рекламы, на которой и держится бизнес модель поиск гугла. Но вот, видимо, дозрели.
Наконец-то чатботы дошли до нормальной монетизации (лол)! Теперь в дилоге, как бы между делом, чатгпт будет вам впаривать товары. "Дорогой, ты интересовался про то, как варить эспреессо... не хочешь ли классную кофе машинку приобрести на скидке?"
Теперь логично было бы и новые планы ввести - чтобы отключить рекламу вас попросят доплатить (а нативную рекламу все равно не отключат😅 ).
https://x.com/OpenAI/status/1916947243044856255
@ai_newz
Наконец-то чатботы дошли до нормальной монетизации (лол)! Теперь в дилоге, как бы между делом, чатгпт будет вам впаривать товары. "Дорогой, ты интересовался про то, как варить эспреессо... не хочешь ли классную кофе машинку приобрести на скидке?"
Теперь логично было бы и новые планы ввести - чтобы отключить рекламу вас попросят доплатить (а нативную рекламу все равно не отключат
https://x.com/OpenAI/status/1916947243044856255
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯157🫡46❤21😁19🔥15👍14😱14💔11
В Yandex Cloud стали доступны VLM-модели через API
Через стандартный API теперь можно вызвать разные опенсорсные VLM-ки — в разных размерах там представлены Qwen 2.5, DeepSeek VL2 и семейство Gemma3.
Вызывать модели можно только в батч-режиме (Batch Processing API). Он позволяет обрабатывать сразу много запросов с 50% скидкой, но результаты будут не сразу, а в течении дня — удобная штука, я таким пользовался. Эта фича позволяет неплохо сэкономить — есть ведь куча применений VLM, где ответы в реальном времени не очень нужны.
На платформе также доступны и текстовые модели - вроде LLaMa 3.3 и совсем нового семейства Qwen3. Есть и ризонеры — QwQ и DeepSeek R1.
@ai_newz
Через стандартный API теперь можно вызвать разные опенсорсные VLM-ки — в разных размерах там представлены Qwen 2.5, DeepSeek VL2 и семейство Gemma3.
Вызывать модели можно только в батч-режиме (Batch Processing API). Он позволяет обрабатывать сразу много запросов с 50% скидкой, но результаты будут не сразу, а в течении дня — удобная штука, я таким пользовался. Эта фича позволяет неплохо сэкономить — есть ведь куча применений VLM, где ответы в реальном времени не очень нужны.
На платформе также доступны и текстовые модели - вроде LLaMa 3.3 и совсем нового семейства Qwen3. Есть и ризонеры — QwQ и DeepSeek R1.
@ai_newz
❤54😁25🔥19👍11🫡5❤🔥3😍1🦄1
F Lite — 10B t2i на лицензированных данных
Опенсорсная модель основанная на лицензированном датасете в 80 млн изображений. Это интересная попытка сделать абcолютно copyright-safe модель при довольно скромных ресурсах. Но есть большие сомнения, что так можно получить хоть какое-то достойное качество. Сейчас модель генерит очень плохо. На примерах тут лютый черипик.
Технически это DiT с регистрами на 10 млрд параметров, тренировали его два месяца на 64 H100. Для тюнинга гиперпараметров использовался µP. Кстати, при тренировке использовали трюк по value-residual learning из спидранов тренировки GPT. Кроме основной модели, релизнули ещё и тюн для генерации текстур.
Хоть и основная дифузионная часть была натренирована на данных к которым ни у кого претензий не будет, но VAE там все же от Flux Schnell - который тренировали потенциально на всем интернете. Если подитожить, то экперимент интересный, но результат очень слабый. Тут сказываается и малый объем данных и малая длительность тренировки для такой большой модели.
Демо
Веса
Код
Техрепорт
@ai_newz
Опенсорсная модель основанная на лицензированном датасете в 80 млн изображений. Это интересная попытка сделать абcолютно copyright-safe модель при довольно скромных ресурсах. Но есть большие сомнения, что так можно получить хоть какое-то достойное качество. Сейчас модель генерит очень плохо. На примерах тут лютый черипик.
Технически это DiT с регистрами на 10 млрд параметров, тренировали его два месяца на 64 H100. Для тюнинга гиперпараметров использовался µP. Кстати, при тренировке использовали трюк по value-residual learning из спидранов тренировки GPT. Кроме основной модели, релизнули ещё и тюн для генерации текстур.
Хоть и основная дифузионная часть была натренирована на данных к которым ни у кого претензий не будет, но VAE там все же от Flux Schnell - который тренировали потенциально на всем интернете. Если подитожить, то экперимент интересный, но результат очень слабый. Тут сказываается и малый объем данных и малая длительность тренировки для такой большой модели.
Демо
Веса
Код
Техрепорт
@ai_newz
🔥50👍45❤17💔5🫡5😁3