Telegram Web Link
This media is not supported in your browser
VIEW IN TELEGRAM
Когда анекдоты перестают быть анекдотами


Новости технологий: изобретен аппарат автоматического бритья:
- Бросаешь рубль, суешь голову в прорезь
и он тебя автоматически бреет.
- Но ведь у всех разные лица!?!?
- В первый раз да ...


@cgevent
😁106🔥8😱43👎2👍1
Нейропрожарка

Автор: Павел Жигарев | Noizlab
4K версии : 1 и 2
Telegram

🎬 Эксперимент: создание AI-кино трейлеров на open-source модели Flux ⏱️ Срок: 8 недель в совокупности. 💡 Как началось: пришла идея а можно ли сделать «настоящее» КИНО с актерами в их «прайм» форме и без цензуры, Midjourney и все остальные нейронки не позволяли этого из-за цензуры и прав ,да и консистентность от кадра к кадру оставляет желать лучшего .. — поэтому тут было решено - только кастомные решение , только хардкор!. Взял самую сложную задачу: «молодой» Арнольд в образе Конана с полной экипировкой под эстетику 80-х. Так же у меня есть своя “кино” модель Flux обученная на нескольких тысячах кадров из фильмов что сделало картинку более “киношной”


Где было сложно : Ручной inpaint/upscale каждой детали костюма (ремни, бляхи, мех, шнуровка) — чтобы ничего не «плавало». Полировка лица на проблемных кадрах. Без этого консистентность разваливается.
Сделал около 3000 генераций видео чтобы отобрать самые лучшие дубли.. это очень долго и муторно..

🚀 AI Стек:
Prompts - мой ChatGPTs
SwarmUI - Основной Хост.
Finetuned
Flux.dev + Kohya_SS (Dreambooth для finetuning)
ComfyUI - Batch Second Pass Upscale
Editing: Krea
Flux.dev (быстро дешево)
VideoGen - Higgsfield AI, Kling 2.1 start/end. Hailuo-02 (action), Seedance Pro (статика)
Final Cut Pro + Плагины
Face Fusion (полировка лица)
Topazlabs (Upscale 4K)
ElevenLabs - диктор озвучка
Музыка - Custom

Музыка и звук:
Отдельное внимание было к саунду так как в осноном все забивают на это Музыку для обеих роликов писал сам. Более того это был мой первый опыт написания классической и трехмерной мызыки а так же SFX тоже был собран с нуля. Так же классно получилось имплементировать заглавную тему Конана от маэстро Безила Полидуриса.

🎯 Финал:
Не претендую на 100% консистентность, но старался сделать Конана как можно ближе к оригиналу . Этим видео хочется показать: в умелых руках ИИ-инструменты + насмотренность + креативные навыки 12 профессий в одном хе-хе + выдержка дают превосходный результат — шаг к настоящему кино на open-source стеке, от омоложения актёров до возрождения франшиз.
Если интересны подробности о проекте и как AI становится рабочим инструментом, а не генератором мемов — присоединяйтесь мы про ИИ Кино и чуть-чуть про мемы )


@cgevent
🔥113👍3520👎13😁1
Знаю тут многие пользуются Дипсиком.
У них вот такое обновление - DeepSeek-OCR, модель для перевода картинок в текст\маркдаун.
Распознает даже химические формулы и конвертит их в SMILES формат.
- Состоит из 2 компонентов - DeepEncoder (380M) и DeepSeek MoE (3B, 570M активных)
- Нативные разрешения - 512×512, 640x640, 1024x1024, 1280×1280

Распознает картинки с очень низким качеством и большой компрессией.
https://github.com/deepseek-ai/DeepSeek-OCR

@cgevent
🔥67👍85😁2
Reve.art видео?

Reve завезли на Fal.ai и replicate.com, причем в трех ипостасях, генерация, редактирование и ремикс.

Но самое интересное, что в сети упорно ходят слухи, что они готовят свою видео модель:
вертикальный и горизонтальный формат
первый и последний кадр
звук


Зная их команду, стоит ожидать чего-то интересного

@cgevent
25👍12
Media is too big
VIEW IN TELEGRAM
RTFM: A Real-Time Frame Model

Про генерацию миров от WorldLab я уже писал и не раз.

Но тут они выкатили новое интерактивное демо, которое нельзя не попробовать.

Главные фишки: бесконечный контекст(память) и нефотореалистичные "скины".

Для начала, идете сюда и пробуете:
https://rtfm.worldlabs.ai/
Там пока нельзя вгрузить свое изображение, но можно попробовать картинки из библиотеки.
На входе ОДНО изображение и промпт - на выходе - целый мир.

Потом читаете тут:
https://www.worldlabs.ai/blog/rtfm

По мере развития этой технологии становится ясно одно: генеративные модели мира будут требовать очень больших вычислительных ресурсов, гораздо больше, чем современные LLM. Если мы наивно применим современные видеоархитектуры к этой задаче, то для генерации интерактивного 4K-видеопотока со скоростью 60 кадров в секунду потребуется производить более 100 тысяч токенов в секунду (примерно столько же, сколько составляет длина романа «Франкенштейн» или первой книги о Гарри Поттере); чтобы эти генерации сохранялись в течение часового (или дольше) взаимодействия, необходимо обрабатывать контексты, превышающие 100 миллионов токенов. Это невозможно и экономически нецелесообразно с учетом современной вычислительной инфраструктуры.

Но WorldLab сделал так, что RTFM может крутиться на ОДНОЙ H100, обеспечивая интерактивный опыт.
С бесконечным контекстом они придумали интересный трюк: они не запоминают все сгенерированные кадры (экономя память), а лишь углы камеры и метадату плюс "некоторое" количество кадров вокруг текущего ракурса (кеш генераций), при достаточно большой смене ракурса перегенерируют заново.

Модель обрабатывает широкий спектр типов сцен, визуальных стилей и эффектов, включая отражения, полированные поверхности, тени и блики.

На видео в начале каждого плана можно заметить небольшие артефакты, но на общем фоне и с учетом красоты работы это мелочи.

@cgevent
👍22🔥186👎2
This media is not supported in your browser
VIEW IN TELEGRAM
FlashWorld: High-quality 3D Scene Generation within Seconds

А вот интересная опенсорсная ответочка от Хуньяньского на генерацию миров.
Тут правда под капотом гауссианы и качество среднее, но при этом авторы клянуцца, что генерят 3DGS-сцену за 5 секунда на "single GPU", что в 10-100 раз быстрее предыдущих методов.
Для гиков может быть интересно, код есть:
https://imlixinyang.github.io/FlashWorld-Project-Page/

@cgevent
🔥25👍52
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

На этот раз от самого Доброкотова, известного в миру как АI molodtca

Бригада, но это аниме опенинг.

Уже пятый в серии. Делал где-то месяц в свободное от студийных проектов время (и да, пришлось пересмотреть сериал целиком — освежить ключевые моменты).

Звук

Я всегда начинаю с музыкальной темы — она даёт нужную структуру. Поэтому написал черновой текст, через Claude адаптировал на японский и пошёл в Suno. В этом опенинге хотелось сделать именно кавер на оригинальную мелодию (она важна для вайба), поэтому с помощью Cover сделал около 50 версий, пока не нашлась вишенка.

Картинки

Дальше начинается высокофункциональный аутизм — генерация стиллшотов. Благо теперь есть нано банан, абсолютное величие. Без него бы сошёл с ума: делать лоры на каждого персонажа, инпейнтить их в сцены и заниматься другой первобытной дикостью.

В процессе открыл для себя, что бананой довольно удобно итерационно пользоваться не только в нативном чате, но и в нодовой системе — большая часть шотов сделана шаг за шагом в Фиджитал+.

Видео

Если раньше в анимацию могла только Luma 2 (где и делал все прошлые опенинги), то сейчас все модели это умеют. НО — часть моделей (например, Veo-3) превращает 2D в квази 3D. Поэтому если делаете анимацию — ваша остановочка это Minimax 2 и новый Kling 2.5. В последнем сделана бóльшая часть шотов, а кадры с start-end frame — в Минимаксе. Потрачено где-то по 6к кредитов в каждом.

Монтаж

Для личных приколдесов использую платный CapCut. Весёлый и заряженный.

Да вот и всё, жарьте, бандиты! 🐺


@cgevent
🔥140👍3219👎13😁3
Forwarded from Хирон
Интеллектуальная нищета не лечится промтами и курсами

Если при практически неограниченных возможностях общения с ИИ человек всё ещё надеется найти «тот самый волшебный промт», то дело уже не в промтах, а в самом подходе. Это сознательный выбор остаться неконкурентоспособным

Если же человек до сих пор не начал коммуницировать с ИИ, то он либо слишком счастлив и уже поймал дзен, либо недееспособен, либо его восприятие реальности настолько ограничено, что он не осознаёт происходящего

ИИ обучается на миллиардах человеческих текстов и является зеркалом коллективного сознания. Его ответы - отражение мышления вопрошающего. И если это мышление узко, то человек окончательно лишится шансов конкурировать уже через 5-7 лет. Причём он даже не узнает о своей ограниченности - примерно так же, как голубь не узнает, что семечки падают не с неба

Интеллектуальная нищета лечится только осознанием факта, что с неба вообще ничего не падает. Даже семечки

Первая порция пищи для ума и ключ к эффективному союзу с ChatGPT:

🔐 Метод Хирона. Часть 1. «Человеĸ + Исĸусственный Интеллеĸт»

P.S. Любопытство - это хорошо, если знаешь, куда его направить
👎90😁33👍119😱4🔥1🙏1
Forwarded from Psy Eyes
Simulon: приложение для вписывания и анимации 3D моделей в видео с реалистичным освещением и трекингом камеры вышло в публичный доступ. Ранее, когда оно ещё было в привате, я делал обзор.

Обновился интерфейс и теперь есть два подхода к созданию сцен:
* Take-based — каждая видеозапись создаёт свою 3D сцену. Удобно для работы над индивидуальными фрагментами.
* Scene-based — можно делать глобальные правки в конкретной сцене и подгружать дубли как камеры. Подойдёт при работе в мультикам режиме.

Между подходами можно переключаться.

Что ещё нового:
* Глобальный контроль анимации — можно поставить на паузу и сделать её сброс в любой момент. Если начать запись во время паузы, анимация начнётся с 1 кадра, позволяя получить предсказуемый результат.
* Улучшен удалённый авторинг в Блендоре
* Поддержка Alembic (.abc) файлов. Конвертер Simulon позволяет воспроизводить анимации в реальном времени на iPhone.
* Рабочие группы для совместной работы над проектами.

Приложение всё также доступно пока только на iPhone.

Сайт
Приложение
Твит
37🔥15👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Это вам за то, что молитесь...
1😁232🔥26👎129🙏7😱4
This media is not supported in your browser
VIEW IN TELEGRAM
Krea Realtime 14B: Real-Time Video Generation

Довольно любопытный маркетинговый ход от Krea (внимание, это опенсорс).

Смотрите что они сделали:
Krea Realtime 14B получен путем дистилляции из Wan 2.1 14B T2V с использованием Self-Forcing, техники преобразования диффузионных моделей в авторегрессионные модели. Преобразование, а не обучение(дорого), поэтому и дистилляция.

Тут главная фишка в том, что в обычных диффузионных моделях, надо ждать, когда "проявится\расшумится" все видео. А в авторегрессии, можно получать каждый кадр (пачку кадров) прям в процессе и начинать их стримить (подобно выводу текста в чат), не дожидаясь окончания всей генерации.
Как следствие: юзеры могут изменять подсказки в процессе генерации, мгновенно менять стиль видео и просматривать первые кадры за 1 секунду.

С реалтаймом они отчаянно читерят:
11 кадров в секунду на 4 шагах и гроцессоре NVIDIA B200(!).
Заявляя что это САМАЯ большая реалтаймовая модель видео в мире.

Уже можно попробовать на fal.ai (причем также video2video)

Я попробовал (это Wan 2.1, без иллюзий), щас покажу, а пока смотрите сладкия черрипики от Krea и читайте тех отчет тут:
https://www.krea.ai/blog/krea-realtime-14b

Есть код: https://github.com/krea-ai/realtime-video
Модель тут: https://huggingface.co/krea/krea-realtime-video


@cgevent
14👍11😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Krea Realtime 14B: Real-Time Video Generation

Зашел на FAL.AI нашел эту модель и бахнул на все деньки аж 162 секунды видео (10 сек)

Получил довольно унылое следование промпту (это Wan 2.1 - промптить его, то еще удовольствие) и разрешение 838х480.

И ждать пришлось довольно много, по меркам реалтайма.

В общем без иллюзий - это просто дистиллированный WAN 2.1

Стоимость на фале: $0.025 за секунду second. Video seconds are calculated at 16 frames per second.

@cgevent
9👍7👎2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация или видео?

Особенно зловеще она улыбается в конце.

Интересно, кто заказчик всего этого киберпанка?

Когда насмотритесь на голову, обратите внимание, как интересно раскрыта тема сисек.

@cgevent
😁32😱163👍1🔥1
NotebookLM в скором времени будет генерить не только подкасты, но и полноценные презентации со слайдами (сейчас у них как бы видео-презентации).
Тут десятки стартапов взвыли и полегли на дно алого океана.

@cgevent
30😁9👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ-ретоп.

Софт называется Tractive и все что есть от него, это видео и форма приглашения в бету.
Похоже на гибридный подход: как я понял можно редактировать направляющие кривые и получать аптдейт сетки в реальном времени.

https://www.tractive.ai/

Вспомнилось патчевое моделирование лица с помощью NURBS, целая наука была году эдак в 2000...

@cgevent
🔥48👍3😱3👎21
2025/10/23 14:44:07
Back to Top
HTML Embed Code: