Telegram Web Link
7👍5
😱15👍71
🔥134👍2
😱31😁9👍5🔥3👎21
This media is not supported in your browser
VIEW IN TELEGRAM
Бен Хоровиц (a16z) рассказывает, что один его знаменитый друг из Голливуда сказал ему, что половина фильма, которые они снимают, создается с помощью искусственного интеллекта.

Он делает упор на том, что это снижает стоимость производства фильмов, и когда создание фильмов станет достаточно дешевым, могут появиться совершенно новые средства массовой информации.

А пока, говорит он, Голливуд только возмущается "мы все останемся без работы".

@cgevent
1😁27👍73🔥2😱2
Ну и, кстати, про ИИ-фильмы.

Илон, наш, Маск, бахнул твит о том, что "Grok снимет фильм, который будет хотя бы смотрибельным, до конца следующего года (2026), а действительно хорошие фильмы — в 2027 году."

Более того, он пообещал, что Grok сделает полностью генеративную игру в своей студии xAI, к концу 2026 года.

А еще он делает Грокипедию: это когда Грок берет все страницы Википедии и тестирует их на факт-чекинг, предубеждения и просто вымысел. И пишет свою. Тут у меня только один вопрос: галлюционируют все, и кожаные, и ИИ, где гарантия что в Грикипедии будет меньше галлюцинаций, чем в Википедии?

А еще вышел апдейт Гроковского видеогенератора(image2video) Imagine до версии 0.9. Доступен в приложении Х.
На всяких аниме и киберпанках, выглядит прельстиво.

@cgevent
🔥24😁16👍124👎2
Утечки из Runway

Они в коммуникациях стали употреблять слово workflow.

Похоже скоро все будем есть лапшу, а комфиюайщики будут, как цари на рынке.

Нодовые системы много лет заходят в массы и никак не зайдут.

@cgevent
407🔥16👍92👎1😁1
Sora 2 и Sora 2 Pro раскатали везде, через API

Уже есть на Krea(только платникам), на Хиггсе, и я только что проверил, на Fal.ai

Любопытно, что на Фал можно ввести свой OpenAI ключ, тогда списывать с вас будет OpenAI, а не Фал.

Но цены на Фал такие же.

1080 и 720, 16:9 и 9:16, а длина видео 4, 8, 12 секунд, как везде, через API.
Можно грузить картинку как первый кадр.

@cgevent
👍73
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

Клип от Димы Киселева

Идея клипа пришла в процессе - надо было сделать раскадровку для реального музыкального видео и я решил закинуть сюжет в Сору2, чтобы подсмотреть кадры, операторские приемы и ракурсы. Сгенерил около 10 разных видео, начал отсматривать и в одном из предложенных вариантов мне понравилась музыкальная фраза и строчка "Can't Be Still". Закинул эту строчку и кусок музыки сгенеренной Сорой в Суно, там же сгенерил остальной текст, немного повозился с настройками и получился вот такой трек. Проверил на "экспертах" - сказали, что скорее всего это в слив нового трека Канье Уэста )))
Собрал все быстренько в давинчи, накинул сверху зерно и там же выставил апскейл. Не хотел заморачиваться с вычищением вотермарка и нормальным апскейлом, так как это совсем не для продакшена.
На все ушло около двух часов.
По деньгам - про подписка на GPT и на Сору. (15$+6$), ну и мое бесценное время )
Выводы делать не буду, но то, как это все развивается меня очень вдохновляет.


@cgevent
👎36👍265🔥5😱2
Что происходит в LLM. Октябрь 2025

Несмотря на то, что LLM — главный хайп последних 2 лет, вокруг больших моделей остаётся много путаницы и заблуждений. Чем отличаются модели? Надо ли доучивать модель? Хостить или ходить по API? На что можно рассчитывать при построении агента или RAG-системы? Почему у кого-то работают RAG и агенты, а кто-то вовсе в них разочаровался?

Deepschool ответит на эти и другие вопросы на онлайн-лекции в четверг! За полтора часа вы получите актуальный срез индустрии вокруг LLM:
— актуальные модели и их свойства
— бенчмарки
— self-host VS API
— типы задач
— главные «болячки» ванильных решений
— и актуальные советы по их лечению

Спикер — Дмитрий Калашников, NLP Team Lead в Яндексе🔥

А ещё расскажут про курс «LLM», где объяснят теорию LLM, научат промптингу, дообучению, элайменту, построению RAG, агентских-систем и деплою — всё под кураторством опытных инженеров.

Всем участникам лекции подарят скидки на обучение 🎁

Подключайтесь в четверг, 9 октября в 18:30 МСК!

Регистрируйтесь по ссылке и приходите на лекцию в четверг!
👎23👍5
Forwarded from Psy Eyes
Замена персонажа в существующем видео с сохранением липсинка и освещения.

Локально на 5090 в Comfy с помощью Wan Animate. На первое видео разрешением 1024х576 в 4 шага ушёл 1 час, на второе 35 мин.

А Sora так может?

Твит
1👍54😁12👎7🔥4😱42
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
У проекта Neuralink по внедрению чипов в голову уже 12 пациентов, и даже у самого первого всё в порядке, сигналы считываются, соединение работает.

9й пациент выложил видео, на котором он, при помощи команды Neuralink, учится управлять робо-рукой для взаимодействия с реальным миром. Пациент парализован ниже шеи уже много лет, и для него это невероятная возможность вернуть себе хотя бы частичку автономии.

Вот что он пишет:
— Я впервые за много лет сам надел шляпу! Сам разогрел себе куриные наггетсы в микроволновке и сам поел! Я научился открывать холодильник и снимать и надевать крышки на банках! Мне даже дали попробовать медленно управлять своей инвалидной коляской внутри помещения. У меня отлично получилось! Также я установил новые рекорды (пока что) по перемещению наибольшего количества цилиндров на столе за 5 минут (39 штук) и по наибольшему количеству воткнутых в отверстия колышков в тесте на ловкость (обычно используется для пациентов после инсульта) за 5 минут (5 штук).

Прогресс поражает, а ведь скоро можно будет подключиться и управлять своим гуманоидным роботом или даже домашним флотом 😳
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍92🔥4019👎3😱1
Инференс на линзах, а не на чипах.

Подводка


Три года назад мы лихо считали картинки в Stable Diffusion 1.5 на своем железе (4-8 GB VRAM). Без всяких квантизаций, дистилляций и пр. Прошло три года и аппетиты генераторов выросли в 10-20 раз. Вон HunyuanImage 3.0 просит 320 гигов видеопамяти, а все видеогенераторы с непожатыми весами тоже просят около 60-80 Гигов VRAM. Видеокарты, которые можно купить домой просто не поспевают за такими аппетитами. Железо развивается медленнее, чем аппетиты генераторов.

Компромиссы: считать в облаке (как делаю я) или искать и ставить пожатые веса(компромисс по качеству). Невольно возникает вопрос, а можно ли как-то "удешевить" инференс, то есть просчет картинок и видео.

И тут я наткнулся на интереснейшую статью в Nature

Исследователи из UCLA показали альтернативный путь — делать инференс… светом. В их работе оптические генеративные модели создают новые изображения практически без цифровых вычислений во время генерации.

Совсем коротко: модель для генерации картинок тренируется как обычно, в цифре и на чипах, а вот просчет картинок(инференс) происходит на аналоговом устройстве (свет, линзы, фазовые пластины/SLM). Быстро, без затрат на электричество, без требований к VRAM и пр.

Чуть подробнее


Небольшой цифровой энкодер быстро переводит случайный шум в фазовые узоры — «оптические сиды (optical seeds)»
Далее вступает в игру дифракционный декодер — оптическая система в свободном пространстве (свет, линзы, фазовые пластины/SLM). Он аналогово преобразует свет и формирует новое изображение, соответствующее целевому распределению данных.
Во время самой генерации процессор не считает: нужна только подсветка и заранее полученный seed. Энергия тратится на свет, а не на математику.

А теперь нудно и долго

1. Подготовка seeds. Энкодер (пара неглубоких полносвязных слоёв) берёт 2D-гауссов шум и переводит его в фазовые карты. Эти карты отображаются на пространственном светомодуляторе (SLM).
2. Оптический декодер. Свет, проходя через оптимизированный дифракционный декодер, «проецирует» итоговое изображение на сенсор. Собственно оптическая часть занимает меньше наносекунды; узкое место — скорость обновления SLM.
3. Обучение. Сначала обучается «учитель» — цифровая диффузионная модель (DDPM). Она генерирует пары «шум–картинка», которыми совместно обучают и фазовый энкодер, и оптический декодер. После обучения декодер фиксируется, а для разных датасетов можно просто менять сиды и конфигурацию декодера.

Что получилось в экспериментах

Команда показала оптическую генерацию монохромных и цветных изображений из разных распределений: MNIST, Fashion-MNIST, Butterflies-100, CelebA, картины Ван Гога. Качество сопоставимо с цифровыми генераторами по метрикам IS/FID, а демонстрационный стенд работал в видимом диапазоне длин волн.

Ограничения
Железо диктует пределы. Скорость, разрешение и стабильность зависят от SLM, качества оптики и юстировки.
Обучение всё ещё цифровое. Чтобы построить оптический генератор, нужен цифровой «учитель» и вычислительные ресурсы на этапе тренировки.
Расширение за пределы изображений. Концепция обещает вывод и для видео/аудио/3D, но такие демонстрации — дело будущих работ.

Итого:

Исследователи показали, что генеративные модели можно вынести из чипов в оптику: свет, дифракция и фазовые элементы берут на себя большую часть «вычислений» на этапе генерации, обеспечивая быстрый и экономный инференс при качестве, сравнимом с цифровыми моделями. Это не «конец GPU», но сильная заявка на гибридные системы, где обучение остаётся цифровым, а инференс становится фотонным.

https://www.nature.com/articles/s41586-025-09446-5

@cgevent
1🔥6717😱13👍11
Похоже Agent Builder от OpenAI не тянет на конкурента n8n и make
⬇️⬇️⬇️⬇️⬇️⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10👍4😱41
Forwarded from AI Product | Igor Akimov
Попробовал Agent Builder и ChatKit от OpenAI. Нда, на революцию и доступный AI как-то не тянет. Скорее интерфейс для разработчиков, как -то дать менеджерам подвигать блоки и почувствовать себя важным. А на самом деле зарываешься в разработку и отладку даже глубже, чем если бы просто кодом написал.
Зацените вот гайд по публикации:
https://platform.openai.com/docs/guides/chatkit
- Сгенерируй токен на твоем сервере
- Запихни в эндпойнт
- Установи компонент
- Добавь JS script на страничку
- Отобрази UI на странице.
👍11😁111
Forwarded from Квест Теория Каст и Ролей (Алексей Крол)
Потратил часов 5 на Agent Builder от OpenAI. Создал аналог GTPs Мясник, но со своим интерфейсом.

Как аналог-убийца n8n/make это, конечно, смешно. 😂Все заточено под интеграцию в фронт. Я слепил простой фронт с чатом, пришлось поипаться, потому что фронт оказался чувствительным к архитектуре агента (чего быт не должно).

Сначала с фронтом много работы (благо работает Claude Code), но потом с самим агентом начинаются стандартные проблемы.

В общем пока это, как в n8n, только там через интеграции, а здесь через MCP, ну и сервиса, конечно 0. Пока это не очень себе продукт.

Скорее хотят потестировать отклики сообщества.

В целом, в общем не очень, потому что сложные структуры бизнес логики в n8n/make/zaper делать в 1000 раз удобней + бридж с любым фронтом через API/Webhook или любые триггеры - и никакого гемора с сложным протоколом. Пока бизнес логику для прода на этом строить сомнительно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍367👎3
Sora 2 Prompting Guide

Официальное руководство по промптингу Sora 2 от Open AI

Схема такая:

— Общая сцена и описание:

— опишите сцену простым языком;

— укажите персонажей, костюмы, декорации, погоду и другие детали;

— будьте настолько подробны, насколько это необходимо для создания видео, соответствующего вашему видению.

— Кинематография:

— ракурс и угол съёмки: укажите, например, «общий план, уровень глаз» или «крупный план, небольшой наклон сзади»;

— настроение: определите общий тон, например, «кинематографично и напряжённо», «игриво и с напряжением», «роскошное ожидание»;

— объектив и фильтрация: можно указать тип объектива и фильтры, например, «32 мм / 50 мм сферические объективы, лёгкий CPL-фильтр»;

— освещение и палитра: опишите качество света и основные цвета, например, «мягкий свет из окна с тёплым заполняющим светом от лампы и холодным отблеском из коридора».

— Действия:

— перечислите чёткие, конкретные действия или жесты в виде списка;

— старайтесь описывать действия в виде отдельных моментов или отсчётов, чтобы они были привязаны ко времени.

— Диалог:

— если в кадре есть диалог, добавьте короткие естественные реплики;

— сохраняйте краткость, чтобы реплики соответствовали длительности клипа.

— Фоновые звуки:

— опишите фоновые звуки, которые помогут задать ритм или атмосферу;

— например, «гул кофемашин и шёпот голосов» или «хруст бумаги и шаги».

Пример структуры:

[Описание сцены: персонажи, костюмы, обстановка и т. д.]

Cinematography:
Camera shot: [ракурс и угол, например, общий план, уровень глаз]
Mood: [общее настроение, например, кинематографично и напряжённо]
Lens: [тип объектива и фильтрация, например, 35 мм виртуальный объектив]
Lighting: [описание освещения и палитры, например, тёплый ключевой свет]

Actions:
- [Действие 1: чёткое, конкретное движение или жест]
- [Действие 2: следующее действие или реплика]
- [Действие 3: ещё одно действие или деталь]

Dialogue:
[Короткие реплики, если они есть в сцене]

Background Sound:
[Описание фоновых звуков, например, дождь, тиканье часов, гул машин]


#prompting #instruction
46👍21😁1🙏1
2025/10/26 06:13:46
Back to Top
HTML Embed Code: