Telegram Web Link
Forwarded from Life2film
Что это за канал и для кого?
Делюсь опытом работы над стартапом SuperDuperAi.co - генератором Ai видеоисторий.
Целюсь сделать из него агента-режиссера для визуализации любой идеи.
Рефлексирую на этом пути, рассказываю новости Ai.
Подробнее

Кто я?
Рустам Салаватов - https://www.linkedin.com/in/rustam-salavatov/
В инстаграм лайфстайл https://instagram.com/life2film
Автор телеграм канала Generative Ai

Я — предприниматель и инженер по искусственному интеллекту, CTO.
10 лет назад LIFE2FILM.com — сервиса для автоматического видео-монтажа и анализа с миллионом пользователей, но сейчас сфокусирован на создание SuperDuperAi.co.
Также работаю CTO в финтех-стартапе Zenpulsar.com

Жили раньше в Башкортостане (РФ), сейчас с семьей живем в Турции (3ий год , получили визу цифрового кочевника), но планирую переезд в США (новости об этом тоже публикую). Моя жена Алина - ведет активно блог про жизнь в Турции @miralinka_life

Также интересуюсь экологией, кино и созданием технологий меняющих мир. Активизм.

Избранные публикации: 
* Как открывали компанию в Делавер, США https://www.tg-me.com/life2film/250
* Как создать своего персонажа https://www.tg-me.com/life2film/390
* Сравнение image2video генераторов https://www.tg-me.com/life2film/389
* Будущее ИИ кино от Бена Аффлека https://www.tg-me.com/life2film/370
* Канал про ИИ фильмы https://www.tg-me.com/life2film/344
* Грант 150.000$ от Майкрасофт для стартапов https://www.tg-me.com/life2film/312
* Про РОСТ и ПРОДАЖИ в стартапе https://www.tg-me.com/life2film/436

Общие темы:
* Что я думаю про фильм Субстанция https://www.tg-me.com/life2film/360
* GPT ассистент для изучения английского https://www.tg-me.com/life2film/346
* Тестирование Junior программистов https://www.tg-me.com/life2film/343
* Как меняется счастье https://www.tg-me.com/life2film/293
* Кто ты NPC или Герой? https://www.tg-me.com/life2film/280 и https://www.tg-me.com/life2film/276

SuperDuperAi посты:

Пример видео для нашего адвайзера https://www.tg-me.com/life2film/367
Пример рождественнсого видео https://www.tg-me.com/life2film/386

Тренировка модели на своих фото https://www.tg-me.com/life2film/411
Статистика по пользователям - 1500 https://www.tg-me.com/life2film/287


А еще специально для подписчиков канала:
Скидка 19$ https://www.tg-me.com/life2film/380


Всегда открыт к общению и сотрудничеству.
Ищу сейчас различные Use-case где полезно использовать мой опыт по работе с генеративным ИИ.
This media is not supported in your browser
VIEW IN TELEGRAM
LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync

Липсинк от ByteDance.
Двигает губы (и челюсть) под звук речи.
Работает по видео.

первое видео на французском - оригинал, второе на английском - липсинк

Код
Демо
ComfyUI
Попробовать на fal.ai (если есть кредиты)

#lipsync #speech2video #video2video
Forwarded from Machinelearning
🖥 nv-ingest - NVIDIA Ingest

NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.

Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.

NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.

После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.

📌GitHub
📌Документация

@ai_machinelearning_big_data

#NVIDIA #parsing #embedding
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Cosmos-1.0-Diffusion: A Suite of Diffusion-based World Foundation Models

NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.

Хронометра; 121 кадр

Позиционируется для разработчиков, в помощь в симуляции мира.

Лицензия на бесплатное коммерческое использование.

Нужно 80GB VRAM

Дают попробовать!
Примеры видео спрятаны в демо

Гитхаб
Веса
Демо

#text2video #image2video #simulation #text2world #image2world
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 TransPixar: генерация видео с прозрачным фоном от Adobe

TransPixar — новый open-source проект, разработанный Adobe, предназначенный для генерации видео с прозрачным фоном. Он построен на основе генератора CogVideoX и позволяет создавать RGBA-видео из текстовых описаний, что особенно полезно для визуальных эффектов и композитинга.


🔗 [GitHub репозиторий](https://github.com/wileewang/TransPixar)
This media is not supported in your browser
VIEW IN TELEGRAM
ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

Оценка позы по изображению и по видео

Код
Веса
Демо по картинке
Демо по видео/картинке
Колаб

#poseestimation #image2pose #video2pose
This media is not supported in your browser
VIEW IN TELEGRAM
Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks

Новое поколение липсинка от Baidu

Работает и с головными уборами.
Анимирует не только лицо но и фон.

Все потому что внутри претрейн Cogvideox-5b-i2v

Код
Веса

#lipsync #talkinghead #humananimation #portraitanimation
🎓 Бесплатный сертифицированный курс по агентам от Hugging Face!


- Понимание агентов: Изучение основ работы AI-агентов, включая восприятие окружающей среды, логические рассуждения и выполнение действий.

- Работа с фреймворками: Освоение популярных инструментов, таких как LangChain, LlamaIndex и smolagents, для создания сложного поведения агентов.

- Реальные приложения: Примеры использования агентов для автоматизации SQL-запросов, генерации кода и суммаризации сложных документов.

- Сертификация: Получение сертификата после завершения курса, реализации практического кейса и прохождения итоговой оценки.

Курс предназначен для разработчиков, дата-сайентистов и всех, кто интересуется будущим AI. Начало курса запланировано на февраль.

🔗 [Записаться на курс](https://bit.ly/hf-learn-agents)
Forwarded from Machinelearning
🖥 Google опубликовали один из лучших официальных гайдов по ИИ-агентам. И его действительно стоит прочитать.

В нем содержится все, что вам нужно знать:
> Описание агентов, компонентов и когнитивных архитектур.
> Разобраны инструменты по работе с агентами: расширения, написании функций и хранилища данных.
> Описываются методы обучения для повышения производительности агентов.
> Описываются методы создания агентов с использованием LangChain и LangGraph

Читать гайд

@ai_machinelearning_big_data


#aiagents #ai #llm #ml #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 DeepSeek-R1 и DeepSeek-R1-Zero

Как было сказано ранее, модели от китайских исследователей выложены в открытый доступ и показывают результаты на уровне o1.

🔸 Например, в отчете пишут, что модель пробивает рейтинг в 2000 на Codeforces (хорошие соревнования по программированию с довольно сложными задачками), это лучше 96% участников.

🔸 Локальный запуск: запустить эти модели будет непросто из-за их размера, поэтому авторы сделали ряд моделей поменьше, используя дистилляцию. От 1.5B до 70B.

🔸 Попробовать: полная R1 доступна на официальном сайте в режиме DeepThink.

🔸 Приложение: мобильное приложение работает бесплатно, ссылки есть тут.

🔸 Мини-обзор: https://hfday.ru/u/2501.12948.html
Forwarded from Data Secrets
Media is too big
VIEW IN TELEGRAM
Пока OpenAI начинают раскатывать Operator на Pro юзеров (похоже релиз действительно будет сегодня вечером!), китайская ByteDance подгадала момент и выкатила своего такого же агента в опенсорс

Он называется UI-TARS и вышел под лицензией Apache 2.0 (репозиторий). Основан агент на VLM (есть варианты на 2B, 7B и 72B, вот тут веса), на вход принимает картинки аля кадры экрана, а на выход генерирует человекоподобные действия, то есть движения мыши или нажатия на клавиатуру.

Самое интересное: в агенте есть ризонинг! Его обучали как на простых "интуитивных" сценариях, так и на CoT, так что для сложных задач он может поключать размышление и какое-то подобие планирования. Датасеты там, конечно, огромные, и собранные самими ByteDance.

На бенчмарках выглядит ничего. Учитывая, что Operator, вероятно, будет доступен только за 200 долларов, довольно приятный релиз.

Статья здесь
Forwarded from Борис опять
Админ трогал траву как не в себя, но наконец добрался рассказать вам про самую поразительную работу за 2024.

Я считаю, что про неё недостаточно говорят, а про решателей шокльной математики (o1/o3) и агентов слишком много. Ваша любимая 400b VLM плохо рисует bounding boxes, а эта 770m шутка делает их отлично хоть на CPU. При этом VLM обучалась на немыслимом количестве данных, а у этой штуки было меньше примеров, чем у CLIP. Да что далеко ходить: у меня друг делает стартап по CV, мы с ним обсуждали эту модель, он её попробовал и перестал обучать свои YOLO детекторы: потому что эта штука просто работает. Причем несмотря на необходимость обнаруживать строительные машины на фотографиях с плохих камер в родной атмосфере слякоти и грязи.

#обзор_статьи
# Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Скачивайте и играйтесь на HF.

Что если я скажу, что есть модель, которая умеет хорошо делать Zero-Shot детекцию, сегментацию, captioning и OCR? Что при этом её можно промптить, например требуя найти на картинке всех собак или сделать сегментацию объекта внутри ббокса? Вы наверное подумаете, что это новая огромная VLM. Но нет, эта модель размером всего 770M, то есть как большой ViT. Можно запускать хоть на CPU. Более того, её можно дообучать, в том числе легко сделать из неё supervised детектор прикрутив ей свою любимую голову, скажем от DETR.

В Computer Vision у всех комплексы по поводу foundational models. Мы завидуем ребятам из NLP. Стало модно выпускать большие модели и говорить: "теперь у нас тоже фаундейшнл!" Однако что такого foundational, скажем, в Segment Anything? Это просто сегментатор обученный на большом количестве качественной синтетики. В моем понимании foundational это когда ты в свободной форме даешь модели любую задачу и она её решает, как GPT-4o, а не когда тебе нужно определенным образом зампромптить модель, чтобы получить решение задачи сегментации.

Florence-2 это первая модель в CV которую я действительно готов назвать foundational. С одной стороны из-за её широкой полезности, так как она позволяет решать все популярные задачи в CV. Но так же из-за того, каким образом она сделала. Минимум костылей, как вы сейчас увидите.

Перейдем к сути, благо статья простая и благодаря этому очень красивая. Авторы рассуждают последовательно.

Чего мы хотим от универсальной CV модели?
1. Image-level understanding: понимание высокоуровневой семантики. Например, на картинке кошка или собака? Можно так же сказать, что это способность связать изображение и текстовое описание. Эту задачу отлично решает CLIP.
2. Region/pixel-level recognition: обнаружение объектов на изображениях и понимание их расположения. С этим отлично справляются supervised классификаторы, детекторы и сегментаторы.
3. Fine-grained visual-semantic alignment: связь между областями изображения, в том числе совсем маленькими, и текстом. Обнаружение частей изображений которые относятся к фразам, объектам, атрибутам и отношениям. Это способность обнаружить и отличить "нос собаки", "нос собаки слева", "нос рыжей собаки", "коричневый нос собаки" и так далее.

Когда желания определены дело за малым: выбрать данные, функцию ошибки и архитектуру. Через эти компоненты мы по факту формируем оптимизационную задачу.

Авторы решили, что для получения трех компонент понимания изображений нужно много разных аннотаций, которые можно распределить по двум осям:
1. Spatial hierarchy: аннотации должны включать разные масштабы изображений, чтобы модели требовалось понимание и на уровне изображения, и на уровне пикселей.
2. Semantic granularity: в текстах (описаниях, промптах, лейблах) должны встречаться разные уровни абстракции, требующие от модели как понимания общих концептов, так и небольших деталей и нюансов.
В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
Forwarded from эйай ньюз
OpenAI выпустили o3-mini - бесплатно

Лимиты бесплатным пользователям пока непонятные, Pro подписчикам дают безлимит, Team и Pro - 150 сообщений в день. Также к o3-mini, в качестве эксперимента, прикрутили поиск.

Модель доступна одновременно как и в чате так и в API, куда добавили поддержку function calling и structured output для этой модели. Цену скинули в три раза - стоит новая модель $1.10/$4.40 за миллион токенов, что лишь немногим дороже R1 с официального API (и дешевле многих неофициальных).

У новой модели есть три режима работы:
(1) быстрый режим low compute,
(2) обходящий o1-mini режим medium (всё равно на 24% быстрее),
(3) и опережающий o1 на большинстве бенчей, более медленный режим high compute.

Есть и нюансы - как и оригинальная o1-mini, o3-mini не поддерживает мультимодальный ввод, а одну из требующих агентности задач модель полностью провалила - использовала bash вместо питона не смотря на все попытки уговорить её это не делать.

Модель очень интересная, классно что бесплатным пользователям наконец-то дали reasoning модель. Ощущается как OpenAI задвигались, когда появилась конкуренция - и цены сбрасывают, и доступ бесплатным юзерам дают, и поиск прикручивают.

@ai_newz
🦢 Goose: автономный AI-агент для автоматизации инженерных задач

Goose — это локально работающий AI-ассистент для программистов, способный автономно выполнять сложные задачи: от отладки до деплоя. Инструмент гибко настраивается, поддерживает кастомные LLM-модели и интеграцию с внешними API.

### 🔹 Возможности:
- Локальный запуск — все вычисления выполняются на вашей машине
- Автономность — сам справляется с разными инженерными задачами
- Расширяемость — можно подключать свои модели и API
- Открытый исходный код — настраивайте и модифицируйте под себя

### Применение:
✔️ Генерация и исправление кода
✔️ Автоматизация тестирования и отладки
✔️ Создание API-запросов и документации
✔️ Интеграция с CI/CD

📌 Репозиторий: [github.com/block/goose](https://github.com/block/goose)
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Разрабы запустили бесплатный аналог OpenAI Operator!
Называется он - Browser Use.

Новый ИИ-агент в открытом доступе на GitHub:
▸ Автоматизирует задачи по одному запросу, как у OpenAI
▸ Работает с ChatGPT-4o, Claude 3, Deepseek-R1
▸ Бесплатно + доступ в РФ.

На первый взгляд выглядит круто, но больше подойдёт для программистов/кодеров, для обычных людей может поставить напоминания в календарик не более.
А прогуглить мы и сами можем 😄

Качайте тут, если заинтересовало пишите че как ⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Хочешь узнать, как нейросети могут улучшить твою жизнь?🔥

Меня зовут Влад, я — AI-маркетолог. В своём Telegram-канале простым языком рассказываю о нейросетях и о том, как правильно писать промпты. В моём канале ты найдёшь:

✔️Реальные кейсы внедрения AI: Узнай, как компании используют нейросети для автоматизации задач и повышения эффективности.

✔️Обзоры топовых AI-инструментов: Открой для себя лучшие решения для анализа данных, прогнозирования спроса и улучшения клиентского сервиса.

✔️Пошаговые гайды по интеграции нейросетей: Получай подробные инструкции по внедрению AI в твои бизнес-процессы.

Почему это важно?

Внедрение нейросетей помогает:

Автоматизировать рутинные задачи: Сократи время на выполнение однообразных операций и сосредоточься на стратегических задачах.

Улучшить обслуживание клиентов: Используй AI для персонализации предложений и быстрого реагирования на запросы клиентов.

Принимать обоснованные решения: Анализируй большие объемы данных и получай инсайты для развития бизнеса.

Не упусти шанс быть впереди конкурентов!
Подписывайся прямо сейчас!

🔗 Лямин о нейросетях
This media is not supported in your browser
VIEW IN TELEGRAM
Lumina-Video-f24R960

Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту

#text2video #text2audio #multimodal
Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
🗣 Стартап Zyphra выпустил модель для клонирования голоса.

Бесплатная бета-версия Zonos обещает мгновенное клонирование, безупречное качество и полный контроль над звучанием.

— Для этого нужно загрузить фрагмент длиной от 10 до 30 секунд или записать аудио.
— Есть настройка скорости речи, высоты тона, частоты и эмоций.
— Может скопировать голос с записи на русском языке, но пока не озвучивает русскоязычный текст.

• Попробовать
• Github

#neural #нейросети

@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Адель и МЛь
Сэм Альтман рассказал о дальнейших планах OpenAI.

Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.

Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.

GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).

GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
2025/07/06 06:35:14
Back to Top
HTML Embed Code: