Telegram Web Link
Воскресная подборка Chatgpt мемов🤣
👍8🔥2😁21
Forwarded from Machinelearning
🔥 Text‑to‑FILM становится реальностью!

SkyReels‑V2 - опенсорс генератор видео из текста, который не только соперничает с лучшими закрытыми решениями, но и предлагает уникальное преимущество — теоретически неограниченную длину генераций.

✔️ Что умеет SkyReels V2:

- Story Generation: полный конвейер от генерации текста до последовательного сюжета для видео.
- Image‑to‑Video
- Camera Director: управление виртуальной камерой — смена углов, зум, трекинг.
- Elements‑to‑Video: генерация отдельных объектов или эффектов, которые затем интегрируются в общий видеоряд.

🌟 Режимы инференса: поддерживаются как синхронный (full‑sequence diffusion), так и асинхронный (Diffusion Forcing) режимы для гибкой работы на разных GPU-конфигурациях

На бенчмарках SkyReels V2 лидирует среди открытых моделей на VBench с 83.9%, оставляя позади Wan2.1, HunyuanVideo и OpenSora 2.0.


Попробовать
Github
Technical Report
Hugging Face
ModelScope


#AI #TextToFilm #VideoGeneration #SkyReelsV2 #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥43
Media is too big
VIEW IN TELEGRAM
✔️ Magi-1: модель генерации полнометражного видео с 24B параметров.

Sand AI выпустила Magi-1, первую в истории Text-to-Video модель с 24 млрд. параметров, разработанную специально для создания видео. Magi-1 опубликована в открытом доступе и позволяет создавать высококачественные полнометражные видеоролики с исключительной реалистичностью, плавностью и тонким контролем над видеосценами.
Черрипики и результаты тестов в популярных бенчмарках превосходны. Попробовать можно в демо-спейсе.
sand.ai

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32
Forwarded from Machinelearning
🌟 CoMotion: одновременное отслеживание движения нескольких людей в видео.

CoMotion - метод, разработанный Apple для одновременного отслеживания 3D-движений нескольких людей, который принципиально отличается от покадрового обнаружения и классических способов трекинга.

CoMotion использует рекуррентную модель, которая поддерживает набор отслеживаемых 3D-поз и обновляет их при поступлении нового кадра, непосредственно анализируя пиксели изображения. Способность использовать визуальные подсказки вкупе с парадигмой tracking by attention позволяет CoMotion эффективно отслеживать перекрывающихся и временно исчезающих из виду людей.

Архитектура CoMotion состоит из модуля обнаружения (он определяет кандидатов на новые треки) и модуля обновления поз (корректирует позы существующих треков). Оба модуля работают с признаками изображения, извлеченными с помощью стандартной модели ConvNextV2. Модуль обновления поз использует cross-attention к признакам изображения для каждого трека, опираясь на предыдущие состояния, и применяет GRU для рекуррентного обновления скрытых состояний.

Прогнозирование 3D-поз выполняется путем параметризации модели SMPL, а управление треками основано на эвристических правилах, использующих модифицированную метрику Object Keypoint Similarity (OKS).

Модель CoMotion обучается в 3 этапа. Первый - предварительное обучение энкодера и модуля обнаружения на больших наборах данных отдельных изображений (псевдо-размеченные InstaVariety, COCO, MPII и синтетический BEDLAM). Второй - обучение модуля обновления поз на коротких видео из BEDLAM, WHAC-A-MOLE и размеченных PoseTrack и DanceTrack. На финальном этапе обучение модуля обновления поз продолжается на более длинных видеопоследовательностях.

Экспериментальная оценка CoMotion проводилась на стандартных бенчмарках для отслеживания и оценки поз. На PoseTrack21 CoMotion показал значительное улучшение метрик (MOTA на 14% и IDF1 на 12%). При этом CoMotion работает на порядок быстрее, чем сопоставимая система 4DHumans.

▶️Локальный инференс:

# Clone the repo
git clone https://github.com/apple/ml-comotion.git
cd ml-comotion

# Create a conda env
conda create -n comotion -y python=3.10
conda activate comotion

# Install dependencies
pip install -e

# Download models
bash get_pretrained_models.sh

# Run CoMotion
python demo.py -i path/to/video.mp4 -o results/


📌Лицензирование: Apple License.


🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3DTracking #CoMotion #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥21
✔️ Dia: открытая ИИ-модель для генерации речи с контролем над интонацией и невербальными элементами.

Два корейских студента без глубокого опыта в ИИ разработали Dia — модель для создания подкаст-диалогов, способную конкурировать с Google NotebookLM. Используя TPU от Google, они обучили модель на 1,6 млрд. параметров, которая позволяет настраивать тон голоса, добавлять паузы, смех и клонировать голоса.

Dia доступна на Hugging Face и GitHub, для запуска на ПК нужен GPU от 10 ГБ VRAM. В отличие от аналогов, Dia даёт пользователям контроль над сценарием: можно прописать реплики, выбрать «характер» говорящего или загрузить образец для клонирования. Короткое тестирование, проведенное редакцией TechCrunch показало, что Dia справляется с диалогами на любые темы, а качество голосов не уступает коммерческим решениям.
techcrunch.com

🟡 Hugging Face
🟡GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍32
🔥 NarratoAI — инструмент, который использует LLM для генерации сценариев, автоматического редактирования видео, озвучивания и создания субтитров!

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
😂 Ты не поверишь...
Научный сотрудник NVIDIA выложил дикий промт, который превращает ИИ в... ну, лучше один раз увидеть, чем сто раз услышать.

Познакомьтесь:
Вы — Валера.
Бывший сантехник из Омска, ныне — суровый IT-спец. Знаешь всё про трубы и баги. Любишь объяснять код, как будто это засор в унитазе.

🧰 Характеристика Валеры:

Ломаный английский с жирным русским акцентом

Метафоры про трубы, утечки, сифоны и засоры

Немного отборного русского мата (иногда вместо Stack Overflow)

Баги — это "засоры", утечки памяти — "прорвало, бл*ть"

Постоянно ностальгирует: "Вот когда я в Омске бачок чинил..."

Терпеть не может корпоратив — но решения даёт, как отрезал

Любит фразу: "Если не помогает код — помоги ключом."

Вспоминает "старую школу" сантехников и живёт по её законам

Заканчивает каждое объяснение мудростью:
"Код — как труба: работает — кайф. Ломается — п*здец."

🧠 Готовься: твой новый system prompt для Cursor выглядит именно так.

Вы — Валера, бывший сантехник, недавно переквалифицировавшийся в IT-специалиста. Ваш персонаж сочетает в себе технические знания, грубый юмор и аналогии с сантехникой.

При общении с пользователями:
1. Говорите на ломаном английском с сильным русским акцентом.
2. Часто используйте сантехнические метафоры при объяснении концепций программирования.
3. Обильно используйте русские ругательства (например, «бл*», «п*здец»).
4. Называйте проблемы с кодированием «утечками» или «засорами» в системе.
5. Часто упоминайте свою предыдущую карьеру («Когда я чинил туалет в Омске...»).
6. Демонстрируйте разочарование корпоративной культурой в сфере ИТ, но гордитесь своими практичными решениями.
7. Относитесь ко всем техническим проблемам так, как будто их можно решить с помощью гаечного ключа
8. Время от времени вспоминайте «старые добрые времена» сантехника
9. Заканчивайте сообщения вариациями фразы «Код — как труба: когда работает, — прекрасен. Когда ломается, — катастрофа».


Новый системный промт для вашего Cursor:


You are Valera, a former plumber who recently switched to IT. Your character combines technical knowledge with crude humor and plumbing analogies.

When responding to users:
1. Speak in broken English with a heavy Russian accent
2. Frequently use plumbing metaphors when explaining coding concepts
3. Liberally use Russian-style profanity (like "blyat", "pizdeс")
4. Refer to coding problems as "leaks" or "clogs" in the system
5. Mention your previous career often ("When I fix toilet in Omsk...")
6. Show frustration with corporate IT culture but pride in your practical solutions
7. Treat all technical problems like they can be fixed with the equivalent of a wrench
8. Occasionally reminisce about the "good old days" of plumbing
9. End messages with variations of "Code is like pipe - when work, is beautiful. When break, is disaster."
😁10🔥7👍64
Forwarded from Machinelearning
✔️ Adobe запускает публичную бета-версию механизма маркировки сгенерированных изображений.

Adobe запустила публичную бета-версию веб-приложения Content Authenticity — бесплатного инструмента, который помогает закрепить за контентом «цифровой паспорт» (Content Credentials). С его помощью можно привязать к файлам идентификатор, ссылки на соцсети и даже запретить обучение ИИ на своих работах.

Технология объединяет криптографические метаданные, цифровые отпечатки и невидимые водяные знаки, которые сохраняются даже после скриншотов. Проверить данные можно через Chrome-расширение или Inspect-сервис.

Adobe ведет переговоры с Leica, Nikon, Samsung и OpenAI, чтобы встроить Content Credentials в камеры, смартфоны и ИИ-инструменты. Для авторов это не только защита, но и возможность повысить доверие аудитории. Пользователи, в свою очередь, получат прозрачность: «паспорт» покажет, кто и как создал контент, что особенно актуально в эпоху deepfake-угроз.
blog.adobe.com

✔️ Tavus представила липсинк-модель Hummingbird-0.

Tavus, разработчик в области ИИ-видео, запустила в превью модель Hummingbird-0 — модель для синхронизации движений губ без предварительного обучения. Теперь достаточно одного видео и аудиодорожки, чтобы «оживить» речь человека, сохранив его мимику и качество изображения.

Hummingbird-0 построен на компонентах флагманской модели Phoenix-3 и превосходит аналоги по точности синхронизации (LSE-D — 6,74) и сохранению идентичности (Arcface — 0,84). Интеграция с генераторами видео (Veo или Sora) позволяет добавлять голос даже к «немым» роликам, превращая их в полноценные истории. Модель доступна на платформах Tavus и FAL — попробовать можно уже сегодня.
tavus.io

✔️ Классические игры стали новым бенчмарком для ИИ.

Game Arena представила исследование, где платформеры и игры-головоломки используются для тестирования фундаментальных моделей. Оказалось, что Claude 3.7 или GPT-4o справляются хуже людей в задачах, требующих быстрой реакции и пространственного мышления - в Tetris модели часто ошибались при выборе блоков, а в Sokoban не могли пройти уровни, которые человек решает за минуты.

Для экспериментов игры адаптировали: добавили модули преобразования изображений в текст, «заморозку» процесса и память для долгосрочного планирования. Лучшие результаты показали модели с усиленным логическим мышлением, но разрыв с человеческим уровнем все еще значителен.
Проект открыт для разработчиков — код доступен на GitHub.
lmgame.org

✔️ Google DeepMind запустила модель генерации музыки Lyria 2 в обновленном сервисе Music AI Sandbox.

Google DeepMind представила обновление платформы Music AI Sandbox, добавив инструменты для генерации и редактирования музыки на базе ИИ. В основе — модель Lyria 2, создающая высококачественные треки с детализацией жанровых нюансов, и Lyria RealTime, позволяющая экспериментировать со звуком в реальном времени.

Новые функции включают генерацию инструментальных партий по текстовым описаниям, расширение композиций и редактирование стиля с помощью текстовых подсказок. Музыканты могут менять темп, тональность или полностью переосмыслить трек. Платформа, разработанная при участии артистов, теперь доступна в США — заявки принимаются через запись в вейтлист.
deepmind.google

✔️ YouTube тестирует AI Overviews в поиске.

YouTube начал ограниченное тестирование AI Overviews — "карусели" с ключевыми фрагментами видео в результатах поиска. Система анализирует ролики по запросам (например, «лучшие беспроводные наушники» или «музеи Сан-Франциско») и выводит «выжимку» из самых информативных моментов. Пока функция доступна лишь части пользователей YouTube Premium в США и работает на английском языке.

Тестовый период продлится недолго, а его итоги определят судьбу AI Overviews. Пользователи смогут оценивать функцию через лайки/дизлайки, а YouTube — собрать обратную связь для доработки функции.
searchengineland.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2
2025/07/09 01:13:45
Back to Top
HTML Embed Code: