Трекинг-костюм больше не нужен
Зацените, что может Move AI Gen 2. Трекает действительно очень точно — ну, по крайней мере, на глаз. Может захватить команду футболистов, да ещё и на большом расстоянии.
Вот полный список того, что можно затрекать:
— 3D motion capture
— full-body dynamics
— joint torques
— ground reaction forces
— advanced motion retargeting
— motion prediction
И всё это работает с одной камеры. Ну или с нескольких — для большей точности. В первой версии был реалтайм-режим, так что, скорее всего, и здесь будет. Представьте, как весело актёрам: играешь Годзиллу и в реальном времени видишь себя, крушащего здания на экране, ведь всё это ещё цепляется к Unreal Engine 5.
На сайте можно попробовать самому — дают 30 кредитов на 30 секунд видео. Пока только для первой версии, но даже она справилась с моим бенчмарком. Подписка, правда, какая-то убер-дорогая: $15 за 180 кредитов. Хотя, может, для анимаций в играх хватит.
Стартап совсем не раскрывает своих секретов, ни намёка. Но думаю, скоро такие штуки появятся и в опенсорсе — вот тогда будет весело. Особенно для всяких видео-генераторов.
@ai_newz
Зацените, что может Move AI Gen 2. Трекает действительно очень точно — ну, по крайней мере, на глаз. Может захватить команду футболистов, да ещё и на большом расстоянии.
Вот полный список того, что можно затрекать:
— 3D motion capture
— full-body dynamics
— joint torques
— ground reaction forces
— advanced motion retargeting
— motion prediction
И всё это работает с одной камеры. Ну или с нескольких — для большей точности. В первой версии был реалтайм-режим, так что, скорее всего, и здесь будет. Представьте, как весело актёрам: играешь Годзиллу и в реальном времени видишь себя, крушащего здания на экране, ведь всё это ещё цепляется к Unreal Engine 5.
На сайте можно попробовать самому — дают 30 кредитов на 30 секунд видео. Пока только для первой версии, но даже она справилась с моим бенчмарком. Подписка, правда, какая-то убер-дорогая: $15 за 180 кредитов. Хотя, может, для анимаций в играх хватит.
Стартап совсем не раскрывает своих секретов, ни намёка. Но думаю, скоро такие штуки появятся и в опенсорсе — вот тогда будет весело. Особенно для всяких видео-генераторов.
@ai_newz
👍133🔥95🤯26❤14⚡3😁2
Mistral Small обновили
Mistral Small 3.1 обгоняет Gemma 3 по большинству бенчей, с особенно большим отрывом на мультимодальных бенчах. Да и с закрытыми дешёвыми моделями она хороша себя показывает — по мультимодальности Mistral Small рвёт 4o-mini и Haiku 3.5, но отстаёт от Flash 2.0. С текстом всё тоже неплохо, но разрыв с 4o-mini и Haiku 3.5 значительно меньше, а от Gemini модель по прежнему отстаёт.
Модель быстрая — API выдаёт 150 токенов в секунду — быстрее лишь Command A от Cohere и 2.0 Flash. Что ещё важно — лицензия у них Apache 2.0, что означает полную свободу делать что угодно с моделью. У той же Gemma 3 лицензия вирусная — под неё подпадают не только тюны, но и модели которые научили на основе данных из Gemma, что может стать проблемой.
@ai_newz
Mistral Small 3.1 обгоняет Gemma 3 по большинству бенчей, с особенно большим отрывом на мультимодальных бенчах. Да и с закрытыми дешёвыми моделями она хороша себя показывает — по мультимодальности Mistral Small рвёт 4o-mini и Haiku 3.5, но отстаёт от Flash 2.0. С текстом всё тоже неплохо, но разрыв с 4o-mini и Haiku 3.5 значительно меньше, а от Gemini модель по прежнему отстаёт.
Модель быстрая — API выдаёт 150 токенов в секунду — быстрее лишь Command A от Cohere и 2.0 Flash. Что ещё важно — лицензия у них Apache 2.0, что означает полную свободу делать что угодно с моделью. У той же Gemma 3 лицензия вирусная — под неё подпадают не только тюны, но и модели которые научили на основе данных из Gemma, что может стать проблемой.
@ai_newz
1🔥87👍35❤9❤🔥4😁1🦄1
Blackwell Ultra — новые GPU от Nvidia
В новые GB300 докинули памяти до 288 гигабайт, а компьют увеличили в полтора раза — с 10 Dense FP4 петафлопс в GB200, до 15 в GB300. Новые инструкции для аттеншна в два раза быстрее чем аттеншн на оригинальном Blackwell, ждём вайтпейпера с деталями. Пропускную способность памяти вроде не тронули, но изменений за год и так более чем достаточно.
На основе GB300 будут и новые сервера — GB300 NVL72 и HGX B300 NVL16. В новом NVL72 теперь будет 20 терабайт видеопамяти, плюс 40 терабайт LPDDR5X, которые напрямую доступны GPU. Про цену ничего не сказали, но она явно выше 3 миллионов за GB200 NVL72.
@ai_newz
В новые GB300 докинули памяти до 288 гигабайт, а компьют увеличили в полтора раза — с 10 Dense FP4 петафлопс в GB200, до 15 в GB300. Новые инструкции для аттеншна в два раза быстрее чем аттеншн на оригинальном Blackwell, ждём вайтпейпера с деталями. Пропускную способность памяти вроде не тронули, но изменений за год и так более чем достаточно.
На основе GB300 будут и новые сервера — GB300 NVL72 и HGX B300 NVL16. В новом NVL72 теперь будет 20 терабайт видеопамяти, плюс 40 терабайт LPDDR5X, которые напрямую доступны GPU. Про цену ничего не сказали, но она явно выше 3 миллионов за GB200 NVL72.
@ai_newz
🤯161👍40🔥21❤11🦄3😁1
Pika тизерят очередную фичу: v2v.
На сей раз это что-то очень похожее на то, что делает наш MovieGen. Закидываешь в нейронку свой видос, текстом задаёшь, какие изменения или эффекты хочешь увидеть, и на выходе получаешь ролик с VFX. . Выглядит прикольно, но на практике наверняка будут вылезать артефакты. У Pika модели всё же послабее, чем у текущих лидеров — Kling и Luma, не говоря уже про Veo 2. Но для каких-нибудь приколов пойдет.
Мне нравится вектор развития Pika. Они уже зарелизили кучу прикольных инструментов, которые пока никто не повторил. Они, кажется, первыми придумали пресеты с нейроэффектами и ввели видеоэффекты типа Pikaditions, позволяющие вставлять в ролики новых персонажей или предметы просто по картинке. Пока им остаётся подтянуть качество базовой модели — и получится по-настоящему мощный продукт.
@ai_newz
На сей раз это что-то очень похожее на то, что делает наш MovieGen. Закидываешь в нейронку свой видос, текстом задаёшь, какие изменения или эффекты хочешь увидеть, и на выходе получаешь ролик с VFX. . Выглядит прикольно, но на практике наверняка будут вылезать артефакты. У Pika модели всё же послабее, чем у текущих лидеров — Kling и Luma, не говоря уже про Veo 2. Но для каких-нибудь приколов пойдет.
Мне нравится вектор развития Pika. Они уже зарелизили кучу прикольных инструментов, которые пока никто не повторил. Они, кажется, первыми придумали пресеты с нейроэффектами и ввели видеоэффекты типа Pikaditions, позволяющие вставлять в ролики новых персонажей или предметы просто по картинке. Пока им остаётся подтянуть качество базовой модели — и получится по-настоящему мощный продукт.
@ai_newz
53🔥97👍34❤21😁2🤩2🫡1
Нейродайджест за неделю (#61)
LLM
- Mistral Small 3.1 — небольшой апдейт, по уровню чуть выше, чем Gemma 3, но с лицензией Apache 2.0.
Генеративные модели
- Move AI Gen 2 — motion tracking без спецкостюма. Работает с одной камеры и может захватить целое футбольное поле.
- Pika v2v — редактируем видео по текстовому запросу. Такое раньше мог только наш закрытый MovieGen, ну а здесь можно подергать самому. Правда, Pika традиционно с горсткой артефактов.
Железо
- Blackwell Ultra — новые GPU от Nvidia в полтора раза мощнее предшественников. Всё хорошо, только бы успевали ещё развозить их по серверным, чтобы нейроночки крутились 😋
> Читать дайджест #60
#дайджест
@ai_newz
LLM
- Mistral Small 3.1 — небольшой апдейт, по уровню чуть выше, чем Gemma 3, но с лицензией Apache 2.0.
Генеративные модели
- Move AI Gen 2 — motion tracking без спецкостюма. Работает с одной камеры и может захватить целое футбольное поле.
- Pika v2v — редактируем видео по текстовому запросу. Такое раньше мог только наш закрытый MovieGen, ну а здесь можно подергать самому. Правда, Pika традиционно с горсткой артефактов.
Железо
- Blackwell Ultra — новые GPU от Nvidia в полтора раза мощнее предшественников. Всё хорошо, только бы успевали ещё развозить их по серверным, чтобы нейроночки крутились 😋
> Читать дайджест #60
#дайджест
@ai_newz
⚡29👍19🔥5❤2🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Умная роборука за $110
Я уже писал про LeRobot — красавчики из Hugging Face продолжают пилить годноту для тех, кто хочет собрать и натренировать собственного робота дома. С последнего поста вышло столько обновлений, что пора делать вторую часть.
Во-первых, новые конфигурации. Теперь есть SO-100 — роботизированная рука всего за $110. А ещё LeKiwi — та же рука, но уже на подвижной базе. Этот уже может собирать разбросанные по комнате вещи в корзину. Выглядит мило — прям хочется завести такого дома.
Во-вторых, процесс тренировки серьезно прокачали. Оптимизировали всё, что можно, и выложили новый датасет, который можно за ночь зафайнтюнить под свои задачи. Установка может показаться сложноватой для новичков, но если уметь читать инструкции и не боишься спросить у LLM, как завести код, справится даже гуманитарий. Всё в открытом доступе, энтузиасты уже вовсю пилят свои версии. Вон, даже гуманоида за 300 баксов собрали (без учета привязанного к нему макбука).
Еще недавно добавили поддержку моделей вроде π0 и π0-FAST от Physical Intelligence — первых "фундаментальных" моделей для робототехники, которые понимают естественный язык и действия. π0-FAST, кстати, в пять раз быстрее в обучении благодаря новой токенизации действий — это уже уровень, где робот может адаптироваться к новым задачам на лету (за день, хах).
Ну и самое жирное — зарелизили датасет на 90 терабайт данных и 5000 часов записей с 6 камер для тренировки беспилотных автомобилей. Hugging Face недавно скооперировались с Yaak и выкатили Learning to Drive (L2D). Всё это также будет использовано против вас в LeRobot.
Гитхаб
Обнимающее лицо
SO-100
@ai_newz
Я уже писал про LeRobot — красавчики из Hugging Face продолжают пилить годноту для тех, кто хочет собрать и натренировать собственного робота дома. С последнего поста вышло столько обновлений, что пора делать вторую часть.
Во-первых, новые конфигурации. Теперь есть SO-100 — роботизированная рука всего за $110. А ещё LeKiwi — та же рука, но уже на подвижной базе. Этот уже может собирать разбросанные по комнате вещи в корзину. Выглядит мило — прям хочется завести такого дома.
Во-вторых, процесс тренировки серьезно прокачали. Оптимизировали всё, что можно, и выложили новый датасет, который можно за ночь зафайнтюнить под свои задачи. Установка может показаться сложноватой для новичков, но если уметь читать инструкции и не боишься спросить у LLM, как завести код, справится даже гуманитарий. Всё в открытом доступе, энтузиасты уже вовсю пилят свои версии. Вон, даже гуманоида за 300 баксов собрали (без учета привязанного к нему макбука).
Еще недавно добавили поддержку моделей вроде π0 и π0-FAST от Physical Intelligence — первых "фундаментальных" моделей для робототехники, которые понимают естественный язык и действия. π0-FAST, кстати, в пять раз быстрее в обучении благодаря новой токенизации действий — это уже уровень, где робот может адаптироваться к новым задачам на лету (за день, хах).
Ну и самое жирное — зарелизили датасет на 90 терабайт данных и 5000 часов записей с 6 камер для тренировки беспилотных автомобилей. Hugging Face недавно скооперировались с Yaak и выкатили Learning to Drive (L2D). Всё это также будет использовано против вас в LeRobot.
Гитхаб
Обнимающее лицо
SO-100
@ai_newz
❤🔥141🔥74👍34❤29😍1
This media is not supported in your browser
VIEW IN TELEGRAM
Reve только вышли на рынок, а их модель Halfmoon 🌗 уже ТОП-1 на Image Generation Arena, обогнав Recraft V3, Imagen 3 и FLUX 1.1.
Я тоже попробовал и качество генераций очень очень хорошее. А вот про саму компанию мало чего понятно — известно лишь то, что их основали выходцы из Adobe Research
Уже доступна демка, по функционалу всё довольно просто — всего-то позволяют выбрать соотношение сторон, задать сид и врубить/вырубить автоматическое переписывание промпта. Также позволяют допиливать конкретную генерацию дополнительными промптами (закидывать свои картинки тоже можно). Как превью неплохо, посмотрим как будут допиливать.
Бесплатно дают 100 кредитов, 1 кредит = одна картинка, дальше они покупаются по $5 за 500 кредитов. Вместе с этим каждый день дают 20 генераций бесплатно, а когда они истекают, вот тогда уже используются кредиты. Если попробуете, напишите как вам.
И ждём ответку от Flux.
preview.reve.art
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤114🔥50👍24🙏5❤🔥3🫡3🦄3
DeepSeek V3 обновили
Оригинальную модель тюнили крайне мало — всего 5 тысяч H800 часов (это менее чем 0,2% компьюта на тренировку модели), а теперь её наконец-то затюнили нормально. В результате модель лучше использует тулы, разрабатывает фронтенд и размышляет. Это не reasoner, R1 всё ещё лучше для сложных тасков.
Новую версию релизнули сразу под лицензией MIT, как и R1 (оригинальная V3 была под кастомной лицензией). Модель со вчерашнего дня доступна в API, чате и на 🤗.
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
@ai_newz
Оригинальную модель тюнили крайне мало — всего 5 тысяч H800 часов (это менее чем 0,2% компьюта на тренировку модели), а теперь её наконец-то затюнили нормально. В результате модель лучше использует тулы, разрабатывает фронтенд и размышляет. Это не reasoner, R1 всё ещё лучше для сложных тасков.
Новую версию релизнули сразу под лицензией MIT, как и R1 (оригинальная V3 была под кастомной лицензией). Модель со вчерашнего дня доступна в API, чате и на 🤗.
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
@ai_newz
🔥173👍61❤15❤🔥2
Gemini 2.5 Pro
Наконец-то reasoning завезли в Gemini Pro. На бенчах себя показывает очень хорошо — на нескольких это SOTA, в большей части бенчей модель проигрывает только multiple attempts режимам других LLM. Длина контекста у Gemini 2.5 Pro — миллион токенов, потом обещают завезти два. Модель мультимодальная, но нативную генерацию картинок не завезли (надеюсь пока что).
Экспериментальное превью уже доступно в AI Studio и подписчикам Gemini Advanced, цен на API пока что нет. Кстати, заметьте как раньше OpenAI релизила прямо перед релизами гугла, а сейчас всё наоборот.
Блогпост
@ai_newz
Наконец-то reasoning завезли в Gemini Pro. На бенчах себя показывает очень хорошо — на нескольких это SOTA, в большей части бенчей модель проигрывает только multiple attempts режимам других LLM. Длина контекста у Gemini 2.5 Pro — миллион токенов, потом обещают завезти два. Модель мультимодальная, но нативную генерацию картинок не завезли (надеюсь пока что).
Экспериментальное превью уже доступно в AI Studio и подписчикам Gemini Advanced, цен на API пока что нет. Кстати, заметьте как раньше OpenAI релизила прямо перед релизами гугла, а сейчас всё наоборот.
Блогпост
@ai_newz
👍100🔥48❤20🦄3😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Мультимодальная генерация в ChatGPT
Наконец-то завезли нативную генерацию картинок в 4o, обещанную ещё в прошлом году. В этот раз на стрим заявился даже сам Сэм Альтман.
Появилось всё то же, от чего мы восторгались в мультимодальной генерации Gemini Flash 2.0, но гораздо лучше.
Хотя, судить о качестве пока рано — я быстро потестил и скажу, что фотореализм модель не генерит. Оно и ожидаемо, так как пока что LLM-ки генерят изображения хуже, чем чисто диффузионные модели.
Поэтому и в шоукейсе (по крайней мере на стриме) не показали ни одного изображения в реалистичном стиле. Всё было больше стилизованным, иллюстративным.
Можно, конечно попробовать сделать более фотореалистичный стиль через какой-нибудь Flux, либо вытянуть детали через диффузионный апскейлер вроде этого. Но будет уже не то пальто.
Вообще, это уже какой-то тренд. Кто-то релизит какую-то прикольную фичу, которую OpenAI анонсировали 100 лет назад. А потом приходит Сэма и всех уделывает (или нет).
Блогпост
Тред с видосами OpenAI
@ai_newz
Наконец-то завезли нативную генерацию картинок в 4o, обещанную ещё в прошлом году. В этот раз на стрим заявился даже сам Сэм Альтман.
Появилось всё то же, от чего мы восторгались в мультимодальной генерации Gemini Flash 2.0, но гораздо лучше.
Хотя, судить о качестве пока рано — я быстро потестил и скажу, что фотореализм модель не генерит. Оно и ожидаемо, так как пока что LLM-ки генерят изображения хуже, чем чисто диффузионные модели.
Поэтому и в шоукейсе (по крайней мере на стриме) не показали ни одного изображения в реалистичном стиле. Всё было больше стилизованным, иллюстративным.
Можно, конечно попробовать сделать более фотореалистичный стиль через какой-нибудь Flux, либо вытянуть детали через диффузионный апскейлер вроде этого. Но будет уже не то пальто.
Вообще, это уже какой-то тренд. Кто-то релизит какую-то прикольную фичу, которую OpenAI анонсировали 100 лет назад. А потом приходит Сэма и всех уделывает (или нет).
Блогпост
Тред с видосами OpenAI
@ai_newz
❤81👍32🫡25🔥17😁9🦄6❤🔥3