эйай ньюз

Helix - локальный AI на роботе

Из-за этой модели Figure разорвала сделку с OpenAI, заявив что им удалось совершить прорыв. Все действия роботов на видео - результат работы модельки, работающей полностью на роботе. Модель управляет верхней половиной тела, позволяет двум роботам работать вместе и поднимать любые мелкие предметы.

Состоит Helix из двух компонентов - отвечающей за планирование System 2, основанная на неназванной опенсорсной 7B VLM и работающая на скорости 7-9 Hz. Исполняет планы System 1 - encoder-decoder на 80 миллионов параметров, работающая на скорости в 200 Hz, что позволяет точнее двигаться и быстрее реагировать. System 1 и System 2 работают на отдельных GPU, чтобы не мешать друг другу.

Натренировали это всего на 500 часах данных, что доступно множеству стартапов. Это крайне ранняя стадия и нас ждёт очень быстрое масштабирование.

Блогпост

@ai_newz

🔥295🤯91👍32❤11😱5🦄4😁2

42.8K viewsedited 15:35

эйай ньюз

Grok 3 (пока что) бесплатен

xAI открыли доступ всем желающим, "пока сервера не расплавятся". А ещё наконец-то опубликовали блогпост с более детальными бенчами - стало понятно, что голубые полосы обозначают консенсус 64 прогонов одной и той же задачи.

Реально доступный Grok 3 Beta Thinking отстаёт от o3-mini-high по бенчам, но она, в свою очередь, отстаёт от, пока не релизнутой, Grok 3 Mini Beta Thinking. Но тренировка Grok 3 Thinking ещё не завершена и, в итоге, он должен тягаться с полноценной o3 по качеству. Тем не менее, нам нужны методы бенчмаркать test time compute получше.

Ещё из блогпоста мы узнали что у Grok 3 длина контекста - миллион токенов. Но в задеплоенном Grok 3, длина контекста всего 128к, по словам сотрудников xAI.

Блогпост

grok.com

@ai_newz

👍112😁36🔥24❤11

44.5K views17:50

эйай ньюз

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

Neo Gamma от 1X

Новый прототип куда шустрее августовской Beta. Интересно, когда они уйдут в продажу?

@ai_newz

4🔥213😱60❤‍🔥27🤯23👍20❤12😁3🦄3😍1

53.2K views19:15

эйай ньюз

Нейродайджест за неделю (#57)

LLM
- Grok 3 — новая топовая LLM от Маска идет в релиз малыми шажками. Сначала вышла неризонинг версия, обещает быть лучше в своем классе. Но никаких данных пока нет. Можно потесть ее в X.

Image & video модели
- Лекция от создателя Flux — запись первого доклада про лучшую txt2img модель.
- Veo 2 — топовая видео-модель от Google стала доступна во Freepik и FAL.AI.

Роботы
- Helix — Figure собрали робота на полностью локальной VLM.
- Neo Gamma — 1X сняли демку своего робо-приспешника. Выглядит сасно, как будто бы даже юзабельно.

Прочее
- Про регуляции AI в Швейцарии — теперь я точно могу себя ни в чем не ограничивать) ждите скайнет от меня 😘
- Ultra-Scale Playbook — книга-гайд с кучей красивых графиков о том, как наиболее эффективно использовать GPU кластер для тренировки ЛЛМ.

> Читать дайджест #56

#дайджест
@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥45👍23❤‍🔥15❤11⚡2😁2

27.8K viewsedited 08:39

эйай ньюз

У DeepSeek началась неделя опенсорса

Первый релиз — FlashMLA, Flash Attention для моделей DeepSeek. Дело в том, что модели DeepSeek используют свой отдельный тип аттеншна — Multi-head Latent Attention, которому нужно в разы меньше памяти на KV кэш, по сравнению с обычным Group Query Attention, что сильно удешевляет генерацию токенов.

Обратная сторона медали - существующие кастомные кернелы для инференса несовместимы с моделями DeepSeek, из-за чего приходится использовать более медленный торч. Быстрые кастомные кернелы для MLA означают более эффективный инференс у апи провайдеров, что часто перерастает в падение цен.

Обещают ещё четыре релиза на этой неделе, что именно релизнут - непонятно. Про всех них я напишу большой обзорный пост в конце недели.

Код

@ai_newz

GitHub

GitHub - deepseek-ai/FlashMLA: FlashMLA: Efficient MLA decoding kernels

FlashMLA: Efficient MLA decoding kernels. Contribute to deepseek-ai/FlashMLA development by creating an account on GitHub.

🔥155👍51❤19🫡6🦄5

27.7K views15:50

эйай ньюз

Claude 3.7 Sonnet с Extended Thinking

Наконец-то и Claude научился рассуждать. В отличие от конкурентов, за всё отвечает одна модель — нету никакого отдельного reasoning тюна. Из плюсов такого подхода — количество размышлений регулируется через "бюджет на размышления", что позволяет точнее контроллировать цену/качество ответа.

Но главное преимущество этого подхода — с extended thinking из коробки работают ВСЕ фичи Claude, от поддержки PDF до Computer Use. У тех же OpenAI до сих пор куча странных ограничений по этому поводу.

Из приятных мелочей — Anthropic дают доступ к размышлениям модели, даже через API. Приятно что попытка OpenAI сделать чёрный ящик из reasoning моделей провалилась.

Новая версия уже доступна бесплатно для всех пользователей, но Extended Thinking доступен лишь платным подписчикам. Цена за API сохранилась - Anthropic решили не повторять историю с Haiku 3.5.

Не забудьте спросить 🍓 вопрос

claude.ai

@ai_newz

👍210❤‍🔥81🔥39❤26⚡5🙏2🦄2

33.9K viewsedited 19:45

эйай ньюз

Видео Нейродайджест:
2025 год видео моделей и думающих LLM

- Veo 2 — Гугловский монстр вырвался на волю. Доступен на Freepik (Premium+ юзерам за тонну токенов) и на fal.ai ($1.25 за 5-секундный видосик). Цена кусается, пока только txt2img, но качество — космос.

- Luma Ray 2 — Теперь с img-2-video и video-2-sfx (саунд). Не дотягивает до Veo 2 по картинке, зато цена норм и фичи удобные: анлим за $95 для тех, кому надо.

- Pika’s Pikadditions & Pikaswaps — Чуваки идут путём мемов и VFX. Pikadditions пихает объекты с фоток в видео, Pikaswaps меняет банки ягуара на колу. 8 бесплатных генераций в месяц, но глюки — часть веселья: лица корежит, физика выходит из чата.

- Adobe Firefly Video — Чистый датасет, симпатичная картинка. Идеально для монтажа: продлить, расширить (да, есть расширение), накинуть VFX. Идеальный add-on для Премьера.

- Topaz Starlight — Диффузионный реставратор видео на 6B+ параметров. Вытягивает даже самые убитые кассеты. 10 сек бесплатно, 5 мин за бабки (немалые). Ждём концерт Queen в 4K.

И ещё 1000 и 1 опенсорс-проект — Lumina Video, Magic 1-For-1 и прочие. Статус “юзабельно” всё ближе, а кому-то уже и так норм.

> Читать Топ-10 постов 2024 года.

#дайджест
@ai_newz

❤54👍22🔥4❤‍🔥2

29.7K views09:17

эйай ньюз

1:02

This media is not supported in your browser

VIEW IN TELEGRAM

Alibaba Wan 2.1 - новая SOTA опенсорс видео модель

Скорее всего это та самая загадочная модель, которая уже месяц доступна в Qwen Chat. На лидерборде VBench она занимает первое место, но там нет нескольких сильных конкурентов, вроде Veo 2 от гугла. Больше бенчей никаких нет, так что ждём полноценного техрепорта и тем временем вайбчекаем модель по генерациям). По ним, например, видно что модель очень хорошо генерирует текст, как на английском, так и на китайском, с чем другие модели справляются куда хуже.

Идёт в двух размерах — 1.3B и 14B и в нескольких разных вариантах для разных разрешений (поддерживаются 480p и 720p). Маленькой 1.3B модели нужно всего 8,2 гигабайта VRAM для запуска, а на генерацию видео уходит всего 4 минуты на 4090.

Большая моделька потребляет заметно больше — вплоть до 77 гигабайт. Но модели совсем не оптимизированные (замеры по памяти делали с fp32 моделями), так что есть много простора для оптимизации. Посмотрите на тот же Hunyuan, который при ~таком же количестве параметров неплохо запускается на консьюмерских видяхах. Умельцы за пару недель ещё оптимизируют эти модели, чтобы запускалось на каждом холодильнике.

Веса
Код
wanxai.com

@ai_newz

👍63🔥50❤21🤯6😁1

28.1K viewsedited 16:15

эйай ньюз