Telegram Web Link
Умная роборука за $110

Я уже писал про LeRobot — красавчики из Hugging Face продолжают пилить годноту для тех, кто хочет собрать и натренировать собственного робота дома. С последнего поста вышло столько обновлений, что пора делать вторую часть.

Во-первых, новые конфигурации. Теперь есть SO-100 — роботизированная рука всего за $110. А ещё LeKiwi — та же рука, но уже на подвижной базе. Этот уже может собирать разбросанные по комнате вещи в корзину. Выглядит мило — прям хочется завести такого дома.

Во-вторых, процесс тренировки серьезно прокачали. Оптимизировали всё, что можно, и выложили новый датасет, который можно за ночь зафайнтюнить под свои задачи. Установка может показаться сложноватой для новичков, но если уметь читать инструкции и не боишься спросить у LLM, как завести код, справится даже гуманитарий. Всё в открытом доступе, энтузиасты уже вовсю пилят свои версии. Вон, даже гуманоида за 300 баксов собрали (без учета привязанного к нему макбука).

Еще недавно добавили поддержку моделей вроде π0 и π0-FAST от Physical Intelligence — первых "фундаментальных" моделей для робототехники, которые понимают естественный язык и действия. π0-FAST, кстати, в пять раз быстрее в обучении благодаря новой токенизации действий — это уже уровень, где робот может адаптироваться к новым задачам на лету (за день, хах).

Ну и самое жирное — зарелизили датасет на 90 терабайт данных и 5000 часов записей с 6 камер для тренировки беспилотных автомобилей. Hugging Face недавно скооперировались с Yaak и выкатили Learning to Drive (L2D). Всё это также будет использовано против вас в LeRobot.

Гитхаб
Обнимающее лицо
SO-100

@ai_newz
❤‍🔥141🔥74👍3429😍1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥В генерации изображений новый игрок

Reve только вышли на рынок, а их модель Halfmoon 🌗 уже ТОП-1 на Image Generation Arena, обогнав Recraft V3, Imagen 3 и FLUX 1.1.

Я тоже попробовал и качество генераций очень очень хорошее. А вот про саму компанию мало чего понятно — известно лишь то, что их основали выходцы из Adobe Research

Уже доступна демка, по функционалу всё довольно просто — всего-то позволяют выбрать соотношение сторон, задать сид и врубить/вырубить автоматическое переписывание промпта. Также позволяют допиливать конкретную генерацию дополнительными промптами (закидывать свои картинки тоже можно). Как превью неплохо, посмотрим как будут допиливать.

Бесплатно дают 100 кредитов, 1 кредит = одна картинка, дальше они покупаются по $5 за 500 кредитов. Вместе с этим каждый день дают 20 генераций бесплатно, а когда они истекают, вот тогда уже используются кредиты. Если попробуете, напишите как вам.

И ждём ответку от Flux.

preview.reve.art

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1114🔥50👍24🙏5❤‍🔥3🫡3🦄3
DeepSeek V3 обновили

Оригинальную модель тюнили крайне мало — всего 5 тысяч H800 часов (это менее чем 0,2% компьюта на тренировку модели), а теперь её наконец-то затюнили нормально. В результате модель лучше использует тулы, разрабатывает фронтенд и размышляет. Это не reasoner, R1 всё ещё лучше для сложных тасков.

Новую версию релизнули сразу под лицензией MIT, как и R1 (оригинальная V3 была под кастомной лицензией). Модель со вчерашнего дня доступна в API, чате и на 🤗.

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

@ai_newz
🔥173👍6115❤‍🔥2
Gemini 2.5 Pro

Наконец-то reasoning завезли в Gemini Pro. На бенчах себя показывает очень хорошо — на нескольких это SOTA, в большей части бенчей модель проигрывает только multiple attempts режимам других LLM. Длина контекста у Gemini 2.5 Pro — миллион токенов, потом обещают завезти два. Модель мультимодальная, но нативную генерацию картинок не завезли (надеюсь пока что).

Экспериментальное превью уже доступно в AI Studio и подписчикам Gemini Advanced, цен на API пока что нет. Кстати, заметьте как раньше OpenAI релизила прямо перед релизами гугла, а сейчас всё наоборот.

Блогпост

@ai_newz
👍100🔥4820🦄3😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Мультимодальная генерация в ChatGPT

Наконец-то завезли нативную генерацию картинок в 4o, обещанную ещё в прошлом году. В этот раз на стрим заявился даже сам Сэм Альтман.

Появилось всё то же, от чего мы восторгались в мультимодальной генерации Gemini Flash 2.0, но гораздо лучше.

Хотя, судить о качестве пока рано — я быстро потестил и скажу, что фотореализм модель не генерит. Оно и ожидаемо, так как пока что LLM-ки генерят изображения хуже, чем чисто диффузионные модели.

Поэтому и в шоукейсе (по крайней мере на стриме) не показали ни одного изображения в реалистичном стиле. Всё было больше стилизованным, иллюстративным.

Можно, конечно попробовать сделать более фотореалистичный стиль через какой-нибудь Flux, либо вытянуть детали через диффузионный апскейлер вроде этого. Но будет уже не то пальто.

Вообще, это уже какой-то тренд. Кто-то релизит какую-то прикольную фичу, которую OpenAI анонсировали 100 лет назад. А потом приходит Сэма и всех уделывает (или нет).

Блогпост
Тред с видосами OpenAI

@ai_newz
81👍32🫡25🔥17😁9🦄6❤‍🔥3
Новый генератор — шлак?

Генерацию картинок в 4o уже раскатили. Похоже, что вопреки всему, этот генератор ничем не хуже текущего топа. Рандомные примеры от комьюнити и мои тесты прилагаются.


Окей, генерит он и фотореализм тоже, но вот с лицами что-то не так. В первом моём тесте я вообще на себя не похож. Сравните с Gemini. Может, просто не повезло?

Бегом тестить пока сервер не лег!

@ai_newz
92👍40😁10🔥3🤯3🙏1🦄1
2025/07/10 14:45:44
Back to Top
HTML Embed Code: