This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Умная роборука за $110
Я уже писал про LeRobot — красавчики из Hugging Face продолжают пилить годноту для тех, кто хочет собрать и натренировать собственного робота дома. С последнего поста вышло столько обновлений, что пора делать вторую часть.
Во-первых, новые конфигурации. Теперь есть SO-100 — роботизированная рука всего за $110. А ещё LeKiwi — та же рука, но уже на подвижной базе. Этот уже может собирать разбросанные по комнате вещи в корзину. Выглядит мило — прям хочется завести такого дома.
Во-вторых, процесс тренировки серьезно прокачали. Оптимизировали всё, что можно, и выложили новый датасет, который можно за ночь зафайнтюнить под свои задачи. Установка может показаться сложноватой для новичков, но если уметь читать инструкции и не боишься спросить у LLM, как завести код, справится даже гуманитарий. Всё в открытом доступе, энтузиасты уже вовсю пилят свои версии. Вон, даже гуманоида за 300 баксов собрали (без учета привязанного к нему макбука).
Еще недавно добавили поддержку моделей вроде π0 и π0-FAST от Physical Intelligence — первых "фундаментальных" моделей для робототехники, которые понимают естественный язык и действия. π0-FAST, кстати, в пять раз быстрее в обучении благодаря новой токенизации действий — это уже уровень, где робот может адаптироваться к новым задачам на лету (за день, хах).
Ну и самое жирное — зарелизили датасет на 90 терабайт данных и 5000 часов записей с 6 камер для тренировки беспилотных автомобилей. Hugging Face недавно скооперировались с Yaak и выкатили Learning to Drive (L2D). Всё это также будет использовано против вас в LeRobot.
Гитхаб
Обнимающее лицо
SO-100
@ai_newz
Я уже писал про LeRobot — красавчики из Hugging Face продолжают пилить годноту для тех, кто хочет собрать и натренировать собственного робота дома. С последнего поста вышло столько обновлений, что пора делать вторую часть.
Во-первых, новые конфигурации. Теперь есть SO-100 — роботизированная рука всего за $110. А ещё LeKiwi — та же рука, но уже на подвижной базе. Этот уже может собирать разбросанные по комнате вещи в корзину. Выглядит мило — прям хочется завести такого дома.
Во-вторых, процесс тренировки серьезно прокачали. Оптимизировали всё, что можно, и выложили новый датасет, который можно за ночь зафайнтюнить под свои задачи. Установка может показаться сложноватой для новичков, но если уметь читать инструкции и не боишься спросить у LLM, как завести код, справится даже гуманитарий. Всё в открытом доступе, энтузиасты уже вовсю пилят свои версии. Вон, даже гуманоида за 300 баксов собрали (без учета привязанного к нему макбука).
Еще недавно добавили поддержку моделей вроде π0 и π0-FAST от Physical Intelligence — первых "фундаментальных" моделей для робототехники, которые понимают естественный язык и действия. π0-FAST, кстати, в пять раз быстрее в обучении благодаря новой токенизации действий — это уже уровень, где робот может адаптироваться к новым задачам на лету (за день, хах).
Ну и самое жирное — зарелизили датасет на 90 терабайт данных и 5000 часов записей с 6 камер для тренировки беспилотных автомобилей. Hugging Face недавно скооперировались с Yaak и выкатили Learning to Drive (L2D). Всё это также будет использовано против вас в LeRobot.
Гитхаб
Обнимающее лицо
SO-100
@ai_newz
❤🔥141🔥74👍34❤29😍1
This media is not supported in your browser
VIEW IN TELEGRAM
Reve только вышли на рынок, а их модель Halfmoon 🌗 уже ТОП-1 на Image Generation Arena, обогнав Recraft V3, Imagen 3 и FLUX 1.1.
Я тоже попробовал и качество генераций очень очень хорошее. А вот про саму компанию мало чего понятно — известно лишь то, что их основали выходцы из Adobe Research
Уже доступна демка, по функционалу всё довольно просто — всего-то позволяют выбрать соотношение сторон, задать сид и врубить/вырубить автоматическое переписывание промпта. Также позволяют допиливать конкретную генерацию дополнительными промптами (закидывать свои картинки тоже можно). Как превью неплохо, посмотрим как будут допиливать.
Бесплатно дают 100 кредитов, 1 кредит = одна картинка, дальше они покупаются по $5 за 500 кредитов. Вместе с этим каждый день дают 20 генераций бесплатно, а когда они истекают, вот тогда уже используются кредиты. Если попробуете, напишите как вам.
И ждём ответку от Flux.
preview.reve.art
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤114🔥50👍24🙏5❤🔥3🫡3🦄3
DeepSeek V3 обновили
Оригинальную модель тюнили крайне мало — всего 5 тысяч H800 часов (это менее чем 0,2% компьюта на тренировку модели), а теперь её наконец-то затюнили нормально. В результате модель лучше использует тулы, разрабатывает фронтенд и размышляет. Это не reasoner, R1 всё ещё лучше для сложных тасков.
Новую версию релизнули сразу под лицензией MIT, как и R1 (оригинальная V3 была под кастомной лицензией). Модель со вчерашнего дня доступна в API, чате и на 🤗.
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
@ai_newz
Оригинальную модель тюнили крайне мало — всего 5 тысяч H800 часов (это менее чем 0,2% компьюта на тренировку модели), а теперь её наконец-то затюнили нормально. В результате модель лучше использует тулы, разрабатывает фронтенд и размышляет. Это не reasoner, R1 всё ещё лучше для сложных тасков.
Новую версию релизнули сразу под лицензией MIT, как и R1 (оригинальная V3 была под кастомной лицензией). Модель со вчерашнего дня доступна в API, чате и на 🤗.
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
@ai_newz
🔥173👍61❤15❤🔥2
Gemini 2.5 Pro
Наконец-то reasoning завезли в Gemini Pro. На бенчах себя показывает очень хорошо — на нескольких это SOTA, в большей части бенчей модель проигрывает только multiple attempts режимам других LLM. Длина контекста у Gemini 2.5 Pro — миллион токенов, потом обещают завезти два. Модель мультимодальная, но нативную генерацию картинок не завезли (надеюсь пока что).
Экспериментальное превью уже доступно в AI Studio и подписчикам Gemini Advanced, цен на API пока что нет. Кстати, заметьте как раньше OpenAI релизила прямо перед релизами гугла, а сейчас всё наоборот.
Блогпост
@ai_newz
Наконец-то reasoning завезли в Gemini Pro. На бенчах себя показывает очень хорошо — на нескольких это SOTA, в большей части бенчей модель проигрывает только multiple attempts режимам других LLM. Длина контекста у Gemini 2.5 Pro — миллион токенов, потом обещают завезти два. Модель мультимодальная, но нативную генерацию картинок не завезли (надеюсь пока что).
Экспериментальное превью уже доступно в AI Studio и подписчикам Gemini Advanced, цен на API пока что нет. Кстати, заметьте как раньше OpenAI релизила прямо перед релизами гугла, а сейчас всё наоборот.
Блогпост
@ai_newz
👍100🔥48❤20🦄3😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Мультимодальная генерация в ChatGPT
Наконец-то завезли нативную генерацию картинок в 4o, обещанную ещё в прошлом году. В этот раз на стрим заявился даже сам Сэм Альтман.
Появилось всё то же, от чего мы восторгались в мультимодальной генерации Gemini Flash 2.0, но гораздо лучше.
Хотя, судить о качестве пока рано — я быстро потестил и скажу, что фотореализм модель не генерит. Оно и ожидаемо, так как пока что LLM-ки генерят изображения хуже, чем чисто диффузионные модели.
Поэтому и в шоукейсе (по крайней мере на стриме) не показали ни одного изображения в реалистичном стиле. Всё было больше стилизованным, иллюстративным.
Можно, конечно попробовать сделать более фотореалистичный стиль через какой-нибудь Flux, либо вытянуть детали через диффузионный апскейлер вроде этого. Но будет уже не то пальто.
Вообще, это уже какой-то тренд. Кто-то релизит какую-то прикольную фичу, которую OpenAI анонсировали 100 лет назад. А потом приходит Сэма и всех уделывает (или нет).
Блогпост
Тред с видосами OpenAI
@ai_newz
Наконец-то завезли нативную генерацию картинок в 4o, обещанную ещё в прошлом году. В этот раз на стрим заявился даже сам Сэм Альтман.
Появилось всё то же, от чего мы восторгались в мультимодальной генерации Gemini Flash 2.0, но гораздо лучше.
Хотя, судить о качестве пока рано — я быстро потестил и скажу, что фотореализм модель не генерит. Оно и ожидаемо, так как пока что LLM-ки генерят изображения хуже, чем чисто диффузионные модели.
Поэтому и в шоукейсе (по крайней мере на стриме) не показали ни одного изображения в реалистичном стиле. Всё было больше стилизованным, иллюстративным.
Можно, конечно попробовать сделать более фотореалистичный стиль через какой-нибудь Flux, либо вытянуть детали через диффузионный апскейлер вроде этого. Но будет уже не то пальто.
Вообще, это уже какой-то тренд. Кто-то релизит какую-то прикольную фичу, которую OpenAI анонсировали 100 лет назад. А потом приходит Сэма и всех уделывает (или нет).
Блогпост
Тред с видосами OpenAI
@ai_newz
❤81👍32🫡25🔥17😁9🦄6❤🔥3
Новый генератор — шлак?
Генерацию картинок в 4o уже раскатили. Похоже, что вопреки всему, этот генератор ничем не хуже текущего топа. Рандомные примеры от комьюнити и мои тесты прилагаются.
Окей, генерит он и фотореализм тоже, но вот с лицами что-то не так. В первом моём тесте я вообще на себя не похож. Сравните с Gemini. Может, просто не повезло?
Бегом тестить пока сервер не лег!
@ai_newz
Генерацию картинок в 4o уже раскатили. Похоже, что вопреки всему, этот генератор ничем не хуже текущего топа. Рандомные примеры от комьюнити и мои тесты прилагаются.
Окей, генерит он и фотореализм тоже, но вот с лицами что-то не так. В первом моём тесте я вообще на себя не похож. Сравните с Gemini. Может, просто не повезло?
Бегом тестить пока сервер не лег!
@ai_newz
❤92👍40😁10🔥3🤯3🙏1🦄1