Black Forest Labs выложили веса FLUX.1 Kontext [dev]
Она, конечно, заметно слабее чем pro и max, но всё ещё часто обходит нативную генерацию изображений в gpt-image на собственных бенчах BFL и с огромным отрывом лучшая модель с доступными весами. Для владельцев видях Blackwell выкатили ещё и официальные TensorRT версии — в fp8 и fp4. Они качеством, конечно, похуже, но вплоть до двух раз быстрее плюс требуют меньше видеопамяти.
Для некоммерческого использования модель бесплатная. За коммерческое использование придётся платить — $999 долларов в месяц за 100к сгенеренных изображений, всё что больше 100к генераций в месяц — 1 цент за генерацию.
Веса
Оптимизированные TensorRT версии
Техрепорт
Код
@ai_newz
Она, конечно, заметно слабее чем pro и max, но всё ещё часто обходит нативную генерацию изображений в gpt-image на собственных бенчах BFL и с огромным отрывом лучшая модель с доступными весами. Для владельцев видях Blackwell выкатили ещё и официальные TensorRT версии — в fp8 и fp4. Они качеством, конечно, похуже, но вплоть до двух раз быстрее плюс требуют меньше видеопамяти.
Для некоммерческого использования модель бесплатная. За коммерческое использование придётся платить — $999 долларов в месяц за 100к сгенеренных изображений, всё что больше 100к генераций в месяц — 1 цент за генерацию.
Веса
Оптимизированные TensorRT версии
Техрепорт
Код
@ai_newz
Cloud.ru анонсировал AI-помощника для автоматизации работы с облаком
На конференции GigaConf провайдер облачных и AI-технологий Cloud.ru сделал два анонса: запуск AI-помощника Клаудии и открытие общего доступа к платформе Cloud.ru Evolution AI Factory. Инструменты упрощают работу с облачными технологиями и AI для пользователей со всеми уровнями технического бэкграунда.
AI-помощник в режиме Public Preview консультирует пользователей и выполняет конкретные действия по управлению ресурсами. Он самостоятельно разворачивает виртуальные машины, подбирает оптимальную конфигурацию сервисов, настраивает мониторинг и алертинг, а также работает с консолью в режиме co-pilot. Зная архитектуру платформы, помощник дает персональные рекомендации и автоматизирует рутинные DevOps-задачи. Эти инструменты помогут разработчикам стартапов и pet-проектов без особого опыта в облачных технологиях быстрее запускать проекты, а опытным DevOps и SRE-инженерам — сосредоточиться на стратегических задачах.
Также провайдер открыл доступ к Cloud.ru Evolution AI Factory — облачной среде с готовыми инструментами для работы с LLM и создания мультиагентных систем. В нее входят шесть сервисов: Foundation Models для работы с моделями через API, ML Inference для развертывания моделей, Managed RAG для технологии дополненной генерации, ML Finetuning для адаптации LLM-моделей, Notebooks для работы с Jupyter Notebooks и AI Agents — визуальный редактор агентов на базе LLM. Инструменты подходят для разных задач: от автоматизации поддержки клиентов до оптимизации документооборота и управления поставками.
#промо
На конференции GigaConf провайдер облачных и AI-технологий Cloud.ru сделал два анонса: запуск AI-помощника Клаудии и открытие общего доступа к платформе Cloud.ru Evolution AI Factory. Инструменты упрощают работу с облачными технологиями и AI для пользователей со всеми уровнями технического бэкграунда.
AI-помощник в режиме Public Preview консультирует пользователей и выполняет конкретные действия по управлению ресурсами. Он самостоятельно разворачивает виртуальные машины, подбирает оптимальную конфигурацию сервисов, настраивает мониторинг и алертинг, а также работает с консолью в режиме co-pilot. Зная архитектуру платформы, помощник дает персональные рекомендации и автоматизирует рутинные DevOps-задачи. Эти инструменты помогут разработчикам стартапов и pet-проектов без особого опыта в облачных технологиях быстрее запускать проекты, а опытным DevOps и SRE-инженерам — сосредоточиться на стратегических задачах.
Также провайдер открыл доступ к Cloud.ru Evolution AI Factory — облачной среде с готовыми инструментами для работы с LLM и создания мультиагентных систем. В нее входят шесть сервисов: Foundation Models для работы с моделями через API, ML Inference для развертывания моделей, Managed RAG для технологии дополненной генерации, ML Finetuning для адаптации LLM-моделей, Notebooks для работы с Jupyter Notebooks и AI Agents — визуальный редактор агентов на базе LLM. Инструменты подходят для разных задач: от автоматизации поддержки клиентов до оптимизации документооборота и управления поставками.
#промо
Четыре года назад я присоединился к Meta GenAI в Цюрихе, чтобы покопаться в границах возможного для генеративных моделей.
За это время я построил много крутых AI штук, которые мы затем зашипили в продукты Meta - от генеративных ног для Аватаров, до realtime генератора картинок Imagine Flash и видео генератора MovieGen.
А сегодня — рад с вами поделиться, что я начал новую главу и вхожу в Founder mode!🧢 🚀
Мы запустили стартап в области GenAI, где строим и обучаем Foundation Generative Models.
Пока мы в стелсе, но уже очень хочется рассказать по-больше, как только придёт время.
Меня cейчас очень прёт от новых задач и вызовов, которые появились при трансформации из Staff AI Research Scientist → в CEO.
Все-таки строить полностью свой продукт и воплощать свое виденье - это то чего не хватает, когда работаешь в крупных компаниях.
--
Если вы инвестор на ранней стадии или заряженный builder с фундаментальным опытом в GenAI — давайте пообщаемся!
Мы сейчас активно не хайрим, т.к. хотим оставаться маленькой и быстрой командой c максимальным ARR на каждого члена команды, но всегда рады рассмотреть исключительных талантов (AI Engineers - Vision / Language; Product Designers).
Пишите на [email protected] вместе с CV и ссылкой на свой linkedin.
#карьера #мойпуть
@ai_newz
За это время я построил много крутых AI штук, которые мы затем зашипили в продукты Meta - от генеративных ног для Аватаров, до realtime генератора картинок Imagine Flash и видео генератора MovieGen.
А сегодня — рад с вами поделиться, что я начал новую главу и вхожу в Founder mode!
Мы запустили стартап в области GenAI, где строим и обучаем Foundation Generative Models.
Пока мы в стелсе, но уже очень хочется рассказать по-больше, как только придёт время.
Меня cейчас очень прёт от новых задач и вызовов, которые появились при трансформации из Staff AI Research Scientist → в CEO.
Все-таки строить полностью свой продукт и воплощать свое виденье - это то чего не хватает, когда работаешь в крупных компаниях.
--
Если вы инвестор на ранней стадии или заряженный builder с фундаментальным опытом в GenAI — давайте пообщаемся!
Мы сейчас активно не хайрим, т.к. хотим оставаться маленькой и быстрой командой c максимальным ARR на каждого члена команды, но всегда рады рассмотреть исключительных талантов (AI Engineers - Vision / Language; Product Designers).
Пишите на [email protected] вместе с CV и ссылкой на свой linkedin.
#карьера #мойпуть
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Играемся с CV
Зацените, что нашёл на выходные:
Вот вам пара небольших, несложных и практически бесполезных штуковин, в которые просто интересно поиграться.
Концепт интересный и, думаю, многим приходил в голову. Здесь у нас реалитайм-трекинг рук, который привязан к паре заранее записанных дорожек их параметрам. Всё работает на three.js, MediaPipe, HTML/CSS/JS. Подобных проектов там ещё 7. Кроме этого мне больше всех зашёл генератор шейдеров.
Для новичков вообще топ, гайды по сборке своей похожей CV-игрушки доступны за 10 баксов. Но, кажется, здесь и Gemini сравится, хотя от этого играть не менее интересно)
На видео, кстати, балуется с демкой co-founder Hugging Face.
линк
@ai_newz
Зацените, что нашёл на выходные:
Вот вам пара небольших, несложных и практически бесполезных штуковин, в которые просто интересно поиграться.
Концепт интересный и, думаю, многим приходил в голову. Здесь у нас реалитайм-трекинг рук, который привязан к паре заранее записанных дорожек их параметрам. Всё работает на three.js, MediaPipe, HTML/CSS/JS. Подобных проектов там ещё 7. Кроме этого мне больше всех зашёл генератор шейдеров.
Для новичков вообще топ, гайды по сборке своей похожей CV-игрушки доступны за 10 баксов. Но, кажется, здесь и Gemini сравится, хотя от этого играть не менее интересно)
На видео, кстати, балуется с демкой co-founder Hugging Face.
линк
@ai_newz
Нейродайджест за неделю (#75)
LLM
- POLARIS — Учимся учить микромодельки решать задачи для взрослых.
- API в Claude Artifacts — Зачем? А чтобы генерить не просто приложения, а приложения на нейростероидах.
Генеративные модели
- GameCraft — риалтайм-генерация геймплея от Hunyuan с помощью диффузии.
- Веса FLUX.1 Kontext — Теперь настоящего "убийцу фотошопа" можно запустить в ComfyUI.
Прочее
- Gemini CLI — Бесплатный агент, которого можно подключить к MCP и прочим прелестям.
- AI fair use — Anthropic выиграли очень важное судебное дело, в ходе которого признали, что использование сканов книг в датасете — это добросовестное использование. Исторический момент!
- Игрушки с компьютер виженом — Прикольное развлечение на вечер воскресенья, можно пописать биты, разводя руками в воздухе.
Личное
- Staff Research Scientist → CEO: Я теперь делаю свой стартап.
> Читать дайджест #74
#дайджест
@ai_newz
LLM
- POLARIS — Учимся учить микромодельки решать задачи для взрослых.
- API в Claude Artifacts — Зачем? А чтобы генерить не просто приложения, а приложения на нейростероидах.
Генеративные модели
- GameCraft — риалтайм-генерация геймплея от Hunyuan с помощью диффузии.
- Веса FLUX.1 Kontext — Теперь настоящего "убийцу фотошопа" можно запустить в ComfyUI.
Прочее
- Gemini CLI — Бесплатный агент, которого можно подключить к MCP и прочим прелестям.
- AI fair use — Anthropic выиграли очень важное судебное дело, в ходе которого признали, что использование сканов книг в датасете — это добросовестное использование. Исторический момент!
- Игрушки с компьютер виженом — Прикольное развлечение на вечер воскресенья, можно пописать биты, разводя руками в воздухе.
Личное
- Staff Research Scientist → CEO: Я теперь делаю свой стартап.
> Читать дайджест #74
#дайджест
@ai_newz
Media is too big
VIEW IN TELEGRAM
AWS Generative AI Accelerator
Тем временем, уже во всю идёт набор на акселератор от Amazon. Это восьминедельная программа для стартапов в сфере генеративного AI.
Участникам обещают кредиты на сервисы AWS до $1 млн, доступ к маркетплейсу, нетворкинг и менторство. Все это конечно весело, но подать заявку стоит хотя бы ради компьюта. Ведь за него не просят отдавать долю, плюс дают заметно больше кредитов, чем в обычных программах амазона для стартапов, но скорее всего с тем же сроком действия — год.
Предпочтение отдается стартапам, которые занимаются файн-тюном опенсорс-моделей, претрейном, сервисам подготовки данных, мониторинга моделей, развертывания инфраструктуры и всему подобному.
Дедлайн подачи заявки — 10 июля, программа стартует осенью.
Попытать удачу
@ai_newz
Тем временем, уже во всю идёт набор на акселератор от Amazon. Это восьминедельная программа для стартапов в сфере генеративного AI.
Участникам обещают кредиты на сервисы AWS до $1 млн, доступ к маркетплейсу, нетворкинг и менторство. Все это конечно весело, но подать заявку стоит хотя бы ради компьюта. Ведь за него не просят отдавать долю, плюс дают заметно больше кредитов, чем в обычных программах амазона для стартапов, но скорее всего с тем же сроком действия — год.
Предпочтение отдается стартапам, которые занимаются файн-тюном опенсорс-моделей, претрейном, сервисам подготовки данных, мониторинга моделей, развертывания инфраструктуры и всему подобному.
Дедлайн подачи заявки — 10 июля, программа стартует осенью.
Попытать удачу
@ai_newz
Выполняю важные задачи как CEO – генерю кастомные emoji для нашего слака в ChatGPT.
Как же легко стало теперь заставить его прогнуться и делать то, что ты хочешь. Все благодяря ризонингу.🧠
Emoji скинул в комменты.
@ai_newz
Как же легко стало теперь заставить его прогнуться и делать то, что ты хочешь. Все благодяря ризонингу.
Emoji скинул в комменты.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Turbo ML Conf
Я часто пишу про конференции типа CVPR и ECCV и о том, почему это важно. Но не у всех есть возможность кататься по таким крупным ивентам. Круто, что в Москве тоже проходят подобные локальные ивенты (хоть и масштабом поменьше). Вот, например, скоро будет проходить Turbo ML Conf.
Обещают 5 потоков по всем основным направлениям в AI: NLP, Research & RnD, CV & Speech, RecSys, LLM Applications & Copilots.
Как я упоминал, на конференциях главное — нетворкинг, но бывает тяжело просто взять и заговорить с кем-то, так что организаторы замутили кучу интерактива и даже настолки, лол. Будет гораздо проще завести с кем-то диалог.
Дата — 19 июля.
Регистрация тут, бесплатно, но места ограничены, причём трансляции в этом году не будет.
@ai_newz
Я часто пишу про конференции типа CVPR и ECCV и о том, почему это важно. Но не у всех есть возможность кататься по таким крупным ивентам. Круто, что в Москве тоже проходят подобные локальные ивенты (хоть и масштабом поменьше). Вот, например, скоро будет проходить Turbo ML Conf.
Обещают 5 потоков по всем основным направлениям в AI: NLP, Research & RnD, CV & Speech, RecSys, LLM Applications & Copilots.
Как я упоминал, на конференциях главное — нетворкинг, но бывает тяжело просто взять и заговорить с кем-то, так что организаторы замутили кучу интерактива и даже настолки, лол. Будет гораздо проще завести с кем-то диалог.
Дата — 19 июля.
Регистрация тут, бесплатно, но места ограничены, причём трансляции в этом году не будет.
@ai_newz
Восхождение Oracle
Тут SemiAnalysis написали прекрасный отчёт о том, как поднялся этот компьют-гигант. Казалось бы, Oracle вошёл в игру гораздо позже AWS, Azure и Google, но сейчас по многим метрикам вырывается в лидеры.
Фишка в том, что они не пытались догонять, а сыграли по-своему, сделав несколько дичайших ставок, которые окупились.
Ставка №1: Сделка с Crusoe для OpenAI
Oracle заключила 15-летнюю сделку с относительно неопытным на тот момент девелопером Crusoe на строительство гигаваттного дата-центра. Стоимость обязательств Oracle по этой сделке, по оценкам, превышает $1 млрд в год. Весь этот компьют предназначался для их ключевого клиента — OpenAI.
Риск был колоссальным. В то время годовая выручка OpenAI составляла ~$2 млрд, причём подразделение работало в убыток. Oracle брала на себя обязательства по сделке, которая по масштабу была сопоставима со всей выручкой своего клиента. Но эта ставка позволила им запереть на себе самого важного игрока на рынке ИИ.
Ставка №2: ByteDance
И это не единичный случай. Oracle также заключила многомиллиардную сделку с ByteDance (материнская компания TikTok) на предоставление AI-вычислений для их операций за пределами Китая и США. Это ещё один гигантский клиент с колоссальными потребностями в обучении моделей, которого Oracle смогла увести у конкурентов, в первую очередь у AWS.
Но кроме успешного выбора клиентов, успех Oracle стоит на трёх китах: архитектура, прямые закупки и, самое главное, дешёвые деньги.
Архитектура их главный козырь. Oracle строит свои AI-кластеры на протоколе RoCE v2 (RDMA поверх Ethernet). Такая сеть на 400 Гбит/с обеспечивает GPU задержку и масштабируемость, сопоставимые с InfiniBand, но позволяет снизить цену кластеров на 15–20%, потому что они собираются на обычных стоечных и магистральных коммутаторах и использует стандартные кабели. Экономия на сети снижает общую стоимость владения инфраструктурой, поэтому OCI может удерживать цену GPU-часа ниже, чем большинство неоклаудов, и успешно конкурировать с крупными гиперскейлерами.
Второе преимущество перед конкурентами заключается в прямых закупках — Oracle закупает железо напрямую у ODM-производителей вроде Foxconn, минуя наценку брендов-посредников типа Dell и Supermicro. Меньше посредников — ниже цена. Справедливости ради, так делают все гиганты, включая Azure и AWS. Но для Oracle это лишь один из винтиков в машине по тотальной экономии.
Cost of Capital. Закупка GPU, для Oracle обходится фундаментально дешевле. Их основной бизнес по базам данных — это гигантская машина по производству наличных, которая даёт им доступ к самым дешёвым кредитам на рынке. Это заметное преимущество перед неоклаудами, которым такие кредиты не дают. В целом и Amazon может брать такие кредиты, но они проигрывают по остальным параметрам.
Линк
@ai_newz
Тут SemiAnalysis написали прекрасный отчёт о том, как поднялся этот компьют-гигант. Казалось бы, Oracle вошёл в игру гораздо позже AWS, Azure и Google, но сейчас по многим метрикам вырывается в лидеры.
Фишка в том, что они не пытались догонять, а сыграли по-своему, сделав несколько дичайших ставок, которые окупились.
Ставка №1: Сделка с Crusoe для OpenAI
Oracle заключила 15-летнюю сделку с относительно неопытным на тот момент девелопером Crusoe на строительство гигаваттного дата-центра. Стоимость обязательств Oracle по этой сделке, по оценкам, превышает $1 млрд в год. Весь этот компьют предназначался для их ключевого клиента — OpenAI.
Риск был колоссальным. В то время годовая выручка OpenAI составляла ~$2 млрд, причём подразделение работало в убыток. Oracle брала на себя обязательства по сделке, которая по масштабу была сопоставима со всей выручкой своего клиента. Но эта ставка позволила им запереть на себе самого важного игрока на рынке ИИ.
Ставка №2: ByteDance
И это не единичный случай. Oracle также заключила многомиллиардную сделку с ByteDance (материнская компания TikTok) на предоставление AI-вычислений для их операций за пределами Китая и США. Это ещё один гигантский клиент с колоссальными потребностями в обучении моделей, которого Oracle смогла увести у конкурентов, в первую очередь у AWS.
Но кроме успешного выбора клиентов, успех Oracle стоит на трёх китах: архитектура, прямые закупки и, самое главное, дешёвые деньги.
Архитектура их главный козырь. Oracle строит свои AI-кластеры на протоколе RoCE v2 (RDMA поверх Ethernet). Такая сеть на 400 Гбит/с обеспечивает GPU задержку и масштабируемость, сопоставимые с InfiniBand, но позволяет снизить цену кластеров на 15–20%, потому что они собираются на обычных стоечных и магистральных коммутаторах и использует стандартные кабели. Экономия на сети снижает общую стоимость владения инфраструктурой, поэтому OCI может удерживать цену GPU-часа ниже, чем большинство неоклаудов, и успешно конкурировать с крупными гиперскейлерами.
Второе преимущество перед конкурентами заключается в прямых закупках — Oracle закупает железо напрямую у ODM-производителей вроде Foxconn, минуя наценку брендов-посредников типа Dell и Supermicro. Меньше посредников — ниже цена. Справедливости ради, так делают все гиганты, включая Azure и AWS. Но для Oracle это лишь один из винтиков в машине по тотальной экономии.
Cost of Capital. Закупка GPU, для Oracle обходится фундаментально дешевле. Их основной бизнес по базам данных — это гигантская машина по производству наличных, которая даёт им доступ к самым дешёвым кредитам на рынке. Это заметное преимущество перед неоклаудами, которым такие кредиты не дают. В целом и Amazon может брать такие кредиты, но они проигрывают по остальным параметрам.
Линк
@ai_newz
Higgsfield Soul - новая text2image модель?
Ребята явно решили замахнуться на кусок пирога Midjourney. В твиттере сейчас только о них и говорят, называя их новый генератор картинок Soul самым реалистичным и эстетичным. Но так ли это?
Higgsfield — это изначально апка с видеогенераторами. Я про нее никогда не писал, потому что в целом это аггретатор моделей, а не какая-то новая модель. Просто на сайте есть куча пресетов и нейроэффектов (по сути, LoRA для видео). Иногда это даёт прикольный результат, и для определённых задач выходит лучше и быстрее, чем пытаться добиться того же через промпт в другом генераторе. Для художников удобно, но с технической точки зрения ничего любопытного.
А теперь про их новую t2i-модель — Soul. Судя по черри-пикам в твиттере, это и правда очень красивая и реалистичная модель. Что мы видим на самом сайте? Куча готовых пресетов и стилей. Я взял рандомный промпт из галереи (отмечу, что все они там очень длинные) и провёл тесты:
1. Оригинальный промпт + оригинальный пресет «office beach».
2. Оригинальный промпт + пресет «general» (то есть базовая, не затюненная версия модели).
3. Другой промпт из галереи + оригинальный пресет «office beach».
4. Другой промпт + его родной пресет «movie».
5. Другой промпт + пресет «general».
Для сравнения я прогнал те же промпты через Runway (6,7) и Flux dev (8,9).
Итог предсказуем: магии не случилось. Удивлен, что generation diversity ≈ 0, что видно из последней пикчи (10), они больше похожи на вариации одной общей картинки, а не на новые изображения. Есть подозрение, что они просто берут случайную фотку из трейна (ближайшуюу по клип скору) по заданному стилю и в этом же стиле перерисовывают, помешивая промпт и добавляя LoRA. По сути, это тот же Flux либо HiDream, но с пачкой действительно качественных LoRA-пресетов. Какие-то вещи повторить быстро и легко можно, но вряд ли выйдет создать что-то принципиально новое.
И что самое ироничное, со всеми этими «четырёхэтажными» промптами, которые даже не влезли в лимит Runway в 1000 знаков, последний, по-моему, справился даже лучше! Может, чуть меньше реализма, но с точки зрения стиля, атмосферы и эстетики... Просто посмотрите на ковбоя от Runway.
P.S. Все генерации сделаны с первого раза.
higgsfield.ai
@ai_newz
Ребята явно решили замахнуться на кусок пирога Midjourney. В твиттере сейчас только о них и говорят, называя их новый генератор картинок Soul самым реалистичным и эстетичным. Но так ли это?
Higgsfield — это изначально апка с видеогенераторами. Я про нее никогда не писал, потому что в целом это аггретатор моделей, а не какая-то новая модель. Просто на сайте есть куча пресетов и нейроэффектов (по сути, LoRA для видео). Иногда это даёт прикольный результат, и для определённых задач выходит лучше и быстрее, чем пытаться добиться того же через промпт в другом генераторе. Для художников удобно, но с технической точки зрения ничего любопытного.
А теперь про их новую t2i-модель — Soul. Судя по черри-пикам в твиттере, это и правда очень красивая и реалистичная модель. Что мы видим на самом сайте? Куча готовых пресетов и стилей. Я взял рандомный промпт из галереи (отмечу, что все они там очень длинные) и провёл тесты:
1. Оригинальный промпт + оригинальный пресет «office beach».
2. Оригинальный промпт + пресет «general» (то есть базовая, не затюненная версия модели).
3. Другой промпт из галереи + оригинальный пресет «office beach».
4. Другой промпт + его родной пресет «movie».
5. Другой промпт + пресет «general».
Для сравнения я прогнал те же промпты через Runway (6,7) и Flux dev (8,9).
Итог предсказуем: магии не случилось. Удивлен, что generation diversity ≈ 0, что видно из последней пикчи (10), они больше похожи на вариации одной общей картинки, а не на новые изображения. Есть подозрение, что они просто берут случайную фотку из трейна (ближайшуюу по клип скору) по заданному стилю и в этом же стиле перерисовывают, помешивая промпт и добавляя LoRA. По сути, это тот же Flux либо HiDream, но с пачкой действительно качественных LoRA-пресетов. Какие-то вещи повторить быстро и легко можно, но вряд ли выйдет создать что-то принципиально новое.
И что самое ироничное, со всеми этими «четырёхэтажными» промптами, которые даже не влезли в лимит Runway в 1000 знаков, последний, по-моему, справился даже лучше! Может, чуть меньше реализма, но с точки зрения стиля, атмосферы и эстетики... Просто посмотрите на ковбоя от Runway.
P.S. Все генерации сделаны с первого раза.
higgsfield.ai
@ai_newz