Telegram Web Link
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Game

Tencent представил ИИ-движок для создания графики в играх.

• AI Art Pipeline: Полный цикл создания арта — от идеи до финальной 3D-проекции — в одном окне.
• Холст в реальном времени: Ты рисуешь — ИИ сразу показывает, как будет выглядеть финальная версия.
• Генератор 2D-графики: ИИ точно понимает, что ты хочешь - без искажённых промптов.
• Мультиракурсы персонажей: ИИ автоматически создаёт вид спереди, сбоку, сзади + 360°-просмотр.

Записаться в вейтлист

#gamedev #3d
Magentic-UI

Агентная система от Microsoft Research на AutoGen

• Планирует вместе с тобой: Агент предлагает пошаговый план действий, который можно изменить, утвердить или уточнить.
• Показывает, что делает: Все действия видны — клики, ввод текста, навигация.
• Спрашивает разрешение перед важными действиями: Агент не будет нажимать на кнопки "удалить" или "оплатить" без согласия.
• Обучается на успешных сценариях: Завершил задачу? Теперь этот план можно переиспользовать в будущем.

Где это может пригодиться?
• Заполнение длинных форм и анкет
• Автоматизация рутинных действий в браузере
• Создание умных пользовательских сценариев
• Обучение и настройка собственных браузерных агентов

Устанавливается через Docker

Код

#agent #assistant
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация видео LTXV 13b в реальном времени (почти) на H100

Воркфлоу в комментариях

Реддит

#text2video #image2video #realtime #workflow
VEO 3

Новая модель видеогенератора от Google Deepmind

Нативно создает звук вместе с видео, в том числе диалоги.

Лучше понимает сложные промпты, в том числе с меняющимися сценами

Доступен сегодня в правильной стране

#text2video #news #text2movie #sota
В Flow дают месяц бесплатного доступа к Pro подписке (для VEO 3 нужна Ultra). Но опять же, в правильной стране

#videoediting #imageediting
Forwarded from Denis Sexy IT 🤖
А еще запустили flow.google – это аналог Sora, но намного мощнее – там можно делать фильмы целиком, сразу со звуком

Тулинг для инструмента помогали делать именитые режиссеры вроде Аронофски (второе видео)
Forwarded from эйай ньюз
Что показали на Google I/O?

Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.

Сначала самое жаркое:

- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".

Для технарей:

- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.

Mic drop...🎤

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/05 14:22:50
Back to Top
HTML Embed Code: