This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Game
Tencent представил ИИ-движок для создания графики в играх.
• AI Art Pipeline: Полный цикл создания арта — от идеи до финальной 3D-проекции — в одном окне.
• Холст в реальном времени: Ты рисуешь — ИИ сразу показывает, как будет выглядеть финальная версия.
• Генератор 2D-графики: ИИ точно понимает, что ты хочешь - без искажённых промптов.
• Мультиракурсы персонажей: ИИ автоматически создаёт вид спереди, сбоку, сзади + 360°-просмотр.
Записаться в вейтлист
#gamedev #3d
Tencent представил ИИ-движок для создания графики в играх.
• AI Art Pipeline: Полный цикл создания арта — от идеи до финальной 3D-проекции — в одном окне.
• Холст в реальном времени: Ты рисуешь — ИИ сразу показывает, как будет выглядеть финальная версия.
• Генератор 2D-графики: ИИ точно понимает, что ты хочешь - без искажённых промптов.
• Мультиракурсы персонажей: ИИ автоматически создаёт вид спереди, сбоку, сзади + 360°-просмотр.
Записаться в вейтлист
#gamedev #3d
Magentic-UI
Агентная система от Microsoft Research на AutoGen
• Планирует вместе с тобой: Агент предлагает пошаговый план действий, который можно изменить, утвердить или уточнить.
• Показывает, что делает: Все действия видны — клики, ввод текста, навигация.
• Спрашивает разрешение перед важными действиями: Агент не будет нажимать на кнопки "удалить" или "оплатить" без согласия.
• Обучается на успешных сценариях: Завершил задачу? Теперь этот план можно переиспользовать в будущем.
Где это может пригодиться?
• Заполнение длинных форм и анкет
• Автоматизация рутинных действий в браузере
• Создание умных пользовательских сценариев
• Обучение и настройка собственных браузерных агентов
Устанавливается через Docker
Код
#agent #assistant
Агентная система от Microsoft Research на AutoGen
• Планирует вместе с тобой: Агент предлагает пошаговый план действий, который можно изменить, утвердить или уточнить.
• Показывает, что делает: Все действия видны — клики, ввод текста, навигация.
• Спрашивает разрешение перед важными действиями: Агент не будет нажимать на кнопки "удалить" или "оплатить" без согласия.
• Обучается на успешных сценариях: Завершил задачу? Теперь этот план можно переиспользовать в будущем.
Где это может пригодиться?
• Заполнение длинных форм и анкет
• Автоматизация рутинных действий в браузере
• Создание умных пользовательских сценариев
• Обучение и настройка собственных браузерных агентов
Устанавливается через Docker
Код
#agent #assistant
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация видео LTXV 13b в реальном времени (почти) на H100
Воркфлоу в комментариях
Реддит
#text2video #image2video #realtime #workflow
Воркфлоу в комментариях
Реддит
#text2video #image2video #realtime #workflow
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
VEO 3
Новая модель видеогенератора от Google Deepmind
Нативно создает звук вместе с видео, в том числе диалоги.
Лучше понимает сложные промпты, в том числе с меняющимися сценами
Доступен сегодня в правильной стране
#text2video #news #text2movie #sota
Новая модель видеогенератора от Google Deepmind
Нативно создает звук вместе с видео, в том числе диалоги.
Лучше понимает сложные промпты, в том числе с меняющимися сценами
Доступен сегодня в правильной стране
#text2video #news #text2movie #sota
В Flow дают месяц бесплатного доступа к Pro подписке (для VEO 3 нужна Ultra). Но опять же, в правильной стране
#videoediting #imageediting
#videoediting #imageediting
Forwarded from Denis Sexy IT 🤖
А еще запустили flow.google – это аналог Sora, но намного мощнее – там можно делать фильмы целиком, сразу со звуком
Тулинг для инструмента помогали делать именитые режиссеры вроде Аронофски (второе видео)
Тулинг для инструмента помогали делать именитые режиссеры вроде Аронофски (второе видео)
Forwarded from эйай ньюз
Что показали на Google I/O?
Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.
Сначала самое жаркое:
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".
Для технарей:
- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.
Mic drop...🎤
@ai_newz
Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.
Сначала самое жаркое:
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".
Для технарей:
- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.
Mic drop...
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM