Media is too big
VIEW IN TELEGRAM
📹 DeepMind’s New AIs: The Future is Here!
https://www.youtube.com/watch?v=lgsD_wSZ0hI
@machinelearning_ru
https://www.youtube.com/watch?v=lgsD_wSZ0hI
@machinelearning_ru
👍4❤1👎1🔥1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Новая SOTA для апскейлинга изображений, в которой используются нейронные тепловые поля (Neural Heat Fields) для произвольного масштабирования изображений без наложения спектров.
Основная идея заключается в том, что вместо обычного подхода, где каждый пиксель обрабатывается отдельно, этот метод учитывает влияние соседних пикселей. Это позволяет избежать искажений и сохранить плавность изображения при увеличении.
Предложенный метод достигает нового уровня качества в задаче arbitrary-scale super-resolution, оставаясь при этом существенно более параметрически эффективным по сравнению с предыдущими решениями.
@ai_machinelearning_big_data
#upscaling #neuralheatfields #opensource #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🔥1
⚡️ С сожалением сообщаю, что мем-тест Тьюринга пройден.
LLM создают более смешные мемы, чем среднестатистический человек, по мнению людей.
ИМХО пока что лучшие мемы созданные людьми, все равно превосходят ИИ.
Вот отличный пример. Генератор изображений Gemini превратил эту статью в мем( картинка 3).
LLM создают более смешные мемы, чем среднестатистический человек, по мнению людей.
ИМХО пока что лучшие мемы созданные людьми, все равно превосходят ИИ.
Вот отличный пример. Генератор изображений Gemini превратил эту статью в мем( картинка 3).
👍5❤1🔥1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥1
Media is too big
VIEW IN TELEGRAM
📹 Вышла 2 лекция MIT курса 6.S191: Convolutional Neural Networks
https://www.youtube.com/watch?v=oGpzWAlP5p0
@machinelearning_ru
https://www.youtube.com/watch?v=oGpzWAlP5p0
@machinelearning_ru
👍6❤2🔥1
Forwarded from Machinelearning
На GTC 2025 NVIDIA представила новую серию «персональных суперкомпьютеров с ИИ», построенных на платформе Grace Blackwell - DGX Spark и DGX Station. На них пользователи смогут создавать прототипы, настраивать и запускать модели ИИ.
DGX Spark использует GB10 Grace Blackwell с вычислительной мощностью до 100 трлн. операций в секунду. DGX Station получила чип GB300 Grace Blackwell и 784 ГБ памяти. Spark уже доступен к предзаказу, а Station, как ожидается, будет выпущена в течение этого года.
nvidianews.nvidia.com
Цена $150 за миллион токенов на вход и $600 на выход. Что примерно в 270 раз дороже DeepSeek-R1.
В приложении Google Gemini появилась новая функция «Холст», которая предоставляет интерактивное пространство для редактирования текста в реальном времени, позволяя создавать черновики и экспортировать их в Google Docs. Он также может генерировать и просматривать код HTML/React для упрощения дизайна веб-сайта.
Помимо "Холста" была запущена функция "текст-в-аудио", которая может обобщать загруженный текст из файлов в аудиоформате и имитировать обсуждение двух ИИ-ведущих так же, как это реализовано в NotebookLM. В настоящее время поддерживается только английский язык, но обещают, что в будущем появится мультиязычность.
9to5google.com
NVIDIA анонсировала выпуск профессиональной серии видеокарт для ИИ, 3D и научных исследований. В линейке RTX PRO 6000 будет 3 версии: Workstation Edition в дизайне RTX 5090, Server Edition с пассивным радиатором охлаждения для ЦОДов и Max-Q Edition с системой воздушного охлаждения турбинного типа для мульти-GPU решений.
Все три версии получат 96 ГБ G7 ECC VRAM, чипы GB202 и 24064 CUDA-ядер. Энергопотребление у Workstation Edition и Server Edition - 600 Вт, а у Max-Q Edition - 300 Вт. Дата начала продаж: апрель-май 2025 года, стоимость в анонсе не раскрывалась.
theverge.com
Компания Илона Маска совершила первую крупную сделку, поглотив стартап Hotshot, известный разработкой text-to-video моделей. Как заявил Маск в соцсети X, вскоре пользователей ждут «крутые ИИ-видео» — вероятно, благодаря интеграции технологий Hotshot в экосистему xAI.
Hotshot был основан в 2017 году и изначально создавал инструменты для редактирования фото на базе ИИ, но позже переключился на генерацию видео. За 2 года команда разработала 3 фундаментальные модели: Hotshot-XL, Hotshot Act One и Hotshot, которые позволяют превращать текстовые описания в реалистичные ролики. Финансовые условия сделки не раскрыты, однако известно, что стартап получит доступ к кластеру Colossus — мощной инфраструктуре xAI с 200 000 GPU NVIDIA H100.
analyticsindiamag.com
Deloitte представила Zora AI — ИИ-платформу, которая объединяет агентов для автоматизации сложных бизнес-процессов. Решение, построенное на моделях Llama Nemotron с функциями анализа и рассуждений, способно автономно выполнять задачи в финансах, HR, логистике и других сферах.
Платформа автоматизирует моделирование сценариев, анализ рынка и управление расходами, что подтверждает внутренний опыт Deloitte: автоматизация процессов снизила затраты на 25%, а продуктивность команды выросла на 40%.
deloitte.com
Обучена на 100 тыс. часов аудио. На выходе получается естественная и эмоциональная речь.
HF
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🔊 Компания Kyutai только что выпустила MoshiVis — искусственный интеллект, преобразующий речь в речь в режиме реального времени, который может распознавать и озвучивать содержимое изображения — вашим голосом. 🖼️
> 🗣️ Поддерживает полнодуплексный разговор: говорит и слушает одновременно
> 🔊 Сохраняет заданные тон и эмоции
> ⚡ Задержка всего +7 мс — работа в режиме реального времени
Demo: https://vis.moshi.chat
Preprint: https://arxiv.org/abs/2503.15633
Dataset: https://huggingface.co/datasets/kyutai/Babillage
Weights: https://huggingface.co/kyutai/moshika-vis-pytorch-bf16
> 🗣️ Поддерживает полнодуплексный разговор: говорит и слушает одновременно
> 🔊 Сохраняет заданные тон и эмоции
> ⚡ Задержка всего +7 мс — работа в режиме реального времени
Demo: https://vis.moshi.chat
Preprint: https://arxiv.org/abs/2503.15633
Dataset: https://huggingface.co/datasets/kyutai/Babillage
Weights: https://huggingface.co/kyutai/moshika-vis-pytorch-bf16
❤1👍1🔥1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3🥰1
Media is too big
VIEW IN TELEGRAM
✨ Киберпанк-стартап Wolf Games представил Public Eye — новую детективную игру, где всё построено на базе ИИ.
🕵️♀️ Сюжет:
В 2028 году мир утопает в преступности, и даже полиция вынуждена обращаться к гражданам (то есть к нам) за помощью в расследованиях.
💡 Особенности игры:
🟢 Ежедневно ИИ генерирует новые истории, вдохновляясь заголовками криминальных новостей 💀
🟢 Нейросети активно используются: они создают диалоги с персонажами, генерируют фото с мест преступлений и помогают нам, порой делая роль игроков практически незначимой 💀
🚀 Релиз Public Eye ожидается в середине этого лета. Готовы сыграть?
🕵️♀️ Сюжет:
В 2028 году мир утопает в преступности, и даже полиция вынуждена обращаться к гражданам (то есть к нам) за помощью в расследованиях.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍5❤2
Forwarded from Machinelearning
Sonata — самообучающийся алгоритм для работы с облаками точек, опубликованный в рамках CVPR 2025, который решает проблему склонности моделей «цепляться» за простые геометрические подсказки, игнорируя семантику объектов. Это явление, названное «геометрическим сокращением», мешало 3D-решениям распознавать сложные сцены без тонкой настройки.
В отличие от конкурентов, Sonata использует принципиально новую архитектуру: вместо U-Net с декодером здесь работает только энкодер Point Transformer V3. Это снижает риск «геометрических ловушек» и увеличивает каналы для анализа с 96 до 512, что критично для семантики.
Алгоритм учится через самодистилляцию: модель-«студент» анализирует замаскированные фрагменты сцен, а модель-«учитель» стабилизирует обучение на целых сценах. Чтобы избежать шаблонного вывода, координаты замаскированных точек сильно искажают сильнее (σ=0.01), а сложность задач растёт постепенно — маски увеличиваются с 10 см до 40 см за первые 5% обучения.
Студент — основная модель, которая активно обучается. Она анализирует сложные виды данных: например, сцены с 70% замаскированных точек или крошечные фрагменты (5% от всей сцены). Её параметры обновляются через обратное распространение ошибки.
Учитель — «замороженная» версия студента, чьи веса обновляются не через градиенты, а через экспоненциальное скользящее среднее (EMA). Он обрабатывает полные, немодифицированные сцены и служит стабильным ориентиром для студента.
Эти решения позволили собрать гигантский датасет из 140 тыс. 3D-сцен (в 86 раз больше существующих аналогов) и достичь рекордов: точность Sonata при линейном анализе на ScanNet выросла в 3,3 раза (с 21,8% до 72,5%), а с 1% данных метод почти вдвое обгоняет конкурентов.
Интеграция с 2D-моделью DINOv2 добавила детализации — комбинированный подход достиг 75,9%. При этом Sonata тратит меньше ресурсов: даже на компактных архитектурах она достигает SOTA-показателей в семантической сегментации помещений и уличных сцен.
Код проекта доступен на GitHub, а визуализации показывают, как алгоритм «видит» многоэтажные здания, различая комнаты и этажи без подсказок.
@ai_machinelearning_big_data
#AI #ML #3D #Robotics #Sonata
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3🥰1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3🔥1
Media is too big
VIEW IN TELEGRAM
https://www.youtube.com/shorts/5D0tSiBeFbY
#NVIDIA, #GeForce, #RTX, #GPU, #GamingPC
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥2🤔1