Telegram Web Link
🔥 ScreenPipe — это платформа с открытым исходным кодом для создания, распространения и монетизации AI-приложений с полным контекстом (например, аналогов Rewind или Granola)!

🌟 Она позволяет 24/7 записывать экран, микрофон и нажатия клавиш локально, без передачи данных в облако. Проект разработан с упором на удобство для разработчиков и совместим с различными интеграциями, включая Stripe для монетизации.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🥰1
Media is too big
VIEW IN TELEGRAM
Киберпанк-стартап Wolf Games представил Public Eye — новую детективную игру, где всё построено на базе ИИ.

🕵️‍♀️ Сюжет:

В 2028 году мир утопает в преступности, и даже полиция вынуждена обращаться к гражданам (то есть к нам) за помощью в расследованиях.


💡 Особенности игры:
🟢 Ежедневно ИИ генерирует новые истории, вдохновляясь заголовками криминальных новостей 💀
🟢 Нейросети активно используются: они создают диалоги с персонажами, генерируют фото с мест преступлений и помогают нам, порой делая роль игроков практически незначимой 💀

🚀 Релиз Public Eye ожидается в середине этого лета. Готовы сыграть?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍52
Forwarded from Machinelearning
🌟 Sonata: алгоритм самообучения для получения надежных представлений точечных данных в 3D.

Sonata — самообучающийся алгоритм для работы с облаками точек, опубликованный в рамках CVPR 2025, который решает проблему склонности моделей «цепляться» за простые геометрические подсказки, игнорируя семантику объектов. Это явление, названное «геометрическим сокращением», мешало 3D-решениям распознавать сложные сцены без тонкой настройки.

В отличие от конкурентов, Sonata использует принципиально новую архитектуру: вместо U-Net с декодером здесь работает только энкодер Point Transformer V3. Это снижает риск «геометрических ловушек» и увеличивает каналы для анализа с 96 до 512, что критично для семантики.

Алгоритм учится через самодистилляцию: модель-«студент» анализирует замаскированные фрагменты сцен, а модель-«учитель» стабилизирует обучение на целых сценах. Чтобы избежать шаблонного вывода, координаты замаскированных точек сильно искажают сильнее (σ=0.01), а сложность задач растёт постепенно — маски увеличиваются с 10 см до 40 см за первые 5% обучения.

Студент — основная модель, которая активно обучается. Она анализирует сложные виды данных: например, сцены с 70% замаскированных точек или крошечные фрагменты (5% от всей сцены). Её параметры обновляются через обратное распространение ошибки.

Учитель — «замороженная» версия студента, чьи веса обновляются не через градиенты, а через экспоненциальное скользящее среднее (EMA). Он обрабатывает полные, немодифицированные сцены и служит стабильным ориентиром для студента.


Эти решения позволили собрать гигантский датасет из 140 тыс. 3D-сцен (в 86 раз больше существующих аналогов) и достичь рекордов: точность Sonata при линейном анализе на ScanNet выросла в 3,3 раза (с 21,8% до 72,5%), а с 1% данных метод почти вдвое обгоняет конкурентов.

Интеграция с 2D-моделью DINOv2 добавила детализации — комбинированный подход достиг 75,9%. При этом Sonata тратит меньше ресурсов: даже на компактных архитектурах она достигает SOTA-показателей в семантической сегментации помещений и уличных сцен.

Код проекта доступен на GitHub, а визуализации показывают, как алгоритм «видит» многоэтажные здания, различая комнаты и этажи без подсказок.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3D #Robotics #Sonata
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🥰1
🔥 PaSa — это интеллектуальный агент для поиска научных статей, разработанный компанией ByteDance!

🌟 Он использует большие языковые модели для автоматического выполнения поиска, анализа и выбора релевантных статей. PaSa обучен на синтетическом и реальном академическом датасете и демонстрирует высокую точность по сравнению с традиционными инструментами, такими как Google Scholar.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥1
Media is too big
VIEW IN TELEGRAM
Что означают цифры и буквы в видеокартах NVIDIA ?

https://www.youtube.com/shorts/5D0tSiBeFbY

#NVIDIA, #GeForce, #RTX, #GPU, #GamingPC

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2🤔1
Forwarded from Machinelearning
🌟 Diffusion-4K – это новый инструмент для синтеза изображений в 4K.

Модель text-to-image генерирует фотореалистичные изображения с высоким уровнем детализации и точно следует заданным промптам.

Алгоритм синтеза изображений в рамках Diffusion-4K работает следующим образом:​

🟢Обучение модели: Используется латентная диффузионная модель, такая как SD3-2B или Flux-12B, которая предварительно обучена на изображениях более низкого разрешения.​

🟢Wavelet-based дообучение: Модель дообучается на 4K-изображениях с применением вейвлет-преобразования.
Wavelet-based Fine-tuning – это метод, который использует вейвлет-преобразование для разложения данных (например, изображений) на составляющие с разными частотными характеристиками, после чего проводится дополнительное обучение модели с акцентом на восстановление высокочастотных деталей.
Это позволяет модели фокусироваться на высокочастотных компонентах изображения, улучшая детализацию и качество синтезируемых изображений.​

🟢Генерация изображений: После дообучения модель способна генерировать фотореалистичные 4K-изображения на основе текстовых описаний, обеспечивая высокую точность и соответствие заданным текстовым промптам.​

Алгоритм сочетает в себе предварительное обучение на низких разрешениях и специализированное дообучение на высококачественных 4K-изображениях и позволяет получать качественные генерации на выходе.

Также разработчики выложили Aesthetic-4K – датасет на 10.2 GB отобранных вручную изображений с описаниями к ним, сгенерированными GPT-4o.

🟢 Github
🟢 Dataset
🟢 Статья

@ai_machinelearning_big_data

#ml #ai #4k #imagegenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🥰2🤯1
2025/07/08 22:05:45
Back to Top
HTML Embed Code: