Telegram Web Link
🔥 В этой статье проводится иследование, как улучшить работу больших языковых моделей при обработке длинных контекстов!

🌟 Авторы анализируют распределение внимания на разных слоях модели и выявляют его связь с качеством генерируемых ответов. На основе этих наблюдений они предлагают метод InfiniRetri, который использует информацию о внимании самой модели для точного извлечения данных из входных последовательностей произвольной длины.

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Thera: Aliasing-Free Arbitrary-Scale Super-Resolution with Neural Heat Fields

Новая SOTA для апскейлинга изображений, в которой используются нейронные тепловые поля (Neural Heat Fields) для произвольного масштабирования изображений без наложения спектров.

Основная идея заключается в том, что вместо обычного подхода, где каждый пиксель обрабатывается отдельно, этот метод учитывает влияние соседних пикселей. Это позволяет избежать искажений и сохранить плавность изображения при увеличении.

Предложенный метод достигает нового уровня качества в задаче arbitrary-scale super-resolution, оставаясь при этом существенно более параметрически эффективным по сравнению с предыдущими решениями.

🟢 Универсальность: Возможность масштабирования с практически любым разрешением делает инструмент гибким для различных задач в компьютерном зрении и обработке изображений.
🟢Простота интеграции: Доступны чекпоинты, понятная документация и готовые скрипты для суперразрешения позволяют легко внедрить инструмент в проекты.

🟡Проект: therasr.github.io
🟡Статья: arxiv.org/abs/2311.17643
🟡Github: github.com/prs-eth/thera
🟡Demo: https://huggingface.co/spaces/prs-eth/thera

@ai_machinelearning_big_data


#upscaling #neuralheatfields #opensource #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1
⚡️ С сожалением сообщаю, что мем-тест Тьюринга пройден.

LLM создают более смешные мемы, чем среднестатистический человек, по мнению людей.

ИМХО пока что лучшие мемы созданные людьми, все равно превосходят ИИ.


Вот отличный пример. Генератор изображений Gemini превратил эту статью в мем( картинка 3).
👍51🔥1
🔥 NarratoAI — инструмент, который использует LLM для генерации сценариев, автоматического редактирования видео, озвучивания и создания субтитров!

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1
Media is too big
VIEW IN TELEGRAM
📹 Вышла 2 лекция MIT курса 6.S191: Convolutional Neural Networks

https://www.youtube.com/watch?v=oGpzWAlP5p0

@machinelearning_ru
👍62🔥1
Forwarded from Machinelearning
✔️ Nvidia выпускает 2 персональных суперкомпьютера.

На GTC 2025 NVIDIA представила новую серию «персональных суперкомпьютеров с ИИ», построенных на платформе Grace Blackwell - DGX Spark и DGX Station. На них пользователи смогут создавать прототипы, настраивать и запускать модели ИИ.

DGX Spark использует GB10 Grace Blackwell с вычислительной мощностью до 100 трлн. операций в секунду. DGX Station получила чип GB300 Grace Blackwell и 784 ГБ памяти. Spark уже доступен к предзаказу, а Station, как ожидается, будет выпущена в течение этого года.
nvidianews.nvidia.com

✔️ OpenAI выпустили o1-pro и сейчас это самая дорогая модель.

Цена $150 за миллион токенов на вход и $600 на выход. Что примерно в 270 раз дороже DeepSeek-R1.

✔️ В Gemini добавили новые инструменты.

В приложении Google Gemini появилась новая функция «Холст», которая предоставляет интерактивное пространство для редактирования текста в реальном времени, позволяя создавать черновики и экспортировать их в Google Docs. Он также может генерировать и просматривать код HTML/React для упрощения дизайна веб-сайта.

Помимо "Холста" была запущена функция "текст-в-аудио", которая может обобщать загруженный текст из файлов в аудиоформате и имитировать обсуждение двух ИИ-ведущих так же, как это реализовано в NotebookLM. В настоящее время поддерживается только английский язык, но обещают, что в будущем появится мультиязычность.
9to5google.com

✔️ RTX PRO 6000 от NVIDIA

NVIDIA анонсировала выпуск профессиональной серии видеокарт для ИИ, 3D и научных исследований. В линейке RTX PRO 6000 будет 3 версии: Workstation Edition в дизайне RTX 5090, Server Edition с пассивным радиатором охлаждения для ЦОДов и Max-Q Edition с системой воздушного охлаждения турбинного типа для мульти-GPU решений.

Все три версии получат 96 ГБ G7 ECC VRAM, чипы GB202 и 24064 CUDA-ядер. Энергопотребление у Workstation Edition и Server Edition - 600 Вт, а у Max-Q Edition - 300 Вт. Дата начала продаж: апрель-май 2025 года, стоимость в анонсе не раскрывалась.
theverge.com

✔️ xAI приобрела стартап Hotshot для развития генерации видео из текста.

Компания Илона Маска совершила первую крупную сделку, поглотив стартап Hotshot, известный разработкой text-to-video моделей. Как заявил Маск в соцсети X, вскоре пользователей ждут «крутые ИИ-видео» — вероятно, благодаря интеграции технологий Hotshot в экосистему xAI.

Hotshot был основан в 2017 году и изначально создавал инструменты для редактирования фото на базе ИИ, но позже переключился на генерацию видео. За 2 года команда разработала 3 фундаментальные модели: Hotshot-XL, Hotshot Act One и Hotshot, которые позволяют превращать текстовые описания в реалистичные ролики. Финансовые условия сделки не раскрыты, однако известно, что стартап получит доступ к кластеру Colossus — мощной инфраструктуре xAI с 200 000 GPU NVIDIA H100.
analyticsindiamag.com

✔️ Deloitte запускает Zora AI: автономные агенты для бизнеса.

Deloitte представила Zora AI — ИИ-платформу, которая объединяет агентов для автоматизации сложных бизнес-процессов. Решение, построенное на моделях Llama Nemotron с функциями анализа и рассуждений, способно автономно выполнять задачи в финансах, HR, логистике и других сферах.

Платформа автоматизирует моделирование сценариев, анализ рынка и управление расходами, что подтверждает внутренний опыт Deloitte: автоматизация процессов снизила затраты на 25%, а продуктивность команды выросла на 40%.
deloitte.com

✔️Orpheus 3B - новый высококачественный, генератор эмоциональной речи - лицензия Apache 2.0! 🔥

Обучена на 100 тыс. часов аудио. На выходе получается естественная и эмоциональная речь.
HF

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥1
🔥 apple-mcp — это коллекция нативных инструментов, разработанных для интеграции с приложениями Apple посредством Model Context Protocol (MCP)!

🌟 Этот набор позволяет отправлять и получать сообщения из приложения "Сообщения", а также искать и открывать заметки и контакты в соответствующих приложениях. В планах разработчиков — добавить поддержку календарных событий, напоминаний, фотографий и музыки.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🔊 Компания Kyutai только что выпустила MoshiVis — искусственный интеллект, преобразующий речь в речь в режиме реального времени, который может распознавать и озвучивать содержимое изображения — вашим голосом. 🖼️

> 🗣️ Поддерживает полнодуплексный разговор: говорит и слушает одновременно
> 🔊 Сохраняет заданные тон и эмоции
> Задержка всего +7 мс — работа в режиме реального времени

Demo: https://vis.moshi.chat
Preprint: https://arxiv.org/abs/2503.15633
Dataset: https://huggingface.co/datasets/kyutai/Babillage
Weights: https://huggingface.co/kyutai/moshika-vis-pytorch-bf16
1👍1🔥1
🔥 ScreenPipe — это платформа с открытым исходным кодом для создания, распространения и монетизации AI-приложений с полным контекстом (например, аналогов Rewind или Granola)!

🌟 Она позволяет 24/7 записывать экран, микрофон и нажатия клавиш локально, без передачи данных в облако. Проект разработан с упором на удобство для разработчиков и совместим с различными интеграциями, включая Stripe для монетизации.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🥰1
Media is too big
VIEW IN TELEGRAM
Киберпанк-стартап Wolf Games представил Public Eye — новую детективную игру, где всё построено на базе ИИ.

🕵️‍♀️ Сюжет:

В 2028 году мир утопает в преступности, и даже полиция вынуждена обращаться к гражданам (то есть к нам) за помощью в расследованиях.


💡 Особенности игры:
🟢 Ежедневно ИИ генерирует новые истории, вдохновляясь заголовками криминальных новостей 💀
🟢 Нейросети активно используются: они создают диалоги с персонажами, генерируют фото с мест преступлений и помогают нам, порой делая роль игроков практически незначимой 💀

🚀 Релиз Public Eye ожидается в середине этого лета. Готовы сыграть?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍52
Forwarded from Machinelearning
🌟 Sonata: алгоритм самообучения для получения надежных представлений точечных данных в 3D.

Sonata — самообучающийся алгоритм для работы с облаками точек, опубликованный в рамках CVPR 2025, который решает проблему склонности моделей «цепляться» за простые геометрические подсказки, игнорируя семантику объектов. Это явление, названное «геометрическим сокращением», мешало 3D-решениям распознавать сложные сцены без тонкой настройки.

В отличие от конкурентов, Sonata использует принципиально новую архитектуру: вместо U-Net с декодером здесь работает только энкодер Point Transformer V3. Это снижает риск «геометрических ловушек» и увеличивает каналы для анализа с 96 до 512, что критично для семантики.

Алгоритм учится через самодистилляцию: модель-«студент» анализирует замаскированные фрагменты сцен, а модель-«учитель» стабилизирует обучение на целых сценах. Чтобы избежать шаблонного вывода, координаты замаскированных точек сильно искажают сильнее (σ=0.01), а сложность задач растёт постепенно — маски увеличиваются с 10 см до 40 см за первые 5% обучения.

Студент — основная модель, которая активно обучается. Она анализирует сложные виды данных: например, сцены с 70% замаскированных точек или крошечные фрагменты (5% от всей сцены). Её параметры обновляются через обратное распространение ошибки.

Учитель — «замороженная» версия студента, чьи веса обновляются не через градиенты, а через экспоненциальное скользящее среднее (EMA). Он обрабатывает полные, немодифицированные сцены и служит стабильным ориентиром для студента.


Эти решения позволили собрать гигантский датасет из 140 тыс. 3D-сцен (в 86 раз больше существующих аналогов) и достичь рекордов: точность Sonata при линейном анализе на ScanNet выросла в 3,3 раза (с 21,8% до 72,5%), а с 1% данных метод почти вдвое обгоняет конкурентов.

Интеграция с 2D-моделью DINOv2 добавила детализации — комбинированный подход достиг 75,9%. При этом Sonata тратит меньше ресурсов: даже на компактных архитектурах она достигает SOTA-показателей в семантической сегментации помещений и уличных сцен.

Код проекта доступен на GitHub, а визуализации показывают, как алгоритм «видит» многоэтажные здания, различая комнаты и этажи без подсказок.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3D #Robotics #Sonata
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🥰1
🔥 PaSa — это интеллектуальный агент для поиска научных статей, разработанный компанией ByteDance!

🌟 Он использует большие языковые модели для автоматического выполнения поиска, анализа и выбора релевантных статей. PaSa обучен на синтетическом и реальном академическом датасете и демонстрирует высокую точность по сравнению с традиционными инструментами, такими как Google Scholar.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥1
Media is too big
VIEW IN TELEGRAM
Что означают цифры и буквы в видеокартах NVIDIA ?

https://www.youtube.com/shorts/5D0tSiBeFbY

#NVIDIA, #GeForce, #RTX, #GPU, #GamingPC

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2🤔1
2025/07/08 19:28:10
Back to Top
HTML Embed Code: