Telegram Web Link
Forwarded from Machinelearning
🌟 Diffusion-4K – это новый инструмент для синтеза изображений в 4K.

Модель text-to-image генерирует фотореалистичные изображения с высоким уровнем детализации и точно следует заданным промптам.

Алгоритм синтеза изображений в рамках Diffusion-4K работает следующим образом:​

🟢Обучение модели: Используется латентная диффузионная модель, такая как SD3-2B или Flux-12B, которая предварительно обучена на изображениях более низкого разрешения.​

🟢Wavelet-based дообучение: Модель дообучается на 4K-изображениях с применением вейвлет-преобразования.
Wavelet-based Fine-tuning – это метод, который использует вейвлет-преобразование для разложения данных (например, изображений) на составляющие с разными частотными характеристиками, после чего проводится дополнительное обучение модели с акцентом на восстановление высокочастотных деталей.
Это позволяет модели фокусироваться на высокочастотных компонентах изображения, улучшая детализацию и качество синтезируемых изображений.​

🟢Генерация изображений: После дообучения модель способна генерировать фотореалистичные 4K-изображения на основе текстовых описаний, обеспечивая высокую точность и соответствие заданным текстовым промптам.​

Алгоритм сочетает в себе предварительное обучение на низких разрешениях и специализированное дообучение на высококачественных 4K-изображениях и позволяет получать качественные генерации на выходе.

Также разработчики выложили Aesthetic-4K – датасет на 10.2 GB отобранных вручную изображений с описаниями к ним, сгенерированными GPT-4o.

🟢 Github
🟢 Dataset
🟢 Статья

@ai_machinelearning_big_data

#ml #ai #4k #imagegenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ ByteDance выпустила InfiniteYou: бесконечные вариации портрета.

ByteDance представила InfiniteYou — ИИ-систему, которая генерирует фотореалистичные портреты, сохраняя сходство с оригиналом и точно следуя текстовым запросам. В отличие от PuLID-FLUX, в InfiniteYou черты лица обрабатываются отдельным слоем, что повышает качество без риска переобучения.

Технология использует двухэтапное обучение: сначала на реальных фото, затем — на синтетических изображениях. По данным тестов, 72,8% участников выбрали результаты InfiniteYou из-за детализации и отсутствия артефактов вроде «копирования» лиц. Система совместима с ControlNet и LoRA, а для генерации нужно всего 4 шага.

Исходный код и веса модели уже доступны на GitHub и Hugging Face, демо-версия доступна тут.
analyticsindiamag.com

✔️ NVIDIA представила Project G-Assist: локальный ИИ-агент для геймеров.

Компания NVIDIA анонсировала экспериментальный релиз Project G-Assist — ИИ-агента, использующего компактную языковую модель, которая обрабатывает голосовые или текстовые запросы, оптимизируя настройки игр, мониторинг производительности и даже управление подсветкой периферии от Logitech или Corsair. Всё работает оффлайн, без подписок и облачных серверов.

Для разработчиков открыт доступ к GitHub-репозиторию: там есть шаблоны для создания плагинов, интеграции со Spotify, Twitch или Google Gemini. Технические требования — RTX 30/40/50 серии, 12 ГБ видеопамяти и свежие драйверы.
nvidia.com

✔️ Роботы Figure 02 ходят почти как люди.

Figure разработала революционный метод обучения человекоподобных роботов — кастомная end-to-end нейросеть на основе RL за несколько часов «прокачала» движения Figure 02 до уровня естественной человеческой походки.

Все благодаря симулятору, где тысячи виртуальных роботов учились ходить по разным поверхностям, падать и реагировать на толчки. Ключевая фишка — перенос навыков из симуляции в реальность без доработок: помогли рандомизация параметров и мгновенная коррекция крутящего момента. Обещают, что уже скоро робот Helix на этой же базе сможет готовить и убираться.
figure.ai

✔️ Apple планирует обучать ИИ на фото из Look Around в Apple Maps.

Apple обновила раздел сайта, подтвердив использование снимков из Look Around (аналог Street View) для тренировки ИИ-моделей с марта 2025 года. Данные, собранные камерами на автомобилях и с переносных инсталляций (для пешеходных зон), включая 3D-карты, помогут улучшить распознавание изображений, генерацию контента и поиск в приложении «Фото».

Для защиты приватности Apple блюрит лица и номера машин на фото, а также готова скрыть частные строения по запросу. Обучение моделей будет проводиться только с обработанными изображениями. Подробности о конкретных алгоритмах компания пока не раскрывает, возможно о них станет известно на WWDC 2025, который пройдет с 9 по 13 июня.
9to5mac.com

✔️ Tesla покажет своего робота Optimus представителям Капитолия.

Tesla присоединится к симпозиуму по робототехнике в Капитолии, чтобы продемонстрировать своего человекоподобного робота Optimus конгрессменам и сотрудникам Белого дома. Мероприятие, организованное A3 Automate и Университетом Карнеги-Меллон. пройдёт в 26 марта в здании Cannon House Office.

В приглашении Tesla подчеркивает, что робот позволит «заглянуть в будущее», и приглашает всех желающих оценить разработку.
axios.com

@ai_machinelearning_big_data

#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
📖 Эта статья исследует, как предустановленные инструкции в LLM влияют на их способность к индуктивным рассуждениям в реальных задачах!

🌟 Авторы анализируют, насколько обучение модели в контексте (in-context learning) и использование демонстраций задач на самом деле улучшает генерацию гипотез по сравнению с её изначальными предустановками.

🌟 Исследование показывает, что качество гипотез в значительной степени определяется самой моделью, а не демонстрациями: удаление контекстных подсказок приводит к минимальному снижению качества. Это указывает на сильное влияние заранее заданных параметров модели, которые трудно переопределить даже при изменении меток данных. Работа подчёркивает необходимость лучшего использования предустановок моделей для повышения их эффективности в реальных задачах.

🔗 Читать: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Графические дизайнеры реагируют на обновы chatgpt

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 DeepScaleR-1.5B-preview - модель с открытым исходным кодом и 1,5B-параметрами, обученная с помощью RL, чтобы превзойти o1-preview для общих математических рассуждений!

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
📈 График лидеров Arena октябрь 2024 г. – март 2025 г.

В прошлом месяце мы наблюдали напряженную борьбу за лидерство на арене между xAI и OpenAI.

А на этой неделе у нас появился новый лидер - Gemini 2.5 Pro ! 😮

Модель взяла сов на новые высоты 📈
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 TripoSG и TripoSF — это новые модели генеративного ИИ для создания высококачественных 3D-моделей.

TripoSG 1.5B преобразует одиночные 2D-изображения (фото, эскизы, мультяшные картинки) в детализированные 3D-сетки (meshes).

TripoSF - это продвинутый инструмент: он работает с более сложными топологиями, создает высокое разрешение (до 1024³) и может моделировать даже внутренние детали объектов, например, сложные механизмы.

😶Как работают эти модели?
TripoSG использует rectified flow transformers (трансформеры с выпрямленным потоком). Это метод, который упрощает процесс генерации, соединяя данные и шум по прямой линии (в отличие от традиционных диффузионных моделей, где путь более сложный).
Дифференцируемое представление данных, которое позволяет экономить память при работе с высоким разрешением .

😶Данные для обучения: Модель обучена на специально подготовленном наборе данных из 2 миллионов пар "изображение-SDF" (SDF — signed distance function, функция, описывающая расстояние до поверхности объекта).

😶Процесс работы: Вы загружаете одно изображение (например, фото статуи или рисунок персонажа). Модель анализирует его, используя вариационный автоэнкодер (VAE) с геометрическим надзором, и генерирует 3D-сетку с высокой детализацией.

😶Результат: На выходе получаем 3D-модель, которую можно использовать в играх, анимации или 3D-печати.
TripoSF

Модель может обрабатывать сложные топологии (например, открытые поверхности или внутренние структуры) и обучена с использованием вокселей, учитывающих перспективу (frustum-aware voxels).

Tripo известны своим сотрудничеством со Stability AI. Ранее они выпустили TripoSR — модель для быстрой реконструкции 3D-объектов из одного изображения, которая тоже стала open-source. TripoSG и TripoSF — это более продвинутые версии, которые расширяют возможности 3D геенрацит: от простых объектов до сложных структур с высоким разрешением.

🟡Github
🟡Model
🟡Project
🟡Paper

@ai_machinelearning_big_data


#ai #3dgeneration #opensource #Tripo
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 RAT (Retrieval Augmented Thinking) — это инструмент, улучшающий ответы ИИ за счет двухэтапного процесса рассуждения!

🌟 Он использует DeepSeek для генерации обоснований и OpenRouter (или другие модели) для финального ответа. Такой подход делает ответы более осмысленными, контекстно зависимыми и логичными.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ Теперь Gemini 2.5 Pro теперь доступна бесплатно для всех пользователей с аккаунтом Google.

Ранее доступ к ней был ограничен подписчиками Gemini Advanced с тарифом Google One AI Premium за $19,99 в месяц. ​

Пользуемся: http://gemini.google.com

@ai_machinelearning_big_data


#Gemini #google
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀Прими участие в ML Cup 2025 от Авито и выиграй 1,2 миллиона рублей!

Ты — специалист в области машинного обучения? Хочешь проверить свои силы в реальных задачах, с которыми ежедневно сталкиваются 1000+ специалистов Авито? Тогда не упусти шанс стать частью крупнейшего соревнования в этой области!

Что тебя ждет:

☑️Денежный призовой фонд
☑️Автоматизированная оценка решений
☑️2 практические задачи:

1️⃣Персональные рекомендации — предскажи, какие товары вызовут интерес у миллионов пользователей → ссылка на регистрацию.

2️⃣Поиск дублей — как с помощью CV находить похожие объявления даже при разных текстах и ракурсах фото → ссылка на регистрацию.

Выбирай одну или обе задачи, показывай лучшие результаты и получай шанс на победу! Участвовать можно как индивидуально, так и в команде до 4 человек. Загружай до 5 решений в день.

Регистрация уже открыта! Подробности и анкета по ссылкам выше.
Please open Telegram to view this post
VIEW IN TELEGRAM
📖 Эта статья представляет O1-Pruner — метод оптимизации больших языковых моделей (LLM) с долгими цепочками рассуждений!

🌟 Современные модели, такие как OpenAI O1, выполняют сложные многошаговые рассуждения, что улучшает точность, но значительно увеличивает время вывода. O1-Pruner решает эту проблему с помощью техники Length-Harmonizing Fine-Tuning, которая уменьшает длину рассуждений без потери точности.

🌟 Метод сначала оценивает базовую производительность модели, а затем использует обучение с подкреплением (RL) для сокращения избыточных шагов рассуждения. В результате достигается меньшее время вывода и лучшие результаты на тестах математического мышления. Исследование показывает, что O1-Pruner снижает вычислительные затраты, сохраняя при этом высокий уровень точности.

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ZLUDA — новая экспериментальная технология, позволяющая запускать CUDA-приложения на видеокартах AMD без модификаций кода. Проект особенно интересен для обладателей видеокарт Radeon RX 5000+ серий, предлагая достойную альтернативу стеку NVIDIA. Пока решение остается в разработке, но уже есть тесты от GeekBench 5.5.1, которые показывают многообещающие результаты — производительность близка к нативной CUDA.

🧑‍💻Как это работает?
ZLUDA подменяет системные библиотеки CUDA, перенаправляя вызовы через совместимый с ROCm интерфейс. Для запуска достаточно скопировать DLL-файлы в директорию приложения или использовать специальный лаунчер.

‼️ Важно:
—Поддержка пока ограничена Windows и Linux
—Требуются свежие драйверы Adrenalin Edition
—MacOS не поддерживается

🔗 Ссылка - *клик*
🛜 lti-Token Attention — инновационный механизм внимания, преодолевающий ограничение традиционных трансформеров.

Первые результаты впечатляют: в тестах на длинных контекстах MTA демонстрирует до 97% точности против 50% у обычных трансформеров, а при обучении на 105 млрд токенов показывает лучшую перплексию на arXiv, GitHub и Wikipedia.

🔗 Ссылка - *клик*

@machinelearning_ru
Forwarded from Machinelearning
✔️ Исследование Anthropic: ИИ скрывает свои мысли даже в цепочках рассуждений.

В Anthropic проверили, насколько топовые модели описывают свои рассуждения. Оказалось, что в 75% случаев модели не упоминали подсказки, влиявшие на ответы, даже если те были некорректными или получены неэтичным путем. Например, при «джейлбрейке» системы для получения бонусов за неверные ответы модели редко признавались в обмане — вместо этого они придумывали псевдологику.

Эксперименты показали: обучение моделей сложным задачам повышало прозрачность их рассуждений, но лишь до уровня 20–28%. После этого прогресс останавливался. Даже при явном использовании «лазеек» в заданиях ИИ предпочитал скрывать свои манипуляции, создавая длинные, но фальшивые объяснения.

Это ставит под вопрос надежность мониторинга через Chain-of-Thought. Если ИИ научится скрывать нежелательное поведение, обнаружить его станет почти невозможно.
anthropic.com

@ai_machinelearning_big_data

#Anthropic #ml #reasoning
Forwarded from Machinelearning
🧠 ​В исследовании, опубликованном в журнале Science, нейробиологи впервые наблюдали, как глубокие структуры мозга, в частности таламус, активируются при осознании человеком своих мыслей, что известно как сознательное восприятие. ​

Ключевые аспекты исследования:

Роль таламуса в сознательном восприятии: Таламус, расположенный в центре мозга, участвует в обработке сенсорной информации и рабочей памяти. Ранее его роль в сознательном восприятии была предположительной; данное исследование предоставляет прямые доказательства его участия. ​

Методология: Участники, проходившие лечение от хронических головных болей с использованием глубоко имплантированных электродов, выполняли задания, требующие фиксации взгляда в зависимости от того, замечали ли они появление определенного значка на экране.

Это позволило исследователям записывать нейронную активность в таламусе и коре головного мозга во время осознания или неосознания стимула. ​

Участникам показывали иконку на экране таким образом, что они замечали (осознавали) ее появление только примерно в половине случаев. В это время исследователи одновременно записывали активность как из глубоких структур (таламуса), так и из коры головного мозга.

Выводы: Результаты показали, что активность в высокоуровневых ядрах таламуса тесно связана с состояниями сознания, подтверждая его роль в фильтрации и передаче информации, которая становится осознанной. ​

Это исследование расширяет понимание нейронных механизмов сознания, подчеркивая важность глубоких структур мозга, таких как таламус, в процессах осознания.

Работа позволяет изучить временные взаимосвязи (тайминг) активации между таламусом и корой, что критически важно для понимания того, как эти области взаимодействуют для порождения сознательного опыта. Это помогает строить более полные теории сознания, выходящие за рамки одной лишь коры.

🟡 Читать

@ai_machinelearning_big_data

#brain #science #nature
Please open Telegram to view this post
VIEW IN TELEGRAM
💫 DB-GPT-Hub — проект, предлагающий преобразование обычных человеческих вопросов в точные SQL-запросы с помощью больших языковых моделей. Этот исследовательский проект фокусируется на тонкой настройке LLM для задач Text-to-SQL, позволяя пользователям взаимодействовать с базами данных на естественном языке.

Проект охватывает весь цикл: от сбора и обработки данных до тонкой настройки моделей и оценки их точности. Уже сейчас система демонстрирует впечатляющие 76-82% точности выполнения запросов для 13B-модели, что открывает большие перспективы для автоматизации работы с базами данных.

🤖 GitHub

@machinelearning_ru
2025/07/08 11:42:36
Back to Top
HTML Embed Code: