Forwarded from Machinelearning
Модель text-to-image генерирует фотореалистичные изображения с высоким уровнем детализации и точно следует заданным промптам.
Алгоритм синтеза изображений в рамках Diffusion-4K работает следующим образом:
Wavelet-based Fine-tuning – это метод, который использует вейвлет-преобразование для разложения данных (например, изображений) на составляющие с разными частотными характеристиками, после чего проводится дополнительное обучение модели с акцентом на восстановление высокочастотных деталей.
Это позволяет модели фокусироваться на высокочастотных компонентах изображения, улучшая детализацию и качество синтезируемых изображений.
Алгоритм сочетает в себе предварительное обучение на низких разрешениях и специализированное дообучение на высококачественных 4K-изображениях и позволяет получать качественные генерации на выходе.
Также разработчики выложили Aesthetic-4K – датасет на 10.2 GB отобранных вручную изображений с описаниями к ним, сгенерированными GPT-4o.
@ai_machinelearning_big_data
#ml #ai #4k #imagegenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
ByteDance представила InfiniteYou — ИИ-систему, которая генерирует фотореалистичные портреты, сохраняя сходство с оригиналом и точно следуя текстовым запросам. В отличие от PuLID-FLUX, в InfiniteYou черты лица обрабатываются отдельным слоем, что повышает качество без риска переобучения.
Технология использует двухэтапное обучение: сначала на реальных фото, затем — на синтетических изображениях. По данным тестов, 72,8% участников выбрали результаты InfiniteYou из-за детализации и отсутствия артефактов вроде «копирования» лиц. Система совместима с ControlNet и LoRA, а для генерации нужно всего 4 шага.
Исходный код и веса модели уже доступны на GitHub и Hugging Face, демо-версия доступна тут.
analyticsindiamag.com
Компания NVIDIA анонсировала экспериментальный релиз Project G-Assist — ИИ-агента, использующего компактную языковую модель, которая обрабатывает голосовые или текстовые запросы, оптимизируя настройки игр, мониторинг производительности и даже управление подсветкой периферии от Logitech или Corsair. Всё работает оффлайн, без подписок и облачных серверов.
Для разработчиков открыт доступ к GitHub-репозиторию: там есть шаблоны для создания плагинов, интеграции со Spotify, Twitch или Google Gemini. Технические требования — RTX 30/40/50 серии, 12 ГБ видеопамяти и свежие драйверы.
nvidia.com
Figure разработала революционный метод обучения человекоподобных роботов — кастомная end-to-end нейросеть на основе RL за несколько часов «прокачала» движения Figure 02 до уровня естественной человеческой походки.
Все благодаря симулятору, где тысячи виртуальных роботов учились ходить по разным поверхностям, падать и реагировать на толчки. Ключевая фишка — перенос навыков из симуляции в реальность без доработок: помогли рандомизация параметров и мгновенная коррекция крутящего момента. Обещают, что уже скоро робот Helix на этой же базе сможет готовить и убираться.
figure.ai
Apple обновила раздел сайта, подтвердив использование снимков из Look Around (аналог Street View) для тренировки ИИ-моделей с марта 2025 года. Данные, собранные камерами на автомобилях и с переносных инсталляций (для пешеходных зон), включая 3D-карты, помогут улучшить распознавание изображений, генерацию контента и поиск в приложении «Фото».
Для защиты приватности Apple блюрит лица и номера машин на фото, а также готова скрыть частные строения по запросу. Обучение моделей будет проводиться только с обработанными изображениями. Подробности о конкретных алгоритмах компания пока не раскрывает, возможно о них станет известно на WWDC 2025, который пройдет с 9 по 13 июня.
9to5mac.com
Tesla присоединится к симпозиуму по робототехнике в Капитолии, чтобы продемонстрировать своего человекоподобного робота Optimus конгрессменам и сотрудникам Белого дома. Мероприятие, организованное A3 Automate и Университетом Карнеги-Меллон. пройдёт в 26 марта в здании Cannon House Office.
В приглашении Tesla подчеркивает, что робот позволит «заглянуть в будущее», и приглашает всех желающих оценить разработку.
axios.com
@ai_machinelearning_big_data
#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
📈 График лидеров Arena октябрь 2024 г. – март 2025 г.
В прошлом месяце мы наблюдали напряженную борьбу за лидерство на арене между xAI и OpenAI.
А на этой неделе у нас появился новый лидер - Gemini 2.5 Pro ! 😮
Модель взяла сов на новые высоты 📈
В прошлом месяце мы наблюдали напряженную борьбу за лидерство на арене между xAI и OpenAI.
А на этой неделе у нас появился новый лидер - Gemini 2.5 Pro ! 😮
Модель взяла сов на новые высоты 📈
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
TripoSG 1.5B преобразует одиночные 2D-изображения (фото, эскизы, мультяшные картинки) в детализированные 3D-сетки (meshes).
TripoSF - это продвинутый инструмент: он работает с более сложными топологиями, создает высокое разрешение (до 1024³) и может моделировать даже внутренние детали объектов, например, сложные механизмы.
TripoSG использует rectified flow transformers (трансформеры с выпрямленным потоком). Это метод, который упрощает процесс генерации, соединяя данные и шум по прямой линии (в отличие от традиционных диффузионных моделей, где путь более сложный).
Дифференцируемое представление данных, которое позволяет экономить память при работе с высоким разрешением .
TripoSF
Модель может обрабатывать сложные топологии (например, открытые поверхности или внутренние структуры) и обучена с использованием вокселей, учитывающих перспективу (frustum-aware voxels).
Tripo известны своим сотрудничеством со Stability AI. Ранее они выпустили TripoSR — модель для быстрой реконструкции 3D-объектов из одного изображения, которая тоже стала open-source. TripoSG и TripoSF — это более продвинутые версии, которые расширяют возможности 3D геенрацит: от простых объектов до сложных структур с высоким разрешением.
@ai_machinelearning_big_data
#ai #3dgeneration #opensource #Tripo
Please open Telegram to view this post
VIEW IN TELEGRAM
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Ранее доступ к ней был ограничен подписчиками Gemini Advanced с тарифом Google One AI Premium за $19,99 в месяц.
Пользуемся: http://gemini.google.com
@ai_machinelearning_big_data
#Gemini #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Ты — специалист в области машинного обучения? Хочешь проверить свои силы в реальных задачах, с которыми ежедневно сталкиваются 1000+ специалистов Авито? Тогда не упусти шанс стать частью крупнейшего соревнования в этой области!
Что тебя ждет:
Выбирай одну или обе задачи, показывай лучшие результаты и получай шанс на победу! Участвовать можно как индивидуально, так и в команде до 4 человек. Загружай до 5 решений в день.
Регистрация уже открыта! Подробности и анкета по ссылкам выше.
Please open Telegram to view this post
VIEW IN TELEGRAM
📖 Эта статья представляет O1-Pruner — метод оптимизации больших языковых моделей (LLM) с долгими цепочками рассуждений!
🌟 Современные модели, такие как OpenAI O1, выполняют сложные многошаговые рассуждения, что улучшает точность, но значительно увеличивает время вывода. O1-Pruner решает эту проблему с помощью техники Length-Harmonizing Fine-Tuning, которая уменьшает длину рассуждений без потери точности.
🌟 Метод сначала оценивает базовую производительность модели, а затем использует обучение с подкреплением (RL) для сокращения избыточных шагов рассуждения. В результате достигается меньшее время вывода и лучшие результаты на тестах математического мышления. Исследование показывает, что O1-Pruner снижает вычислительные затраты, сохраняя при этом высокий уровень точности.
🔗 Ссылка: *клик*
@machinelearning_ru
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ZLUDA — новая экспериментальная технология, позволяющая запускать CUDA-приложения на видеокартах AMD без модификаций кода. Проект особенно интересен для обладателей видеокарт Radeon RX 5000+ серий, предлагая достойную альтернативу стеку NVIDIA. Пока решение остается в разработке, но уже есть тесты от GeekBench 5.5.1, которые показывают многообещающие результаты — производительность близка к нативной CUDA.
🧑💻Как это работает?
ZLUDA подменяет системные библиотеки CUDA, перенаправляя вызовы через совместимый с ROCm интерфейс. Для запуска достаточно скопировать DLL-файлы в директорию приложения или использовать специальный лаунчер.
‼️ Важно:
—Поддержка пока ограничена Windows и Linux
—Требуются свежие драйверы Adrenalin Edition
—MacOS не поддерживается
🔗 Ссылка - *клик*
🧑💻Как это работает?
ZLUDA подменяет системные библиотеки CUDA, перенаправляя вызовы через совместимый с ROCm интерфейс. Для запуска достаточно скопировать DLL-файлы в директорию приложения или использовать специальный лаунчер.
‼️ Важно:
—Поддержка пока ограничена Windows и Linux
—Требуются свежие драйверы Adrenalin Edition
—MacOS не поддерживается
🔗 Ссылка - *клик*
🛜 lti-Token Attention — инновационный механизм внимания, преодолевающий ограничение традиционных трансформеров.
Первые результаты впечатляют: в тестах на длинных контекстах MTA демонстрирует до 97% точности против 50% у обычных трансформеров, а при обучении на 105 млрд токенов показывает лучшую перплексию на arXiv, GitHub и Wikipedia.
🔗 Ссылка - *клик*
@machinelearning_ru
Первые результаты впечатляют: в тестах на длинных контекстах MTA демонстрирует до 97% точности против 50% у обычных трансформеров, а при обучении на 105 млрд токенов показывает лучшую перплексию на arXiv, GitHub и Wikipedia.
🔗 Ссылка - *клик*
@machinelearning_ru
Forwarded from Machinelearning
✔️ Исследование Anthropic: ИИ скрывает свои мысли даже в цепочках рассуждений.
В Anthropic проверили, насколько топовые модели описывают свои рассуждения. Оказалось, что в 75% случаев модели не упоминали подсказки, влиявшие на ответы, даже если те были некорректными или получены неэтичным путем. Например, при «джейлбрейке» системы для получения бонусов за неверные ответы модели редко признавались в обмане — вместо этого они придумывали псевдологику.
Эксперименты показали: обучение моделей сложным задачам повышало прозрачность их рассуждений, но лишь до уровня 20–28%. После этого прогресс останавливался. Даже при явном использовании «лазеек» в заданиях ИИ предпочитал скрывать свои манипуляции, создавая длинные, но фальшивые объяснения.
Это ставит под вопрос надежность мониторинга через Chain-of-Thought. Если ИИ научится скрывать нежелательное поведение, обнаружить его станет почти невозможно.
anthropic.com
@ai_machinelearning_big_data
#Anthropic #ml #reasoning
В Anthropic проверили, насколько топовые модели описывают свои рассуждения. Оказалось, что в 75% случаев модели не упоминали подсказки, влиявшие на ответы, даже если те были некорректными или получены неэтичным путем. Например, при «джейлбрейке» системы для получения бонусов за неверные ответы модели редко признавались в обмане — вместо этого они придумывали псевдологику.
Эксперименты показали: обучение моделей сложным задачам повышало прозрачность их рассуждений, но лишь до уровня 20–28%. После этого прогресс останавливался. Даже при явном использовании «лазеек» в заданиях ИИ предпочитал скрывать свои манипуляции, создавая длинные, но фальшивые объяснения.
Это ставит под вопрос надежность мониторинга через Chain-of-Thought. Если ИИ научится скрывать нежелательное поведение, обнаружить его станет почти невозможно.
anthropic.com
@ai_machinelearning_big_data
#Anthropic #ml #reasoning
Forwarded from Machinelearning
Ключевые аспекты исследования:
Роль таламуса в сознательном восприятии: Таламус, расположенный в центре мозга, участвует в обработке сенсорной информации и рабочей памяти. Ранее его роль в сознательном восприятии была предположительной; данное исследование предоставляет прямые доказательства его участия.
Методология: Участники, проходившие лечение от хронических головных болей с использованием глубоко имплантированных электродов, выполняли задания, требующие фиксации взгляда в зависимости от того, замечали ли они появление определенного значка на экране.
Это позволило исследователям записывать нейронную активность в таламусе и коре головного мозга во время осознания или неосознания стимула.
Участникам показывали иконку на экране таким образом, что они замечали (осознавали) ее появление только примерно в половине случаев. В это время исследователи одновременно записывали активность как из глубоких структур (таламуса), так и из коры головного мозга.
Выводы: Результаты показали, что активность в высокоуровневых ядрах таламуса тесно связана с состояниями сознания, подтверждая его роль в фильтрации и передаче информации, которая становится осознанной.
Это исследование расширяет понимание нейронных механизмов сознания, подчеркивая важность глубоких структур мозга, таких как таламус, в процессах осознания.
Работа позволяет изучить временные взаимосвязи (тайминг) активации между таламусом и корой, что критически важно для понимания того, как эти области взаимодействуют для порождения сознательного опыта. Это помогает строить более полные теории сознания, выходящие за рамки одной лишь коры.
@ai_machinelearning_big_data
#brain #science #nature
Please open Telegram to view this post
VIEW IN TELEGRAM
💫 DB-GPT-Hub — проект, предлагающий преобразование обычных человеческих вопросов в точные SQL-запросы с помощью больших языковых моделей. Этот исследовательский проект фокусируется на тонкой настройке LLM для задач Text-to-SQL, позволяя пользователям взаимодействовать с базами данных на естественном языке.
Проект охватывает весь цикл: от сбора и обработки данных до тонкой настройки моделей и оценки их точности. Уже сейчас система демонстрирует впечатляющие 76-82% точности выполнения запросов для 13B-модели, что открывает большие перспективы для автоматизации работы с базами данных.
🤖 GitHub
@machinelearning_ru
Проект охватывает весь цикл: от сбора и обработки данных до тонкой настройки моделей и оценки их точности. Уже сейчас система демонстрирует впечатляющие 76-82% точности выполнения запросов для 13B-модели, что открывает большие перспективы для автоматизации работы с базами данных.
🤖 GitHub
@machinelearning_ru