Forwarded from Machinelearning
⚡️ EasyR1 – эффективный и масштабируемый фреймворк для обучения с подкреплением (RL) с поддержкой мультимодальных данных.
Чем интересен EasyR1?
EasyR1 сочетает в себе алгоритм GRPO, продемонстрированный в DeepSeek R1, и расширение системы veRL для поддержки vision-language моделей, таких как Qwen2.5-VL.
Уже после 30 шагов обучения фреймворк показал прирост производительности на 5% в экспериментах на тестовом наборе Geometry3k.
Это делает его привлекательным инструментом для исследователей и разработчиков, работающих с задачами, где объединяются визуальные и текстовые данные.
Фреймворк спроектирован так, чтобы быть масштабируемым и легко интегрироваться с различными алгоритмами RL, что открывает широкие возможности для дальнейших исследований.
Ожидайте будущих обновлений – в них планируется интеграция дополнительных алгоритмов RL и новых архитектур VLM.
▪ Github
@ai_machinelearning_big_data
#EasyR1 #opensource #GRPO #VLM
Чем интересен EasyR1?
EasyR1 сочетает в себе алгоритм GRPO, продемонстрированный в DeepSeek R1, и расширение системы veRL для поддержки vision-language моделей, таких как Qwen2.5-VL.
Уже после 30 шагов обучения фреймворк показал прирост производительности на 5% в экспериментах на тестовом наборе Geometry3k.
Это делает его привлекательным инструментом для исследователей и разработчиков, работающих с задачами, где объединяются визуальные и текстовые данные.
Фреймворк спроектирован так, чтобы быть масштабируемым и легко интегрироваться с различными алгоритмами RL, что открывает широкие возможности для дальнейших исследований.
Ожидайте будущих обновлений – в них планируется интеграция дополнительных алгоритмов RL и новых архитектур VLM.
▪ Github
@ai_machinelearning_big_data
#EasyR1 #opensource #GRPO #VLM
👍3
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Google сделали Gemini Code Assist бесплатным для всех стран.
🌐 Поддержка всех языков программирования в открытом доступе
💡 Окно контекста 128K токенов
https://blog.google/technology/developers/gemini-code-assist-free/
@ai_machinelearning_big_data
🌐 Поддержка всех языков программирования в открытом доступе
💡 Окно контекста 128K токенов
https://blog.google/technology/developers/gemini-code-assist-free/
@ai_machinelearning_big_data
❤5🔥3👍2🤔1
OpenAI расширили доступ к DeepResearch для пользователей с подпиской до $200, теперь они могут использовать 10 запросов в месяц.
Пользователи с Pro подпиской также получат небольшое улучшение — теперь они могут делать 120 запросов вместо 100.
Кроме того, внесены и другие улучшения:
- Ответы могут включать изображения, обнаруженные в ходе исследования.
- Обновлённая обработка файлов упрощает использование загруженных PDF или Excel файлов в качестве контекста.
Эти изменения направлены на повышение эффективности работы с информацией и улучшение пользовательского опыта.
https://x.com/OpenAI/status/1894454194943529433
Пользователи с Pro подпиской также получат небольшое улучшение — теперь они могут делать 120 запросов вместо 100.
Кроме того, внесены и другие улучшения:
- Ответы могут включать изображения, обнаруженные в ходе исследования.
- Обновлённая обработка файлов упрощает использование загруженных PDF или Excel файлов в качестве контекста.
Эти изменения направлены на повышение эффективности работы с информацией и улучшение пользовательского опыта.
https://x.com/OpenAI/status/1894454194943529433
😁7❤3🔥2🤯2👍1
Forwarded from Machinelearning
С 26 февраля Advanced Voice на базе GPT-4o mini доступна бесплатным пользователям ChatGPT на всех платформах.
Free tier имеет ежедневные ограничения на использование входных и выходных аудиоданных. Пользователи ChatGPT Plus могут использовать полную версию Advanced Voice на основе GPT-4o с дневным лимитом, который в 5 раз превышает лимит бесплатной версии, и могут продолжать использовать функции видео и демонстрации экрана в расширенном голосовом режиме. Подписчики ChatGPT Pro не имеют дневного лимита.
OpenAI в X
Microsoft открыла всем пользователям бесплатный доступ к функциям «Think Deeper» и голосовому управлению Copilot, а также снимет предыдущие ограничения на использование для бесплатных пользователей. Это означает, что пользователи могут вести неограниченное количество "бесед" и голосовых взаимодействий с Copilot. Think Deeper работает на основе модели логического вывода OpenAI o1, которую Microsoft сделала бесплатной в прошлом месяце.
microsoft.com
Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи.
Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса.
В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%).
hume.ai
DeepSeek объявил о введении скидок до 75% на использование своих AI-моделей в непиковые часы. Это решение может оказать давление на конкурентов как в Китае, так и за рубежом, вынуждая их пересматривать свои ценовые стратегии. Согласно информации на сайте компании, в период с 16:30 до 00:30 по Гринвичу стоимость использования API DeepSeek будет значительно снижена. Для моделей R1 и V3 скидки составят 75% и 50% соответственно.
reuters.com
Samsung выпустит первую потребительскую серию PCIe 5.0 SSD 9100 Pro в марте. Впервые среди NVMe SSD от Samsung в линейке будет модель с 8 ТБ (ожидается, что будет доступен во второй половине 2025 года). В спецификации M.2 предусмотрены две дополнительные версии с радиатором или без него, с тремя конфигурациями: 1 ТБ (199,99 долл. США), 2 ТБ (299,99 долл. США) и 4 ТБ (549,99 долл. США).
Серия 9100 Pro демонстрирует значительные улучшения: в ней используется специализированный контроллер и флэш-память V-NAND TLC 7-го поколения. В синтетических тестах скорости последовательного чтения и записи достигают 14,8 ГБ/с и 13,4 ГБ/с, что вдвое больше, чем у предыдущего поколения 980 Pro и примерно на 2–3 ГБ/с быстрее, чем у конкурирующих продуктов, а производительность случайного чтения и записи улучшена до 2200 тыс./2600 тыс. IOPS, что более чем 2х превышает показатели PCIe 4.0.
news.samsung.com
Hf
@ai_machinelearning_big_data
#news #ai #ml #microsoft #openai #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1🔥1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
Forwarded from Machinelearning
MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре.
MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана.
При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей.
Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео.
В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео:
⚠️ Согласно обсуждению в
issues
репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал.# Clone Repo
git clone https://github.com/pq-yang/MatAnyone
cd MatAnyone
# Create Conda env and install dependencies
conda create -n matanyone python=3.8 -y
conda activate matanyone
pip install -e .
# Install python dependencies for gradio
pip3 install -r hugging_face/requirements.txt
# Launch the demo
python app.py
@ai_machinelearning_big_data
#AI #ML #VideoMatte #MatAnyone
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🔥1🥰1
Media is too big
VIEW IN TELEGRAM
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤2👏2
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🤬1
✔ Разбор задач с собеседований по статистике для Дата Саентистов
В современных собеседованиях на позицию Data Scientist кандидатов проверяют не только практические навыки программирования, но и глубокое понимание статистических методов.
В данной статье рассмотрены часто встречающиеся задач, которые могут встретиться на интервью. Разберём каждую задачу с теоретической точки зрения, а также продемонстрируем пример кода на Python.
📌 Читать
@machinelearning_ru
В современных собеседованиях на позицию Data Scientist кандидатов проверяют не только практические навыки программирования, но и глубокое понимание статистических методов.
В данной статье рассмотрены часто встречающиеся задач, которые могут встретиться на интервью. Разберём каждую задачу с теоретической точки зрения, а также продемонстрируем пример кода на Python.
📌 Читать
@machinelearning_ru
👍6❤2🔥2
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1😢1
Forwarded from Machinelearning
Модель генерации изображений, разработанный командой THUDM.
По качеству она конкурирует с flux/lumina.
Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.
CogView4 поддерживает очень длинный контекст.
Генерирует изображения от 512 до 2048 пикселей.
Ввод на китайском, и на английском.
Лицензия: Apache 2.0
▪Model: https://huggingface.co/THUDM/CogView4-6B
▪Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
▪Github: https://github.com/THUDM/CogView4
▪Paper: https://arxiv.org/abs/2403.05121
@ai_machinelearning_big_data
#AI #CogView4 #OpenSource #TextToImage
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3😁3❤1👍1
Forwarded from Machinelearning
OpenAI запускает NextGenAI — совместную программу с 15 НИИ, направленную на ускорение научных прорывов и трансформацию образования с использованием ИИ. OpenAI планирует выделить на финансирование исследований 50 млн. долларов.
Программа объединяет институты в США и за рубежом. Среди партнеров Калифорнийский технологический институт, Гарвардский университет и Массачусетский технологический институт, а также Бостонская детская больница и Бостонская публичная библиотека.
Цель NextGenAI — укрепить связи между академическими кругами и реальным сектором, гарантируя, что преимущества ИИ будут распространены на научные лаборатории и социально значимые проекты.
openai.com
Китай разрабатывает новую политику по расширению применения архитектуры микросхем с открытым исходным кодом RISC-V в попытке снизить свою зависимость от западных технологий микросхем.
В настоящее время многие учреждения разрабатывают чипы на базе RISC-V, а компании, например, Qualcomm уже создали специальные подразделения для популяризации этой архитектуры. Ожидается, что политика будет представлена в этом месяце, а RISC-V станет альтернативой архитектурам x86 и ARM.
reuters.com
Stability AI в сотрудничестве с Arm представила возможность генерации высококачественных звуковых эффектов и аудиосэмплов прямо на мобильных устройствах, без необходимости подключения к интернету. Это стало возможным благодаря использованию библиотек Arm KleidiAI и технологии Stable Audio Open от Stability AI.
Так время генерации аудио на ARM-устройствах сократилось в 30 раз, с 240 до 8 секунд на процессорах Armv9. Увидеть демонстрацию работы Stable Audio Open можно будет на выставке MWC в Барселоне 3 марта 2025 года.
stability.ai
Opera анонсировала браузер Operator, который сам выполняет задачи пользователя в интернете. Он содержит встроенный ИИ-агент, способный покупать товары, искать информацию и выполнять другие действия по запросу пользователя. Operator также способен управлять подписками и онлайн-аккаунтами - он найдет все активные подписки и предложит отменить ненужные. Operator может автоматически оплачивать счета и загружать банковские выписки.
В отличие от обычных браузеров, Operator анализирует DOM Tree и структуру страницы, чтобы быстро и эффективно выполнять задачи. Пользователь может видеть весь процесс и контролировать его.
Operator скоро станет доступен в рамках программы Opera Feature Drop.
blogs.opera.com
Amazon разрабатывает новую модель ризонинга - Nova, которая должна составить конкуренцию OpenAI и Anthropic. Релиз Nova запланирован в июне этого года и будет отличаться высокой производительностью и экономической эффективностью.
Amazon ставит перед собой цель войти в топ-5 лучших ИИ-моделей по результатам внешних оценок, с фокусом в задачах, связанных с разработкой программного обеспечения и математическим мышлением. Разработкой занимается команда AGI под руководством Rohit Prasad.
businessinsider.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🔥1