Telegram Web Link
Forwarded from Machinelearning
⚡️ EasyR1 – эффективный и масштабируемый фреймворк для обучения с подкреплением (RL) с поддержкой мультимодальных данных.

Чем интересен EasyR1?
EasyR1 сочетает в себе алгоритм GRPO, продемонстрированный в DeepSeek R1, и расширение системы veRL для поддержки vision-language моделей, таких как Qwen2.5-VL.

Уже после 30 шагов обучения фреймворк показал прирост производительности на 5% в экспериментах на тестовом наборе Geometry3k.

Это делает его привлекательным инструментом для исследователей и разработчиков, работающих с задачами, где объединяются визуальные и текстовые данные.

Фреймворк спроектирован так, чтобы быть масштабируемым и легко интегрироваться с различными алгоритмами RL, что открывает широкие возможности для дальнейших исследований.

Ожидайте будущих обновлений – в них планируется интеграция дополнительных алгоритмов RL и новых архитектур VLM.

Github

@ai_machinelearning_big_data


#EasyR1 #opensource #GRPO #VLM
👍3
🔥 Dify — это платформа с открытым исходным кодом для создания и развертывания AI-приложений на основе больших языковых моделей!

💡 Она предлагает удобный интерфейс для построения AI-воркфлоу, работы с RAG (retrieval-augmented generation), создания агентов и интеграции с популярными моделями, такими как GPT, Llama 3 и Mistral. Dify позволяет разрабатывать AI-приложения без сложного программирования, предоставляя инструменты для тестирования, оптимизации и мониторинга моделей.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Google сделали Gemini Code Assist бесплатным для всех стран.

🌐 Поддержка всех языков программирования в открытом доступе
💡 Окно контекста 128K токенов

https://blog.google/technology/developers/gemini-code-assist-free/

@ai_machinelearning_big_data
5🔥3👍2🤔1
OpenAI расширили доступ к DeepResearch для пользователей с подпиской до $200, теперь они могут использовать 10 запросов в месяц.

Пользователи с Pro подпиской также получат небольшое улучшение — теперь они могут делать 120 запросов вместо 100.

Кроме того, внесены и другие улучшения:

- Ответы могут включать изображения, обнаруженные в ходе исследования.
- Обновлённая обработка файлов упрощает использование загруженных PDF или Excel файлов в качестве контекста.
Эти изменения направлены на повышение эффективности работы с информацией и улучшение пользовательского опыта.

https://x.com/OpenAI/status/1894454194943529433
😁73🔥2🤯2👍1
Forwarded from Machinelearning
✔️ OpenAI открыла доступ к Advanced Voice для всех.

С 26 февраля Advanced Voice на базе GPT-4o mini доступна бесплатным пользователям ChatGPT на всех платформах.

Free tier имеет ежедневные ограничения на использование входных и выходных аудиоданных. Пользователи ChatGPT Plus могут использовать полную версию Advanced Voice на основе GPT-4o с дневным лимитом, который в 5 раз превышает лимит бесплатной версии, и могут продолжать использовать функции видео и демонстрации экрана в расширенном голосовом режиме. Подписчики ChatGPT Pro не имеют дневного лимита.
OpenAI в X

✔️ Microsoft Copilot voice и deepthink теперь бесплатны и не имеют ограничений.

Microsoft открыла всем пользователям бесплатный доступ к функциям «Think Deeper» и голосовому управлению Copilot, а также снимет предыдущие ограничения на использование для бесплатных пользователей. Это означает, что пользователи могут вести неограниченное количество "бесед" и голосовых взаимодействий с Copilot. Think Deeper работает на основе модели логического вывода OpenAI o1, которую Microsoft сделала бесплатной в прошлом месяце.
microsoft.com

✔️ Hume AI открыла доступ к Octave: ТTS-модель, которая умеет говорить с эмоциями.

Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи.

Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса.

В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%).
hume.ai

✔️DeepSeek снижает цены на использование своих AI-моделей в непиковые часы.

DeepSeek объявил о введении скидок до 75% на использование своих AI-моделей в непиковые часы. Это решение может оказать давление на конкурентов как в Китае, так и за рубежом, вынуждая их пересматривать свои ценовые стратегии. Согласно информации на сайте компании, в период с 16:30 до 00:30 по Гринвичу стоимость использования API DeepSeek будет значительно снижена. Для моделей R1 и V3 скидки составят 75% и 50% соответственно.
reuters.com

✔️ SSD Samsung Pro-серии Gen 5 PCIe поступят в продажу в марте.

Samsung выпустит первую потребительскую серию PCIe 5.0 SSD 9100 Pro в марте. Впервые среди NVMe SSD от Samsung в линейке будет модель с 8 ТБ (ожидается, что будет доступен во второй половине 2025 года). В спецификации M.2 предусмотрены две дополнительные версии с радиатором или без него, с тремя конфигурациями: 1 ТБ (199,99 долл. США), 2 ТБ (299,99 долл. США) и 4 ТБ (549,99 долл. США).

Серия 9100 Pro демонстрирует значительные улучшения: в ней используется специализированный контроллер и флэш-память V-NAND TLC 7-го поколения. В синтетических тестах скорости последовательного чтения и записи достигают 14,8 ГБ/с и 13,4 ГБ/с, что вдвое больше, чем у предыдущего поколения 980 Pro и примерно на 2–3 ГБ/с быстрее, чем у конкурирующих продуктов, а производительность случайного чтения и записи улучшена до 2200 тыс./2600 тыс. IOPS, что более чем 2х превышает показатели PCIe 4.0.
news.samsung.com

✔️ Свежий релиз Microsoft Phi‑4 mini instruct — это компактная, оптимизированная модель на 3.8 млрд параметров, оптимизированная для вычислительно ограниченных сред
Hf

@ai_machinelearning_big_data

#news #ai #ml #microsoft #openai #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1🔥1
📚 Эта статья представляет новый метод, направленный на развитие способности больших языковых моделей (LLM) генерировать длинные цепочки рассуждений (LongCoT) без использования дистилляции знаний из существующих моделей или дорогостоящих человеческих аннотаций!

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
Forwarded from Machinelearning
🌟 MatAnyone: модель для выделения по маске людей на видео.

MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре.

MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана.

При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей.

Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео.

В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео:

🟠На VideoMatte и YouTubeMatte, MatAnyOne - лучшие результаты по MAD (средняя абсолютная разница) и dtSSD (расстояние преобразования формы);

🟢В бенчмарке с реальными видео MatAnyOne достиг MAD 0.18, MSE 0.11 и dtSSD 0.95, что значительно лучше, чем у RVM10 (MAD 1.21, MSE 0.77, dtSSD 1.43) и MaGGIe12 (MAD 1.94, MSE 1.53, dtSSD 1.63.


⚠️ Согласно обсуждению в issues репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал.

▶️Локальная установка и запуск web-demo на Gradio:

# Clone Repo
git clone https://github.com/pq-yang/MatAnyone
cd MatAnyone

# Create Conda env and install dependencies
conda create -n matanyone python=3.8 -y
conda activate matanyone

pip install -e .

# Install python dependencies for gradio
pip3 install -r hugging_face/requirements.txt

# Launch the demo
python app.py


📌Лицензирование: S-Lab License 1.0.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VideoMatte #MatAnyone
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🔥1🥰1
Media is too big
VIEW IN TELEGRAM
🔥Phi-4-multimodal-instruct — это легковесная открытая мультимодальная модель, разработанная Microsoft!

🌟 Она способна обрабатывать текстовые, визуальные и аудио входные данные, генерируя текстовые выходы. Модель поддерживает контекст длиной до 128 тысяч токенов и была улучшена с помощью методов, таких как супервизорное дообучение, прямая оптимизация предпочтений и обучение с подкреплением на основе обратной связи от человека (RLHF), что обеспечивает точное следование инструкциям и повышенные меры безопасности!

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥92👏2
🔥 Epigram — это открытый и бесплатный новостной агрегатор, использующий искусственный интеллект для предоставления кратких и понятных сводок новостей из надежных источников!

🌟 Платформа позволяет пользователям получать персонализированную ленту новостей, основанную на их интересах, и предоставляет возможность углубленного анализа статей с помощью AI. Интерфейс Epigram интуитивно понятен и адаптирован для использования на различных устройствах, обеспечивая удобный доступ к новостям в любое время и в любом месте.

🔐 Лицензия: AGPL-3.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🤬1
Разбор задач с собеседований по статистике для Дата Саентистов

В современных собеседованиях на позицию Data Scientist кандидатов проверяют не только практические навыки программирования, но и глубокое понимание статистических методов.

В данной статье рассмотрены часто встречающиеся задач, которые могут встретиться на интервью. Разберём каждую задачу с теоретической точки зрения, а также продемонстрируем пример кода на Python.

📌 Читать

@machinelearning_ru
👍62🔥2
🔥 Huginn — это система с открытым исходным кодом для создания агентов, которые выполняют автоматические задачи в интернете от вашего имени!

💡 Эти агенты могут читать веб-страницы, отслеживать события и предпринимать действия на основе заданных условий. Huginn позволяет создавать и настраивать агентов, которые генерируют и потребляют события, распространяя их по направленному графу. Это похоже на настраиваемую версию сервисов, таких как IFTTT или Zapier, но с полным контролем над данными и процессами на вашем собственном сервере.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥1😢1
Forwarded from Machinelearning
CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM.

По качеству она конкурирует с flux/lumina.

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

Ввод на китайском, и на английском.

Лицензия
: Apache 2.0

Model: https://huggingface.co/THUDM/CogView4-6B
Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
Github: https://github.com/THUDM/CogView4
Paper: https://arxiv.org/abs/2403.05121

@ai_machinelearning_big_data


#AI #CogView4 #OpenSource #TextToImage
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3😁31👍1
Forwarded from Machinelearning
✔️ OpenAI запускает программу NextGenAI.

OpenAI запускает NextGenAI — совместную программу с 15 НИИ, направленную на ускорение научных прорывов и трансформацию образования с использованием ИИ. OpenAI планирует выделить на финансирование исследований 50 млн. долларов.

Программа объединяет институты в США и за рубежом. Среди партнеров Калифорнийский технологический институт, Гарвардский университет и Массачусетский технологический институт, а также Бостонская детская больница и Бостонская публичная библиотека.

Цель NextGenAI — укрепить связи между академическими кругами и реальным сектором, гарантируя, что преимущества ИИ будут распространены на научные лаборатории и социально значимые проекты.
openai.com

✔️ Китай планирует запустить новую политику по продвижению архитектуры RISC-V.

Китай разрабатывает новую политику по расширению применения архитектуры микросхем с открытым исходным кодом RISC-V в попытке снизить свою зависимость от западных технологий микросхем.

В настоящее время многие учреждения разрабатывают чипы на базе RISC-V, а компании, например, Qualcomm уже создали специальные подразделения для популяризации этой архитектуры. Ожидается, что политика будет представлена ​​в этом месяце, а RISC-V станет альтернативой архитектурам x86 и ARM.
reuters.com

✔️ Stability AI и Arm: генеративный звук теперь на смартфонах и без интернета.

Stability AI в сотрудничестве с Arm представила возможность генерации высококачественных звуковых эффектов и аудиосэмплов прямо на мобильных устройствах, без необходимости подключения к интернету. Это стало возможным благодаря использованию библиотек Arm KleidiAI и технологии Stable Audio Open от Stability AI.

Так время генерации аудио на ARM-устройствах сократилось в 30 раз, с 240 до 8 секунд на процессорах Armv9. Увидеть демонстрацию работы Stable Audio Open можно будет на выставке MWC в Барселоне 3 марта 2025 года.
stability.ai

✔️ Operator от Opera: AI-агенты в браузере.

Opera анонсировала браузер Operator, который сам выполняет задачи пользователя в интернете. Он содержит встроенный ИИ-агент, способный покупать товары, искать информацию и выполнять другие действия по запросу пользователя. Operator также способен управлять подписками и онлайн-аккаунтами - он найдет все активные подписки и предложит отменить ненужные. Operator может автоматически оплачивать счета и загружать банковские выписки.

В отличие от обычных браузеров, Operator анализирует DOM Tree и структуру страницы, чтобы быстро и эффективно выполнять задачи. Пользователь может видеть весь процесс и контролировать его.
Operator скоро станет доступен в рамках программы Opera Feature Drop.
blogs.opera.com

✔️ Amazon готовится выпустить конкурента GPT-o

Amazon разрабатывает новую модель ризонинга - Nova, которая должна составить конкуренцию OpenAI и Anthropic. Релиз Nova запланирован в июне этого года и будет отличаться высокой производительностью и экономической эффективностью.

Amazon ставит перед собой цель войти в топ-5 лучших ИИ-моделей по результатам внешних оценок, с фокусом в задачах, связанных с разработкой программного обеспечения и математическим мышлением. Разработкой занимается команда AGI под руководством Rohit Prasad.
businessinsider.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🔥1
2025/07/09 16:35:18
Back to Top
HTML Embed Code: