@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Rust
Источник: Oxen.ai Blog
Ссылка: Oxen.ai
Статья подробно рассказывает о процессе обучения специализированной языковой модели для генерации кода на Rust, обладающей 1.5 млрд параметров.
Авторы применяют метод обучения с подкреплением (GRPO) с использованием обратной связи от инструментов Rust (компилятор и система сборки cargo). Это позволяет модели учиться генерировать код, который успешно компилируется, проходит линтер (cargo clippy) и unit-тесты.
Подход к данным и метрикам: Описаны этапы подготовки датасета, в том числе адаптация существующих Python-подобных задач под синтаксис Rust, а также разработка специальных reward-функций, проверяющих качество сгенерированного кода.
Материал показывает, как можно использовать инструменты Rust для автоматизированной проверки качества кода, что может служить основой для создания интеллектуальных помощников и средств автоматизации.
🔗 Читать
@rust_code
Please open Telegram to view this post
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
TSMC обратилась к Nvidia, AMD и Broadcom с предложением войти в совместное предприятие, целью которого станет управление производственными мощностями Intel. Как сообщают источники, TSMC планирует сохранить за собой менее 50% акций в данном предприятии. Аналогичное предложение, по некоторым данным, было направлено и компании Qualcomm. Эти переговоры разворачиваются на фоне обращения администрации президента США к TSMC с просьбой оказать содействие испытывающей трудности Intel. Известно, что переговоры по Intel находятся на ранней стадии, и TSMC заинтересована в привлечении нескольких компаний к участию в этом проекте.
zaobao.com.sg
Проект Scientist-v2, разработка Sakana AI, смогла создать научную работу, которая успешно прошла процесс рецензирования на одном из воркшопов Международной конференции ICLR. Это стало первым случаем, когда полностью сгенерированное исследование прошло стандартную процедуру оценки. Представленная работа была посвящена методам регуляризации нейронных сетей и, как ни странно, сообщала об отрицательных результатах.
Несмотря на то, что средняя оценка работы составила 6.33, что превысило порог принятия воркшопа, согласно предварительной договоренности, работа была отозвана, поскольку в научном сообществе пока отсутствуют устоявшиеся нормы для сгенерированных работ.
sakana.ai
Google DeepMind представила новейшую разработку – Gemini Robotics, модель на базе Gemini 2.0, способную наделить роботов способностью к "телесному" мышлению. Эта VLA (Vision-Language-Action) модель способна самостоятельно управлять роботами, открывая новые возможности в их применении.
Наряду с ней представлена Gemini Robotics-ER, модель с углубленным пространственным пониманием, позволяющая робототехникам использовать возможности Gemini в своих проектах. Обе модели демонстрируют интерактивность и ловкость, позволяя роботам адаптироваться к различным ситуациям, взаимодействовать с людьми и выполнять сложные задачи. Google DeepMind тестирует Gemini Robotics-ER с несколькими доверенными партнерами.
deepmind.google
Команда Doubao официально представила технический отчет о своей модели генерации изображений Seedream 2.0, впервые раскрыв детали процесса разработки, начиная со сбора данных и заканчивая постобработкой с использованием RLHF.
В отчете отмечаются улучшения в понимании китайского и английского языков, отрисовке текста, достижении высокого уровня эстетики и разрешения генераций. Seedream 2.0 была запущена еще в начале декабря 2024 года в приложениях Doubao и Jimeng, ей воспользовались сотни миллионов пользователей и она стала любимым инструментом для многих профессиональных дизайнеров в Китае. По сравнению с Ideogram 2.0, Midjourney V6.1 и Flux 1.1 Pro, Seedream 2.0 лучше справляется с текстом и лучше понимает китайскую культуру. Модель поддерживает запросы на китайском и английском языках.
team.doubao.com
Испанское правительство одобрило законопроект, предусматривающий введение внушительных штрафов для компаний, которые используют сгенерированный контент без соответствующей маркировки. Мера направлена на борьбу с распространением "дипфейков".
Несоблюдение требований по маркировке будет классифицироваться как "серьезное правонарушение", что может повлечь за собой штрафы до 35 млн. евро или 7% от годового оборота компании-гарушителя. Новый регулирующий орган AESIA будет отвечать за обеспечение соблюдения новых правил.
reuters.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Мы уже писали про довольно интересное семейство моделей от LG, на этот раз они представили по-настоящему мощные ризонинг модели.
1) EXAONE Deep 2.4B превосходит другие модели сопоставимого размера,
2) EXAONE Deep 7.8B превосходит не только открытые модели сопоставимого размера, но и OpenAI o1-mini,
3) EXAONE Deep 32B демонстрирует конкурентоспособные характеристики по сравнению с ведущими открытым моделями.
Модель 32B, которая по размеру равна около 5% от размера DeepSeek r1, превосходит ее почти во всех тестах.
Прорыв в цепочке рассуждений – релиз акцентирует внимание на улучшении "chain-of-thought" механизма, что делает модель более способной генерировать обоснованные выводы и поддерживать длинные цепочки логических рассуждений.
@ai_machinelearning_big_data
#AI #ML #LLM #EXAONE #LG #reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
NVIDIA выпустила новые модели и датасет семейства Nemotron :
Архитектура модели, впервые для семейства Nemotron, использует нестандартные блоки: в части слоев внимание заменено линейными преобразованиями, а параметры FFN-слоев варьируются между блоками. Это позволило адаптировать модель для работы на одном GPU H100-80GB.
Обучение проходило в несколько этапов: от дистилляции знаний на 40 млрд. токенов до тонкой настройки с RL-алгоритмами (RPO и REINFORCE).
Результаты тестов впечатляют: в режиме «рассуждений» модель демонстрирует 96,6% pass@1 на MATH500 и 58,4% на AIME25, превосходя базовые показатели.
Модель умеет переключаться между ризонинг-режимом и типовым LLM-инференсом: для режима рассуждений рекомендуется свой системный промпт и параметры t=0,6 и Top-P=0,95.
Модель ориентирована на создание ИИ-агентов, чат-ботов, систем с расширенным контекстом и доступна через API, в веб-демо на NVIDIA Build и веса для скачивания на HuggingFace.
@ai_machinelearning_big_data
#AI #ML #LLM #NVIDIA #Nemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
▪ Модульная архитектура: Проект предоставляет структуру, которая позволяет легко расширять функциональность и интегрировать различные компоненты, что упрощает разработку сложных систем.
▪ Гибкость интеграции: Casibase обеспечивает удобную работу с различными источниками данных и API, что облегчает объединение разрозненных сервисов в единое целое.
▪ Ускорение разработки: Используя Casibase, разработчики могут быстрее собирать и разворачивать приложения, оптимизируя процессы автоматизации и управления данными.
Casibase интересен тем, кто ищет готовую платформу для быстрого создания распределённых систем с высокой степенью адаптивности и масштабируемости.
▪ Github
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM