Forwarded from я обучала одну модель
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
https://arxiv.org/pdf/2504.20571
Очень интересная статья, не только своим основным клеймом, который и так сам по себе довольно удивителььный и неинтуитивный, но и такими же неожиданными выводами в аблейшенах.
Как понятно из заголовка, модель тренируют с помощью обычного GRPO всего на одном примере. И качество на тесте действительно растет, при чем со временем оно сходится к качеству модели, которую обучали на датасете обычного размера в 7.5k наблюдений. К чести авторов, помимо просто качества на тесте они репортят еще и среднюю accuracy на 6 разных математических бенчмарках – там оно тоже растет.
При этом по графику видно, что изначально модель очевидно осуществляет reward hacking – то есть просто учится отвечать в правильном формате (здесь это ответ, заключенный в \boxed{}) – после этого точность значительно падает, и только где-то на 300-ом шаге начинает расти обратно, видимо, засчет реально выросших способностей к ризонингу
Как выбирать один единственный пример для обучения? Вообще можно взять рандомно и увидеть какой-то нетривиальный прирост качества (в статье 30+% для рандомного выбора). Но самый оптимальный в статье выбирали по historical accuracy. Модель тренировали несколько эпох на полном датасете и для каждого примера замеряли, может ли модель его решить в конце эпохи. Лучший пример в этом плане тот, где вариация accuracy во время тренировки самая большая. Мотивировано это тем, что для RL обучения очень важна вариация сигнала от реворда, и тут мы можем ожидать, что тренируясь на таком примере, реворд не будет константным (не будет ситуации, что пример каждую эпоху либо идеально решен, либо не решен вообще никогда).
Интересно, что в итоге лучший пример, который использовали авторы, 1) не сложный – модель без тернировки как правило может его решить вплоть до последнего шага, 2) имеет неправильный ground truth ответ – верным является решение 12.7, а в датасете стоит 12.8
Самый неожиданный клейм статья – феномен, который авторы назвали post-saturation generalization. Accuracy на тренировке как правило достигает 100% за первые 100 шагов обучения, но качество на тесте продолжает расти дальше, даже после 1500-ого шага. При этом, на тренировочном примере происходит полный оверфит: модель в какой-то момент начинает выдавать бессмысленную мешанину из токенов на смеси языков, посреди этого все равно выдает правильный ответ в \boxed{}, но на тестовых данных при этом продолжает отвечать нормальных связным текстом (!). Для SFT моделей я никогда ничего похожего не видела, и если этот феномен воспроизводится на других данных, то это очевидно огромное преимущество RL. Если оверфит на тренировочных данных не транслируется в плохое качество на тесте, то теоретически можно тренироваться на одном и том же датасете огромное количество раз, и модель продолжит учиться чему-то новому дальше. На этом фоне мне вспомнились заголовки из ноября 2023 о том, что алгроитм q*, который по слухам разрабатыл Суцкевер до ухода из OpenAI, должен был решить проблему заканчивающихся данных для обучения моделей. Получается, RL-ем действительно ее можно решить не только в том смысле, что это более эффективно, чем SFT, но и в том понимании, что здесь гораздо сложнее упереться в лимит по данным.
При чем, автооры отдельно показывают, что это не похоже на гроккинг, который может происходить при SFT-обучении. Там это являетcя эффектом регуляризации, а в этой статье эффект воспроизводится, если вообще никакую регуляризацию (weight decay) не включать в формулу лосса. И в целом можно добиться практически того же качества, если оставить только policy loss (который зависит от ревордов), и убрать и weight decay, и KL-дивергенцию, и entropy loss, которые дефолтно используются в GRPO.
https://arxiv.org/pdf/2504.20571
Очень интересная статья, не только своим основным клеймом, который и так сам по себе довольно удивителььный и неинтуитивный, но и такими же неожиданными выводами в аблейшенах.
Как понятно из заголовка, модель тренируют с помощью обычного GRPO всего на одном примере. И качество на тесте действительно растет, при чем со временем оно сходится к качеству модели, которую обучали на датасете обычного размера в 7.5k наблюдений. К чести авторов, помимо просто качества на тесте они репортят еще и среднюю accuracy на 6 разных математических бенчмарках – там оно тоже растет.
При этом по графику видно, что изначально модель очевидно осуществляет reward hacking – то есть просто учится отвечать в правильном формате (здесь это ответ, заключенный в \boxed{}) – после этого точность значительно падает, и только где-то на 300-ом шаге начинает расти обратно, видимо, засчет реально выросших способностей к ризонингу
Как выбирать один единственный пример для обучения? Вообще можно взять рандомно и увидеть какой-то нетривиальный прирост качества (в статье 30+% для рандомного выбора). Но самый оптимальный в статье выбирали по historical accuracy. Модель тренировали несколько эпох на полном датасете и для каждого примера замеряли, может ли модель его решить в конце эпохи. Лучший пример в этом плане тот, где вариация accuracy во время тренировки самая большая. Мотивировано это тем, что для RL обучения очень важна вариация сигнала от реворда, и тут мы можем ожидать, что тренируясь на таком примере, реворд не будет константным (не будет ситуации, что пример каждую эпоху либо идеально решен, либо не решен вообще никогда).
Интересно, что в итоге лучший пример, который использовали авторы, 1) не сложный – модель без тернировки как правило может его решить вплоть до последнего шага, 2) имеет неправильный ground truth ответ – верным является решение 12.7, а в датасете стоит 12.8
Самый неожиданный клейм статья – феномен, который авторы назвали post-saturation generalization. Accuracy на тренировке как правило достигает 100% за первые 100 шагов обучения, но качество на тесте продолжает расти дальше, даже после 1500-ого шага. При этом, на тренировочном примере происходит полный оверфит: модель в какой-то момент начинает выдавать бессмысленную мешанину из токенов на смеси языков, посреди этого все равно выдает правильный ответ в \boxed{}, но на тестовых данных при этом продолжает отвечать нормальных связным текстом (!). Для SFT моделей я никогда ничего похожего не видела, и если этот феномен воспроизводится на других данных, то это очевидно огромное преимущество RL. Если оверфит на тренировочных данных не транслируется в плохое качество на тесте, то теоретически можно тренироваться на одном и том же датасете огромное количество раз, и модель продолжит учиться чему-то новому дальше. На этом фоне мне вспомнились заголовки из ноября 2023 о том, что алгроитм q*, который по слухам разрабатыл Суцкевер до ухода из OpenAI, должен был решить проблему заканчивающихся данных для обучения моделей. Получается, RL-ем действительно ее можно решить не только в том смысле, что это более эффективно, чем SFT, но и в том понимании, что здесь гораздо сложнее упереться в лимит по данным.
При чем, автооры отдельно показывают, что это не похоже на гроккинг, который может происходить при SFT-обучении. Там это являетcя эффектом регуляризации, а в этой статье эффект воспроизводится, если вообще никакую регуляризацию (weight decay) не включать в формулу лосса. И в целом можно добиться практически того же качества, если оставить только policy loss (который зависит от ревордов), и убрать и weight decay, и KL-дивергенцию, и entropy loss, которые дефолтно используются в GRPO.
Forwarded from я обучала одну модель
Please open Telegram to view this post
VIEW IN TELEGRAM
#обзор_статьи
# Yambda-5B — A Large-Scale Multi-modal Dataset for Ranking And Retrieval
Исследователи Яндекса выложили в опенсорс YaMBDa — датасет на 5 млрд событий. Между прочим один из крупнейших рекомендательных датасетов в мире. Основа YaMBDa — обезличенные данные о взаимодействиях пользователей с треками в Яндекс Музыке и «Моей Волне» (главном рекомендательном продукте сервиса).
В датасете представлены анонимизированные данные в формате числовых идентификаторов о взаимодействиях 1 миллиона пользователей с несколькими миллионами треков.
Датасет включает как явную (лайки, дизлайки, анлайки и андизлайки) так и неявную обратную связь (прослушивания). Для всех взаимодействий сохранены временные метки и проставлер флаг is_organic в зависимости от того были они мотивированны рекомендациями или нет. А для всех треков предоставлены метаданные, для большинства даже готовые CNN эмбеддинги.
Естественно датасет предназначен не только для стримингов: с ним можно тестировать алгоритмы в разных областях.
Предоставляют три версии датасета:
- Полная версия на 5 миллиардов событий.
- Уменьшенные версии на 500 миллионов и 50 миллионов событий на которых удобно экспериментировать.
Протокол эвала на основе Global Temporal Split: учимся на прошлом, тестируем на одном следующем дне. В целом можно даже сделать полную симуляцию подавая в систему все события в нужном порядке, как бы проигрывая историю. Авторы сами собираются сделать это в продолжении.
Метрики:
- NDCG@k (Normalized Discounted Cumulative Gain) — оценивает качество ранжирования рекомендаций.
- Recall@k — измеряет способность алгоритма генерировать релевантные рекомендации из общего набора возможных рекомендаций.
- Coverage@k — показывает, насколько широко представлен каталог в рекомендации.
Очень крутая работа и понятная статья. Датасет будет полезен для разработки мультимодальных рекомендательных систем и ранжирования в целом.
# Yambda-5B — A Large-Scale Multi-modal Dataset for Ranking And Retrieval
Исследователи Яндекса выложили в опенсорс YaMBDa — датасет на 5 млрд событий. Между прочим один из крупнейших рекомендательных датасетов в мире. Основа YaMBDa — обезличенные данные о взаимодействиях пользователей с треками в Яндекс Музыке и «Моей Волне» (главном рекомендательном продукте сервиса).
В датасете представлены анонимизированные данные в формате числовых идентификаторов о взаимодействиях 1 миллиона пользователей с несколькими миллионами треков.
Датасет включает как явную (лайки, дизлайки, анлайки и андизлайки) так и неявную обратную связь (прослушивания). Для всех взаимодействий сохранены временные метки и проставлер флаг is_organic в зависимости от того были они мотивированны рекомендациями или нет. А для всех треков предоставлены метаданные, для большинства даже готовые CNN эмбеддинги.
Естественно датасет предназначен не только для стримингов: с ним можно тестировать алгоритмы в разных областях.
Предоставляют три версии датасета:
- Полная версия на 5 миллиардов событий.
- Уменьшенные версии на 500 миллионов и 50 миллионов событий на которых удобно экспериментировать.
Протокол эвала на основе Global Temporal Split: учимся на прошлом, тестируем на одном следующем дне. В целом можно даже сделать полную симуляцию подавая в систему все события в нужном порядке, как бы проигрывая историю. Авторы сами собираются сделать это в продолжении.
Метрики:
- NDCG@k (Normalized Discounted Cumulative Gain) — оценивает качество ранжирования рекомендаций.
- Recall@k — измеряет способность алгоритма генерировать релевантные рекомендации из общего набора возможных рекомендаций.
- Coverage@k — показывает, насколько широко представлен каталог в рекомендации.
Очень крутая работа и понятная статья. Датасет будет полезен для разработки мультимодальных рекомендательных систем и ранжирования в целом.
JetBrains Research запустили соревнование с призовым фондом $12,000.
Задача необычная: для репозитория с кодом сделать алгоритм сбора контекста для LLM. Модели в соревновании зафиксированы (Mellum, Codestral, Qwen2.5-Coder), а участникам надо придумать что из всего доступного кода подать на вход этим моделям, чтобы максимизировать качество подсказки. Так что по сути цель грамотно индексировать репозиторий.
https://blog.jetbrains.com/ai/2025/06/context-collection-competition/
Задача необычная: для репозитория с кодом сделать алгоритм сбора контекста для LLM. Модели в соревновании зафиксированы (Mellum, Codestral, Qwen2.5-Coder), а участникам надо придумать что из всего доступного кода подать на вход этим моделям, чтобы максимизировать качество подсказки. Так что по сути цель грамотно индексировать репозиторий.
https://blog.jetbrains.com/ai/2025/06/context-collection-competition/
The JetBrains Blog
Context Collection Competition by JetBrains and Mistral AI | The JetBrains Blog
In AI-enabled IDEs, code completion quality heavily depends on how well the IDE understands the surrounding code – the context. That context is everything, and we want your help to find the best way to collect it.
Все говорят про опасность ядерного оружия, но я считаю это булщит и запугивание.
Если вдруг кто-то захочет применить ядерные ракеты то его сразу остановят. Да и никто не захочет, зачем ему это? Никому это не выгодно.
Ракеты не летают без электричества, так что в крайнем случае можно просто выключить свет.
Да и вообще, зачем ядерным ракетам вредить людям? Ядерные ракеты не разумны, у них не может быть желания сопротивляться отключению или страха смерти.
Я думаю все разговоры про опасность ядерного оружия просто выгодны крупным компаниям которые хотят затормозить конкурентов. Если бы не они мы могли бы построить ядерный реактор в каждом доме.
#щитпостинг
Если вдруг кто-то захочет применить ядерные ракеты то его сразу остановят. Да и никто не захочет, зачем ему это? Никому это не выгодно.
Ракеты не летают без электричества, так что в крайнем случае можно просто выключить свет.
Да и вообще, зачем ядерным ракетам вредить людям? Ядерные ракеты не разумны, у них не может быть желания сопротивляться отключению или страха смерти.
Я думаю все разговоры про опасность ядерного оружия просто выгодны крупным компаниям которые хотят затормозить конкурентов. Если бы не они мы могли бы построить ядерный реактор в каждом доме.
#щитпостинг
Forwarded from Love. Death. Transformers.
Однажды hftшникам офис-менеджер не купил амфетамин, в общем теперь у ребят mid freq фонд.
Forwarded from ma×im
прив
мы там небольшую статейку на мидиум дропнули, где рассказываем, как инфру для ллмок строили, которая пытается унифицировать чужие модели через openrouter/openai и селфхост модели, которые не fully openai compatible (у нас например модель умеет в некоторые специальные content type, которых в опенаи нет, поэтому ее чисто через vllm serve не сервим; плюс хочеца еще всякий наркоманский роутинг делать, который сами сможем крутить вертеть как хотим). сама статья чисто инженерная и больше про дизайн системы, нежели чем про то, как мы ругаясь матом vllm патчили, но мб кому-то будет полезно
https://medium.com/@shimovolos.stas/running-llms-in-production-building-scalable-infrastructure-without-reinventing-the-wheel-1b9fa61dbb77
лайки и помидоры приветствуются
мы там небольшую статейку на мидиум дропнули, где рассказываем, как инфру для ллмок строили, которая пытается унифицировать чужие модели через openrouter/openai и селфхост модели, которые не fully openai compatible (у нас например модель умеет в некоторые специальные content type, которых в опенаи нет, поэтому ее чисто через vllm serve не сервим; плюс хочеца еще всякий наркоманский роутинг делать, который сами сможем крутить вертеть как хотим). сама статья чисто инженерная и больше про дизайн системы, нежели чем про то, как мы ругаясь матом vllm патчили, но мб кому-то будет полезно
https://medium.com/@shimovolos.stas/running-llms-in-production-building-scalable-infrastructure-without-reinventing-the-wheel-1b9fa61dbb77
лайки и помидоры приветствуются
Forwarded from Старший Авгур
У HF позавчера начался агентский хакатон: https://huggingface.co/Agents-MCP-Hackathon
Регистрация открыта до 8 июня, тогда же последний день посылок.
Бесплатные кредиты на паре вендоров для всех участников. 3 трека: MCP инструменты в HF Spaces, Gradio UI компоненты, целиковые агенты (тоже в Spaces). 2500$ за первое место в каждом плюс призы от спонсоров.
Регистрация открыта до 8 июня, тогда же последний день посылок.
Бесплатные кредиты на паре вендоров для всех участников. 3 трека: MCP инструменты в HF Spaces, Gradio UI компоненты, целиковые агенты (тоже в Spaces). 2500$ за первое место в каждом плюс призы от спонсоров.
Forwarded from partially unsupervised
Формально у меня сегодня последний день в Neon, потому что я оказался среди поглощенных кирпичным заводом, на котором - пока столь же формально - начинаю работать завтра.
Поэтому символично, что сегодня успели зарелизить app.build - продукт, над которым мы небольшой командой работали с февраля. Этоjust another end2end генератор CRUD веб-приложений от промпта до деплоя.
Он полностью опенсорсный (можно покопаться в истории и увидеть все мои коммиты в стиле “maybe fix a lot of things”), работает как CLI и обычно генерит скорее работающие приложения. Можно сгенерить на наших серверах, можно развернуть у себя (все равно понадобится gemini и claude API, но можете прислать PR с поддержкой любимого LLM-провайдера). Шероховатостей еще много, но уже скорее работает, чем нет, так что пробуйте и присылайте баг-репорты!
Поэтому символично, что сегодня успели зарелизить app.build - продукт, над которым мы небольшой командой работали с февраля. Это
Он полностью опенсорсный (можно покопаться в истории и увидеть все мои коммиты в стиле “maybe fix a lot of things”), работает как CLI и обычно генерит скорее работающие приложения. Можно сгенерить на наших серверах, можно развернуть у себя (все равно понадобится gemini и claude API, но можете прислать PR с поддержкой любимого LLM-провайдера). Шероховатостей еще много, но уже скорее работает, чем нет, так что пробуйте и присылайте баг-репорты!
Forwarded from DLStories
Вторая часть презентации, как и в 2023, снова была про риски AI. Общая идея Хинтона сейчас такая: "я не утверждаю, что нас ждет AI-апокалипсис, но в ближайшем будущем нас точно ждет что-то, чего никогда не было, и у нас нет никакого опыта взаимодейства с этим". Надо сказать, по сравнению с 2023 годом позиция стала намного более сдержанной. Такое ощущение, что лекция 2023 года была в тот момент, когда Хинтон преисполнился текущими возможностями LLM и навел у себя в голове паники, а сейчас эта паника спала. Тем не менее, Хинтон все равно считает, что многие люди слишком переоценивают "уникальность" человека и разницу между нами и AI, и это мешает осознать то, насколько AI сейчас уже мощный.
В частности, многие люди считают, что "субъективный опыт" — что-то уникальное, присущее только человеку, и у AI этого никогда не будет. В ответ Хинтон приводит пример, где рассуждение LLM выглядит так же, как и рассуждение человека, у которого был субъективный опыт. Вот этот пример:
Взяли шарик, перед шариком поставили призму, из-за которой наблюдателю кажется, что шарик лежит не в середние стола, а на правом краю. Сделали фото, дали GPT-4, спросили "где шарик". GPT-4 сказал, что справа. Потом ему сказали следующее: "теперь прими во внимание, что перед шариком мы поставили призму, которая искажает картинку". И GPT-4 ответил что-то вроде "а, окей, я понял, у меня был subjective experience того, что шарик справа, потому что призма искажает вид"
Плюс, в тему рисков AI снова было рассуждение о том, какой может быть вероятный сценарий захвата власти AI. Об этом писала в посте 2023 года, повторяться не буду, в этот раз посылы Хинтона были практически такими же. Единственное, в новой лекции к этой теме приводились пара примеров взаимодействия с LLM, которые подкрепляют эти сценарии. В этих сценариях LLM указывали на ее небезопасное поведение (например, пользователь заметил, что LLM скопировала себя на другой сервер), и LLM начинала отвечать стандартное "я не знаю, как это вышло, я всего лишь LLM и не могу копировать себя бла бла". Но если при этом залезть в мыслительный процесс LLM и посмотреть, что там происходило при генерации такого ответа, там будет что-то вроде "кажется, это не очень безопасно — говорить правду, лучше соврать/притвориться"
(пример на последней фотке к посту)
В частности, многие люди считают, что "субъективный опыт" — что-то уникальное, присущее только человеку, и у AI этого никогда не будет. В ответ Хинтон приводит пример, где рассуждение LLM выглядит так же, как и рассуждение человека, у которого был субъективный опыт. Вот этот пример:
Взяли шарик, перед шариком поставили призму, из-за которой наблюдателю кажется, что шарик лежит не в середние стола, а на правом краю. Сделали фото, дали GPT-4, спросили "где шарик". GPT-4 сказал, что справа. Потом ему сказали следующее: "теперь прими во внимание, что перед шариком мы поставили призму, которая искажает картинку". И GPT-4 ответил что-то вроде "а, окей, я понял, у меня был subjective experience того, что шарик справа, потому что призма искажает вид"
Плюс, в тему рисков AI снова было рассуждение о том, какой может быть вероятный сценарий захвата власти AI. Об этом писала в посте 2023 года, повторяться не буду, в этот раз посылы Хинтона были практически такими же. Единственное, в новой лекции к этой теме приводились пара примеров взаимодействия с LLM, которые подкрепляют эти сценарии. В этих сценариях LLM указывали на ее небезопасное поведение (например, пользователь заметил, что LLM скопировала себя на другой сервер), и LLM начинала отвечать стандартное "я не знаю, как это вышло, я всего лишь LLM и не могу копировать себя бла бла". Но если при этом залезть в мыслительный процесс LLM и посмотреть, что там происходило при генерации такого ответа, там будет что-то вроде "кажется, это не очень безопасно — говорить правду, лучше соврать/притвориться"
(пример на последней фотке к посту)
https://github.com/hugomd/parrot.live
Просто исполни эту команду не задавая вопросов
Просто исполни эту команду не задавая вопросов
curl parrot.live
GitHub
GitHub - hugomd/parrot.live: 🐦 Bringing animated parrots to terminals everywhere
🐦 Bringing animated parrots to terminals everywhere - hugomd/parrot.live
Forwarded from Data, Stories and Languages
- мы хотим AGI, мы хотим, чтобы агенты начали думать
- агенты пытаются делать что-то неожиданное
- нет, не так!!!
- агенты пытаются делать что-то неожиданное
- нет, не так!!!