С непривычки родина удивляет контрастами.
Город в Рязанской области, 300км от Москвы. Двухэтажные домики, МФЦ, музей самоваров, бездомная собака у магнита, дорога в колдобинах. Полный набор. Но заходишь в случайную дверь и попадаешь в спешлти кофейню такого уровня, который не во всех европейских столицах вообще изобрели. С воронками V60 Кения или Никагаруа на выбор, рафом на альтернативном молоке, макарунами как в Париже (буквально) и авторским лимонадом на березовом соке.
Это звучит как что-то из мемов про сферу услуг в России и Европе, но такое нарочно не придумаешь. В Португалии за пределами центра Лиссабона ты можешь купить только рыбно-фасолевое хрючево с пережаренным экспрессо (с буквой к). Причём оно во всех заведениях будет одинаковое.
Город в Рязанской области, 300км от Москвы. Двухэтажные домики, МФЦ, музей самоваров, бездомная собака у магнита, дорога в колдобинах. Полный набор. Но заходишь в случайную дверь и попадаешь в спешлти кофейню такого уровня, который не во всех европейских столицах вообще изобрели. С воронками V60 Кения или Никагаруа на выбор, рафом на альтернативном молоке, макарунами как в Париже (буквально) и авторским лимонадом на березовом соке.
Это звучит как что-то из мемов про сферу услуг в России и Европе, но такое нарочно не придумаешь. В Португалии за пределами центра Лиссабона ты можешь купить только рыбно-фасолевое хрючево с пережаренным экспрессо (с буквой к). Причём оно во всех заведениях будет одинаковое.
https://livecodebenchpro.com/
Теперь вы тоже можете сказать, что ваша модель достигает качества на уровне o3 (тоже 0%)
Теперь вы тоже можете сказать, что ваша модель достигает качества на уровне o3 (тоже 0%)
Я был в прошлом году, было очень весело. По вайбу как будто слегка аутичные дети захватили власть в детском лагере: всю программу организуют сами участники, в стиле burning man. В том году я сходил на воркшоп по взлому замков, послушал бизнес ангела инвестирующего в лонджевити почему неэффективно вкладываться в борьбу с раком (там уже достаточно денег), позанимался импровом, узнал про математику жонглирования, обклеил всю площадку самоклеющимися глазами и спел много песен под гитару.
И естественно куда ни плюнь AI ресерчеры, но я в тот раз их старательно избегал.
И естественно куда ни плюнь AI ресерчеры, но я в тот раз их старательно избегал.
Forwarded from Start in AI Safety (!¡)
Тот самый вайб старого-доброго LW. 12 итерация Недели Комьюнити LessWrong пройдет в Берлине! Это большая тусовка рационалистов, будет 250+ людей из разных частей Европы и четыре дня интересных обсуждений, веселья и нетворкинга
По всем вопросам писать сюда: [email protected]
Please open Telegram to view this post
VIEW IN TELEGRAM
Команда Яндекс RecSys R&D Team разработала ARGUS (AutoRegressive Generative User Sequential Modeling) — новую трансформерную рекомендательную модель. Трансформеры чудесны тем, что могут обрабатывать любые последовательности. Но здесь не просто предсказание отклика пользователя. ARGUS одновременно предсказывает будущие действия пользователя и его отклик, что повышает точность и качество персонализации. Данных об отклике всегда мало, так что использовать для обучения данные про все действия пользователя это очень умно.
Яндекс Музыка стала первым сервисом, в который внедрили новую модель и перевели её в онлайн-режим. Впервые Яндекс Музыка начала работать на базе генеративных моделей в 2023 году, теперь в Музыке ARGUS применяется в реалтайме, для каждого трека в Моей волне. Причем это 126М модель с длиной контекста 8192 события. Для реалтайм инференса трансформеров на масштабах Яндекс Музыки это очень большая модель. Инференсить такое на каждый новый трек в Моей волне — довольно нетривиальная задача.
Реалтайм инференс возможен благодаря собственной архитектуре модели, где эмбеддинги для пользователей и треков пересчитываются в оффлайне регулярным процессом. Это снимает большую часть нагрузки с модели, которая в такой постановке занимается лишь установлением взаимосвязей в последовательности.
Для оценки качества используется global temporal split, то есть замеряем качество на следующей неделе по времени после обучающих данных. На предобучении смотрели на лосс для задач next item prediction и feedback prediction. На дообучении была другая задача: правильно ранжировать близкие по времени прослушивания пользователем треки исходя из оставленного на них фидбека. Смотрим насколько предсказания модели о том, что больше предпочтет пользователь, совпадают с реальностью. Чем-то напоминает supervised finetuning LLM. Также для замера качества сравнивали метрики бустинга с прода с таким же бустингом, но с дополнительным признаком от ARGUS.
В онлайне проводили A/B эксперименты на пользователях Яндекс Музыки и Маркета и получили статзначимые улучшения продуктовых метрик. В стриминге пользователи стали на 20% чаще ставить лайки и добавлять в коллекцию впервые услышанные треки и артистов. В Маркете пользователи стали добавлять в корзину на 3% больше товаров, увиденных в рекомендациях, а покупки товаров из рекомендаций в новых для них категориях выросли на 5%.
https://habr.com/ru/companies/yandex/articles/919058/
Яндекс Музыка стала первым сервисом, в который внедрили новую модель и перевели её в онлайн-режим. Впервые Яндекс Музыка начала работать на базе генеративных моделей в 2023 году, теперь в Музыке ARGUS применяется в реалтайме, для каждого трека в Моей волне. Причем это 126М модель с длиной контекста 8192 события. Для реалтайм инференса трансформеров на масштабах Яндекс Музыки это очень большая модель. Инференсить такое на каждый новый трек в Моей волне — довольно нетривиальная задача.
Реалтайм инференс возможен благодаря собственной архитектуре модели, где эмбеддинги для пользователей и треков пересчитываются в оффлайне регулярным процессом. Это снимает большую часть нагрузки с модели, которая в такой постановке занимается лишь установлением взаимосвязей в последовательности.
Для оценки качества используется global temporal split, то есть замеряем качество на следующей неделе по времени после обучающих данных. На предобучении смотрели на лосс для задач next item prediction и feedback prediction. На дообучении была другая задача: правильно ранжировать близкие по времени прослушивания пользователем треки исходя из оставленного на них фидбека. Смотрим насколько предсказания модели о том, что больше предпочтет пользователь, совпадают с реальностью. Чем-то напоминает supervised finetuning LLM. Также для замера качества сравнивали метрики бустинга с прода с таким же бустингом, но с дополнительным признаком от ARGUS.
В онлайне проводили A/B эксперименты на пользователях Яндекс Музыки и Маркета и получили статзначимые улучшения продуктовых метрик. В стриминге пользователи стали на 20% чаще ставить лайки и добавлять в коллекцию впервые услышанные треки и артистов. В Маркете пользователи стали добавлять в корзину на 3% больше товаров, увиденных в рекомендациях, а покупки товаров из рекомендаций в новых для них категориях выросли на 5%.
https://habr.com/ru/companies/yandex/articles/919058/
10/10 статья про принципы построения систем на агентах. Новая база ML систем дизайна.
https://hackernoon.com/stop-prompting-start-engineering-15-principles-to-deliver-your-ai-agent-to-production
https://hackernoon.com/stop-prompting-start-engineering-15-principles-to-deliver-your-ai-agent-to-production
Hackernoon
Stop Prompting, Start Engineering: 15 Principles to Deliver Your AI Agent to Production
Build production-ready LLM agents. Learn 15 principles for stability, control, and real-world reliability beyond fragile scripts and hacks.
Forwarded from Пресидский залив (ex Надя пробует)
Собирать стиль из случайных покупок - все равно что пытаться составить осмысленное предложение из слов на холодильнике.
По отдельности интересно, но вместе не очень работает😐
Aesty (Antler ‘24) - это Fashion OS: приложение, который помогает собрать стиль из того, что у тебя уже есть, и дополнить его тем, что действительно нужно. Получается связный, логичный гардероб, который работает как система и курируется приложением🎧
В отличие от классических fashion-приложений, Aesty:
- Позволяет примерять и свои вещи, и новые — прямо на себе, в одном образе
- Показывает, что у тебя уже есть в гардеробе и как это сочетать друг с другом
- Строит образы под погоду, стиль и тренды
- Показывает, что действительно стоит докупить — с учетом твоего контекста, а не просто красивой ленты в пинтересте
С первого дня Aesty помогает иначе смотреть на гардероб не как на хаос, а как на стройную, понятную систему😎
⌨️ Лаунч на Product Hunt: https://www.producthunt.com/posts/aesty-your-fashion-os/
будем рады поддержке🤝
🎁 Только для PH:
Инвайт другу = обеим бесплатная примерка
Промокод:PRODUCTHUNT
Лайк, шэир, репост очень привествуются!😎
По отдельности интересно, но вместе не очень работает
Aesty (Antler ‘24) - это Fashion OS: приложение, который помогает собрать стиль из того, что у тебя уже есть, и дополнить его тем, что действительно нужно. Получается связный, логичный гардероб, который работает как система и курируется приложением
В отличие от классических fashion-приложений, Aesty:
- Позволяет примерять и свои вещи, и новые — прямо на себе, в одном образе
- Показывает, что у тебя уже есть в гардеробе и как это сочетать друг с другом
- Строит образы под погоду, стиль и тренды
- Показывает, что действительно стоит докупить — с учетом твоего контекста, а не просто красивой ленты в пинтересте
С первого дня Aesty помогает иначе смотреть на гардероб не как на хаос, а как на стройную, понятную систему
будем рады поддержке
🎁 Только для PH:
Инвайт другу = обеим бесплатная примерка
Промокод:
Лайк, шэир, репост очень привествуются!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сходки в Москве в ближайшее время не будет :(
Я пытался успеть в Москве всё за одну неделю, едва не поседел и заработал мигрень. Но сходка так и не поместилась в расписание.
В следующий раз :с
Я пытался успеть в Москве всё за одну неделю, едва не поседел и заработал мигрень. Но сходка так и не поместилась в расписание.
В следующий раз :с
Forwarded from Никита и его пшд (Nikita Durasov)
Ну и раз я вчера упомянул, что пока еще разбираюсь с последними проектами в универе, то вот один из них — у нас взяли статью на ✨ ICML в Ванкувере ✨ про новый Test-Time Training (если вкратце, то главная идея в том, что во время инференса мы апдейтим веса модели, оптимизируя какой-нибудь self-supervised лосс — это помогает модели быть более generalizable).
На самом деле, сама идея очень интересная и, как мне кажется, набирает обороты. Я сам пытаюсь её как-нибудь раскачивать (например, через эту torch-ttt либу, чекайте), о чём тоже хочу написать пару постов. Из более модного: я знаю, что TTT сейчас начали активно применять для увеличения длины контекстов у LLM-ок — об этом тоже как-нибудь напишу. Из моего опыта, TTT довольно часто может значительно улучшать перформанс модели на corrupted или out-of-distribution данных, а применять его довольно просто — это мы подробно обсудили в статье.
А вот тут будет призыв к действию: для нашей статьи я подготовил кучу материалов, включая видос ниже, где постарался в целом покрыть всю идею TTT. Я потратил слишком много времени в Manim-е, всё это верстая, поэтому просмотры / лайки будут highly appreciated. Ссылки на страницу статьи, посты, код и всё вот это — оставлю ниже.
Кому будет интересно, можете попробовать идею в этом ноутбуке.
📄 Paper: https://arxiv.org/abs/2410.04201
🧠 Project page: https://www.norange.io/projects/ittt/
💻 Code: https://github.com/nikitadurasov/ittt
🎬 Video: https://www.youtube.com/watch?v=eKGKpN8fFRM
🧩 torch-ttt class: https://torch-ttt.github.io/_autosummary/torch_ttt.engine.it3_engine.IT3Engine.html
🔬 Notebook: https://colab.research.google.com/github/nikitadurasov/ittt/blob/main/exps/mnist/it3_torch_ttt.ipynb
На самом деле, сама идея очень интересная и, как мне кажется, набирает обороты. Я сам пытаюсь её как-нибудь раскачивать (например, через эту torch-ttt либу, чекайте), о чём тоже хочу написать пару постов. Из более модного: я знаю, что TTT сейчас начали активно применять для увеличения длины контекстов у LLM-ок — об этом тоже как-нибудь напишу. Из моего опыта, TTT довольно часто может значительно улучшать перформанс модели на corrupted или out-of-distribution данных, а применять его довольно просто — это мы подробно обсудили в статье.
А вот тут будет призыв к действию: для нашей статьи я подготовил кучу материалов, включая видос ниже, где постарался в целом покрыть всю идею TTT. Я потратил слишком много времени в Manim-е, всё это верстая, поэтому просмотры / лайки будут highly appreciated. Ссылки на страницу статьи, посты, код и всё вот это — оставлю ниже.
Кому будет интересно, можете попробовать идею в этом ноутбуке.
📄 Paper: https://arxiv.org/abs/2410.04201
🧠 Project page: https://www.norange.io/projects/ittt/
💻 Code: https://github.com/nikitadurasov/ittt
🎬 Video: https://www.youtube.com/watch?v=eKGKpN8fFRM
🧩 torch-ttt class: https://torch-ttt.github.io/_autosummary/torch_ttt.engine.it3_engine.IT3Engine.html
🔬 Notebook: https://colab.research.google.com/github/nikitadurasov/ittt/blob/main/exps/mnist/it3_torch_ttt.ipynb
YouTube
[ICML 2025] IT³: Idempotent Test-Time Training
Introducing IT3: Idempotent Test-Time Training — a simple, universal method for improving model performance under distribution shift. No complex auxiliary losses and no architectural constraints. By enforcing idempotence, we achieve consistent gains across…
Cloud.ru выкатил сразу два крупных анонса на GigaConf для упрощения работы с облаком и искусственным интеллектом
Во-первых, они представили AI-помощника Клаудию для своего публичного облака Cloud.ru Evolution. Это не просто очередной чат-бот для консультаций. Помощник на базе GenAI умеет выполнять конкретные действия: самостоятельно развернуть виртуальную машину, помочь с командами в консоли в режиме co-pilot и настроить мониторинг и алертинг. Идея в том, чтобы разработчики и админы могли делегировать рутинные DevOps-задачи искусственному интеллекту, освобождая время на более важные вещи. AI-помощник уже доступен в режиме Public Preview.
Во-вторых, компания открыла для всех доступ к Cloud.ru Evolution AI Factory. Это облачная среда с готовыми инструментами для создания ML решений, работы с LLM и разработки AI-агентов. Внутри: модели по API, деплой и инференс (как GigaChat, так и любых моделей с Huggingface), finetuning моделей, компоненты RAG (Retrieval Augmented Generation), Jupyter ноутбуки по кнопке и даже визуальный редактор для создания AI-агентов.
Что интересно, Cloud.ru Evolution AI Factory рассчитана не только на опытных ML-инженеров. Утверждается, что простой интерфейс позволит работать с LLM даже без глубоких навыков программирования, что должно помочь с типовыми ML-решениями.
Подведем итоги. AI-помощник упрощает управление самой облачной инфраструктурой, а AI-фабрика дает готовые сервисы для быстрого создания и интеграции AI-решений поверх этой инфраструктуры. Похоже, тренд на упрощение, автоматизацию и удобство работы с AI и облаками набирает обороты. Cloud.ru делает серьезную заявку на то, чтобы стать единой точкой входа для компаний, которые хотят внедрять AI без необходимости строить все с нуля.
Во-первых, они представили AI-помощника Клаудию для своего публичного облака Cloud.ru Evolution. Это не просто очередной чат-бот для консультаций. Помощник на базе GenAI умеет выполнять конкретные действия: самостоятельно развернуть виртуальную машину, помочь с командами в консоли в режиме co-pilot и настроить мониторинг и алертинг. Идея в том, чтобы разработчики и админы могли делегировать рутинные DevOps-задачи искусственному интеллекту, освобождая время на более важные вещи. AI-помощник уже доступен в режиме Public Preview.
Во-вторых, компания открыла для всех доступ к Cloud.ru Evolution AI Factory. Это облачная среда с готовыми инструментами для создания ML решений, работы с LLM и разработки AI-агентов. Внутри: модели по API, деплой и инференс (как GigaChat, так и любых моделей с Huggingface), finetuning моделей, компоненты RAG (Retrieval Augmented Generation), Jupyter ноутбуки по кнопке и даже визуальный редактор для создания AI-агентов.
Что интересно, Cloud.ru Evolution AI Factory рассчитана не только на опытных ML-инженеров. Утверждается, что простой интерфейс позволит работать с LLM даже без глубоких навыков программирования, что должно помочь с типовыми ML-решениями.
Подведем итоги. AI-помощник упрощает управление самой облачной инфраструктурой, а AI-фабрика дает готовые сервисы для быстрого создания и интеграции AI-решений поверх этой инфраструктуры. Похоже, тренд на упрощение, автоматизацию и удобство работы с AI и облаками набирает обороты. Cloud.ru делает серьезную заявку на то, чтобы стать единой точкой входа для компаний, которые хотят внедрять AI без необходимости строить все с нуля.
Прочитал в перелете V-JEPA 2: self-supervised энкодер видео и изображений от Меты с претензией на смену парадигмы. Статья крутая и несложная, советую.
В дальнейшем буду приводить эту статью в пример чем в ML отличается решение задачи на 84% от решения на 85%.
По сути в этой версии статьи всё было отмасштабировано. В старой версии было 2 миллиона тренировочных видео на претрейне, а в новой уже 22 миллиона. Количество данных возросло в 11 раз, но это позволило поднять среднее качество всего на 1%. Вот так выглядит прогресс когда низковисящие фрукты уже съедены.
Но не стоит думать, что процент это мало. От фундаментальной модели требуется в первую очередь обобщаться, то есть показывать хорошее качество в редких или вообще новых ситуациях. Борьба за каждый процент говорит о том, что основной пласт типичных кейсов уже закрыт. Идет борьба с длинных хвостом редких ситуаций. Очередной невзрачный процент может перевести модель в разряд достаточно надежных.
В дальнейшем буду приводить эту статью в пример чем в ML отличается решение задачи на 84% от решения на 85%.
По сути в этой версии статьи всё было отмасштабировано. В старой версии было 2 миллиона тренировочных видео на претрейне, а в новой уже 22 миллиона. Количество данных возросло в 11 раз, но это позволило поднять среднее качество всего на 1%. Вот так выглядит прогресс когда низковисящие фрукты уже съедены.
Но не стоит думать, что процент это мало. От фундаментальной модели требуется в первую очередь обобщаться, то есть показывать хорошее качество в редких или вообще новых ситуациях. Борьба за каждый процент говорит о том, что основной пласт типичных кейсов уже закрыт. Идет борьба с длинных хвостом редких ситуаций. Очередной невзрачный процент может перевести модель в разряд достаточно надежных.
Forwarded from Take Friends to Luna Park
tl;dr: software engineer w/ LLM expertise, $100k-150k + equity, remote
Неделю назад к нам пришли новые клиенты и сразу нам понравились:
— $5М на пресиде — и раунд был oversubscribed, так что они ожидают x3 от этого ещё до Series A💸
— предыдущий стартап от тех же фаундеров сейчас оценивается в $3.3B;
— у команды в среднем по 15 лет опыта в местах вроде Меты или AWS;
— ✨👾киберсекьюрити!👾✨ (и немножко AI, конечно).
Пришли и попросили разработчика, который очень хорошо шарит в современных LLM: знает что лучше умеет Claude, а что — Gemini, как выжать из разных моделей максимум и какие у них ограничения, и следит, что там показали OpenAI в последнем релизе.
Это IceGuard — они делают платформу для сбора и анализа логов безопасности. Такие обычно называются SIEM — Security Information and Event Management, и без них не обходится почти никакая киберксекьюрити стратегия. А ещё в этой части инфобеза живут люди, которые круглосуточно смотрят в алёрты и отчёты, чтобы реагировать на инциденты и принимать решения.
Всё это работает сейчас, но плохо скейлится в мир, где есть AI-агенты и логов вдруг становится в 10 раз больше. Поэтому IceGuard делают свою SIEM: с централизацией данных, чтобы обрабатывать тонны запросов намного быстрее, и AI-агентами — чтобы автоматизировать решение простых задач и кратно ускорять людей с более сложными👾
И для этого им нужен тот самый разработчик — весёлый, бодрый и разбирающийся в LLM. Быть синьором, кстати, не очень важно, если в остальном вы мэтч.
Необязательны, но могут помочь:
⏹️ опыт разработки продуктов на базе LLM, особенно про аналитику или поддержку;
⏺️ продуктовое мышление: уметь придумать удобный флоу для какого-то процесса и UX к нему;
💐 опыт в кибербезопасности;
⏺️ опыт с langchain, llamaindex, neo4j или чем-то ещё в этом духе.
Вилка $100k-150k + equity, ремоут.
Расскажите @owlkov, чего вы делали с разными моделями!
Неделю назад к нам пришли новые клиенты и сразу нам понравились:
— $5М на пресиде — и раунд был oversubscribed, так что они ожидают x3 от этого ещё до Series A
— предыдущий стартап от тех же фаундеров сейчас оценивается в $3.3B;
— у команды в среднем по 15 лет опыта в местах вроде Меты или AWS;
— ✨👾киберсекьюрити!👾✨ (и немножко AI, конечно).
Пришли и попросили разработчика, который очень хорошо шарит в современных LLM: знает что лучше умеет Claude, а что — Gemini, как выжать из разных моделей максимум и какие у них ограничения, и следит, что там показали OpenAI в последнем релизе.
Это IceGuard — они делают платформу для сбора и анализа логов безопасности. Такие обычно называются SIEM — Security Information and Event Management, и без них не обходится почти никакая киберксекьюрити стратегия. А ещё в этой части инфобеза живут люди, которые круглосуточно смотрят в алёрты и отчёты, чтобы реагировать на инциденты и принимать решения.
Всё это работает сейчас, но плохо скейлится в мир, где есть AI-агенты и логов вдруг становится в 10 раз больше. Поэтому IceGuard делают свою SIEM: с централизацией данных, чтобы обрабатывать тонны запросов намного быстрее, и AI-агентами — чтобы автоматизировать решение простых задач и кратно ускорять людей с более сложными
И для этого им нужен тот самый разработчик — весёлый, бодрый и разбирающийся в LLM. Быть синьором, кстати, не очень важно, если в остальном вы мэтч.
Необязательны, но могут помочь:
Вилка $100k-150k + equity, ремоут.
Расскажите @owlkov, чего вы делали с разными моделями!
Please open Telegram to view this post
VIEW IN TELEGRAM
Очень качественный и душный дисс на моделирование в AI 2027
https://forum.effectivealtruism.org/posts/KgejNns3ojrvCfFbi/a-deep-critique-of-ai-2027-s-bad-timeline-models
https://forum.effectivealtruism.org/posts/KgejNns3ojrvCfFbi/a-deep-critique-of-ai-2027-s-bad-timeline-models
forum.effectivealtruism.org
A deep critique of AI 2027’s bad timeline models — EA Forum
Thank you to Arepo and Eli Lifland for looking over this article for errors. …