🔥 Исследователи Яндекса выложили в опенсорс один из самых больших в мире датасетов для RecSys
Речь про YaMBDa — Yandex Music Billion-interactions Dataset. Он создан на основе обезличенных данных Яндекс Музыки, крупнейшего подписного музыкального сервиса в России, а также «Моей волны», главного рекомендательного продукта сервиса. Датасет содержит обезличенные взаимодействия 1 миллиона пользователей Яндекс Музыки с 9 миллионами треков в течение 10 месяцев. Всего это 5 миллиардов событий.
https://habr.com/ru/companies/yandex/articles/913294/
Речь про YaMBDa — Yandex Music Billion-interactions Dataset. Он создан на основе обезличенных данных Яндекс Музыки, крупнейшего подписного музыкального сервиса в России, а также «Моей волны», главного рекомендательного продукта сервиса. Датасет содержит обезличенные взаимодействия 1 миллиона пользователей Яндекс Музыки с 9 миллионами треков в течение 10 месяцев. Всего это 5 миллиардов событий.
https://habr.com/ru/companies/yandex/articles/913294/
Хабр
Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем
Привет! Меня зовут Александр Плошкин, я руковожу группой развития качества персонализации в Яндексе. Сегодня мы открываем доступ к одному из крупнейших рекомендательных датасетов —...
🐳3🔥1
Forwarded from Data Secrets
pip install pyspark-connect
.NULL
или тихо обрезал значение. Это было удобно, но могло скрывать баги. Теперь включён режим ANSI SQL по умолчанию – как в классических базах данных. Если в запросе ошибка, Spark сразу об этом скажет и выбросит ошибку. Получается более надежно и предсказуемо. Официальный релиз
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🚀 Новый курс по рекомендательным системам и RePlay — прокачай навыки персонализации данных!
В мире, где персонализация решает всё — от любимых фильмов до идеальных покупок — рекомендательные системы стали must-have инструментом. Хотите не просто понимать их, а создавать с нуля? Тогда этот курс для вас!
Sber AI Lab представляет курс по рекомендательным системам и open-source библиотеке RePlay!
🔘 Погружение в основы: от коллаборативной фильтрации до гибридных моделей
🔘 Практика на реальных кейсах, только работающие решения
🔘 Освоение RePlay — мощного инструмента для построения рекомендаций
🔘 Гибкий график — учитесь где угодно и когда удобно
🎁 Бонус: Сертификат от СберУниверситета для участников, кто успешно закроет все модули - для резюме и личной гордости
Зачем это вам?
Рынок рекомендательных систем растёт на 24,7% в год (Research Nester), и спрос на специалистов огромен. С этим курсом вы войдёте в топ востребованных профессионалов!
💻 Записаться на курс
#курс
❤ @sb_ai_lab
В мире, где персонализация решает всё — от любимых фильмов до идеальных покупок — рекомендательные системы стали must-have инструментом. Хотите не просто понимать их, а создавать с нуля? Тогда этот курс для вас!
Sber AI Lab представляет курс по рекомендательным системам и open-source библиотеке RePlay!
🔘 Погружение в основы: от коллаборативной фильтрации до гибридных моделей
🔘 Практика на реальных кейсах, только работающие решения
🔘 Освоение RePlay — мощного инструмента для построения рекомендаций
🔘 Гибкий график — учитесь где угодно и когда удобно
🎁 Бонус: Сертификат от СберУниверситета для участников, кто успешно закроет все модули - для резюме и личной гордости
Зачем это вам?
Рынок рекомендательных систем растёт на 24,7% в год (Research Nester), и спрос на специалистов огромен. С этим курсом вы войдёте в топ востребованных профессионалов!
💻 Записаться на курс
#курс
❤ @sb_ai_lab
❤7🔥3😁1👨💻1
Forwarded from Machinelearning
Идея «Манхэттенского проекта для ИИ», витавшая последние месяцы на самом высоком уровне в США, кажется, начинает обретать очертания. Но за громкими сравнениями обычно теряется суть: а что это значит на практике?
Аналитики из Epoch AI решили посчитать, какой вычислительный монстр может появиться, если американское правительство консолидирует ресурсы частного сектора и вложит в проект долю ВВП, сопоставимую с пиком лунной программы.
Epoch AI - некоммерческий исследовательский институт, который изучает траекторию развития искусственного интеллекта, анализирует тренды в вычислениях, данных и алгоритмах, чтобы прогнозировать влияние ИИ на экономику и общество.
Расчеты показывают, что к концу 2027 года такой проект мог бы обеспечить тренировочный прогон модели с вычислительной мощностью порядка 2 × 10²⁹ FLOP.
Чтобы понять масштаб: это примерно в 10 000 раз больше, чем потребовалось для обучения GPT-4. По сути, это рывок, который по текущим прогнозам должен был случиться на несколько лет позже.
Финансирование на уровне программы «Аполлон» (около 0.8% ВВП или 244 млрд. долларов сегодня) позволило бы закупить и объединить в один кластер эквивалент 27 миллионов NVIDIA H100. Эта цифра, кстати, совпадает с экстраполяцией текущих доходов NVIDIA от продаж в США.
27 миллионов GPU потребуют около 7.4 ГВт мощности - это больше, чем потребляет весь город Нью-Йорк. Оказывается, это не главная преграда. Аналитики говорят, что к 2027 году в США и так планируется ввод 8.8 ГВт за счет новых газовых электростанций, значительная часть которых уже предназначена для дата-центров.
При наличии политической воли и используя законодательные инструменты, правительство США сможет сконцентрировать эти мощности в одном месте, так что энергия не станет узким местом.
Геополитическая напряженность, например, вокруг Тайваня, может сорвать поставки чипов. Кроме того, нельзя просто так взять и увеличить масштаб в тысячи раз. Масштабирование требует времени на отладочные прогоны и эксперименты, но это скорее инженерное, а не ресурсное ограничение.
Тем не менее, анализ показывает: при должной координации и инвестициях технологический скачок в области ИИ может произойти гораздо быстрее, чем мы думаем. И это уже вполне просчитываемая возможность.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥3✍1😁1
📣 Внимание! 17 июля (четверг) в 18:00 в Sberloga пройдет доклад на тему
GNN в рекомендациях OKKO
🎙️ Спикер - Никифоров Роман, Senior Data Scientist в отделе рекомендаций онлайн-кинотеатра Окко.
⭐ Роман поделится опытом использования графовой нейронной сети для создания персонализированных рекомендаций для пользователей. Узнайте об их экспериментах и достигнутых результатах.
🕕 Ждем вас в @Sberloga в 18:00!
(ссылку пришлю перед докладом в канал, подписывайтесь, чтобы не пропустить)
GNN в рекомендациях OKKO
🎙️ Спикер - Никифоров Роман, Senior Data Scientist в отделе рекомендаций онлайн-кинотеатра Окко.
⭐ Роман поделится опытом использования графовой нейронной сети для создания персонализированных рекомендаций для пользователей. Узнайте об их экспериментах и достигнутых результатах.
🕕 Ждем вас в @Sberloga в 18:00!
(ссылку пришлю перед докладом в канал, подписывайтесь, чтобы не пропустить)
🔥4
Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
Media is too big
VIEW IN TELEGRAM
МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов.
Обсудим:
⭐️ «Вызовы для DS 2025 в России».
Спикеры:
— Никита Зелинский, CDS & Head of ML Platforms МТС, автор канала Дата канальи – про „специалистов“ данных в ML/AI
— Евгений Смирнов, CDS & Head of ML Lab, Alfa-Bank, автор канала Нескучный Data Science
— Шамаев Юлий, начальник управления моделирования партнерств и ИТ-процессов, Банк ВТБ.
⭐️ «Наши RecSys-технологии: как мы завариваем вашу любимую музыку». — Дмитрий Берестнев, начальник управления машинного обучения, Hi-Fi стриминга Звук.
⭐️ «Трансформеры в кино. Как мы строим персональные рекомы в KION». — Даниил Пименов, Team Lead RecSys в KION, MWS Big Data.
⭐️ «Георекомендации: как мы подсказываем клиентам, где тратить деньги». — Алексей Пустынников, DS Team Lead команды GeoML Банка ВТБ.
⭐️ «Serving по-взрослому: ускорение NLP inference в 50 раз в Антиспаме» — Илья Денисов, ML Team Lead команды Антифрод MWS Big Data.
⭐️ «Практические кейсы внедрения Rag: помощник оператора и HelpDesk» — Александр Вавилкин, Middle Data Scientist, Альфа Банк.
Готовьте ваши вопросы спикерам, под попкорн будем выбирать лучшие!
🗓 29 июля
🕗 19:00–22:30
🔗 Офлайн. Количество мест ограничено. Регистрируйтесь по ссылке.
Обсудим:
Спикеры:
— Никита Зелинский, CDS & Head of ML Platforms МТС, автор канала Дата канальи – про „специалистов“ данных в ML/AI
— Евгений Смирнов, CDS & Head of ML Lab, Alfa-Bank, автор канала Нескучный Data Science
— Шамаев Юлий, начальник управления моделирования партнерств и ИТ-процессов, Банк ВТБ.
Готовьте ваши вопросы спикерам, под попкорн будем выбирать лучшие!
🗓 29 июля
🕗 19:00–22:30
🔗 Офлайн. Количество мест ограничено. Регистрируйтесь по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤1
Sberloga
📣 Внимание! 17 июля (четверг) в 18:00 в Sberloga пройдет доклад на тему GNN в рекомендациях OKKO 🎙️ Спикер - Никифоров Роман, Senior Data Scientist в отделе рекомендаций онлайн-кинотеатра Окко. ⭐ Роман поделится опытом использования графовой нейронной сети…
Ребята, уже через полтора часа у нас начнется лекция Романа
GNN в рекомендациях OKKO
Начало в 18:00
Подключаться можно будет по ссылке:
https://mts.mts-link.ru/j/MTC/99464665
GNN в рекомендациях OKKO
Начало в 18:00
Подключаться можно будет по ссылке:
https://mts.mts-link.ru/j/MTC/99464665
Sberloga
📣 Внимание! 17 июля (четверг) в 18:00 в Sberloga пройдет доклад на тему GNN в рекомендациях OKKO 🎙️ Спикер - Никифоров Роман, Senior Data Scientist в отделе рекомендаций онлайн-кинотеатра Окко. ⭐ Роман поделится опытом использования графовой нейронной сети…
📖️ Видеопост прошедшей лекции, как обещал!
Отдельный респект Роману за его крутой доклад! Очень подробно раскрыл специфику построения моделей, тонкости и разные подходы. 👍️ Рекомендую к просмотру!
Кстати, для удобства выкладываю видео и в VK, и в YouTube, чтобы не мучиться с VPN из России:
🎬 VK: https://vkvideo.ru/video-231661716_456239017
🎬 YouTube: https://youtu.be/7vfsl9HV5_c
Смотрите и наслаждайтесь! 🎥
Отдельный респект Роману за его крутой доклад! Очень подробно раскрыл специфику построения моделей, тонкости и разные подходы. 👍️ Рекомендую к просмотру!
Кстати, для удобства выкладываю видео и в VK, и в YouTube, чтобы не мучиться с VPN из России:
🎬 VK: https://vkvideo.ru/video-231661716_456239017
🎬 YouTube: https://youtu.be/7vfsl9HV5_c
Смотрите и наслаждайтесь! 🎥
VK Видео
GNN в рекомендациях OKKO
https://www.tg-me.com/sberloga GNN в рекомендациях OKKO 🎙️ Спикер - Никифоров Роман, Senior Data Scientist в отделе рекомендаций онлайн-кинотеатра Окко. ⭐ Роман поделится опытом использования графовой нейронной сети для создания персонализированных рекомендаций для…
👍7🦄1
Сейчас на Summer Data Science Night на площадке киона. Доклады обещают быть интересными ❤️ Потом поделюсь впечатлениями
Первый доклад был от Димы Берестнева из "Звука". На мой взгляд, это был лучший доклад дня, посвященный внутреннему устройству рекомендательной платформы в "Звуке". 🎧️
Дима рассказал о том, какие модели используются и как происходит взаимодействие продуктов. 🛠️
Честно говоря, количество различных моделей и решений было впечатляющим. Осталось неясным, как ребята пришли к такой архитектуре - кажется, схема довольно сложная и росла она исторически. Не факт, что каждый элемент вносит значительный вклад. 🤔️
Интересным моментом было то, что отбором кандидатов занимается RL. 📊️
Дима рассказал о том, какие модели используются и как происходит взаимодействие продуктов. 🛠️
Честно говоря, количество различных моделей и решений было впечатляющим. Осталось неясным, как ребята пришли к такой архитектуре - кажется, схема довольно сложная и росла она исторически. Не факт, что каждый элемент вносит значительный вклад. 🤔️
Интересным моментом было то, что отбором кандидатов занимается RL. 📊️
Второй доклад подготовил Даниил Пиманов из "Кион". Темой его выступления стали трансформеры. 📽️
Даниил подробно рассказал о проблемах, возникающих при рекомендациях фильмов. Он поделился, как выбирались метрики, как происходила работа с популярными фильмами и как происходило модифицирование loss функции под конкретные задачи. 🎯️
Доклад был интересным и содержательным, однако за отведенные 20 минут не удалось рассказать обо всем. Осталось ощущение, что хотелось бы уделить этой теме больше времени. ⏰️
Даниил подробно рассказал о проблемах, возникающих при рекомендациях фильмов. Он поделился, как выбирались метрики, как происходила работа с популярными фильмами и как происходило модифицирование loss функции под конкретные задачи. 🎯️
Доклад был интересным и содержательным, однако за отведенные 20 минут не удалось рассказать обо всем. Осталось ощущение, что хотелось бы уделить этой теме больше времени. ⏰️
Третий доклад был от Алексея Пустынникова из ВТБ. Темой его презентации стало использование геоэмбедингов для решения задачи оптимального расположения банкоматов. 🏧️
Вкратце, рассматривались геопатчи размером 500х500 метров, для которых строились геоэмбединги. Также строились эмбединги клиентов и модель, определяющая для каждого клиента оптимальные патчи для расположения банкоматов. 🌍️
Проект выглядит весьма интересным, но сложным. Остается неясным, дал ли он эффект выше, чем аналитический подход с анализом локаций, где клиенты снимают деньги, но нет собственных банкоматов. На этот вопрос, по всей видимости, был дан ответ о проведении А/В-теста... но, если честно, в это сложно поверить. 🙂️
Вкратце, рассматривались геопатчи размером 500х500 метров, для которых строились геоэмбединги. Также строились эмбединги клиентов и модель, определяющая для каждого клиента оптимальные патчи для расположения банкоматов. 🌍️
Проект выглядит весьма интересным, но сложным. Остается неясным, дал ли он эффект выше, чем аналитический подход с анализом локаций, где клиенты снимают деньги, но нет собственных банкоматов. На этот вопрос, по всей видимости, был дан ответ о проведении А/В-теста... но, если честно, в это сложно поверить. 🙂️
💅1