Sberloga

🔥 Исследователи Яндекса выложили в опенсорс один из самых больших в мире датасетов для RecSys

Речь про YaMBDa — Yandex Music Billion-interactions Dataset. Он создан на основе обезличенных данных Яндекс Музыки, крупнейшего подписного музыкального сервиса в России, а также «Моей волны», главного рекомендательного продукта сервиса. Датасет содержит обезличенные взаимодействия 1 миллиона пользователей Яндекс Музыки с 9 миллионами треков в течение 10 месяцев. Всего это 5 миллиардов событий.

https://habr.com/ru/companies/yandex/articles/913294/

Хабр

Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

Привет! Меня зовут Александр Плошкин, я руковожу группой развития качества персонализации в Яндексе. Сегодня мы открываем доступ к одному из крупнейших рекомендательных датасетов —...

🐳3🔥1

1.57K views🇻 🇱 🇦 🇩, 15:28

Sberloga

Forwarded from Data Secrets

⚡️

Вышел Apache Spark 4.0. Что интересного в релизе:

1️⃣ Новая архитектура клиент-сервер Spark Connect. Теперь клиентское приложение отделено от кластера Spark. Это значит, что подключаться к Spark можно будет из любой среды и ЯП, включая Python, Scala, Go, Swift и Rust. Кстати, клиент для Python весит всего 1,5 МБ и устанавливается просто через pip install pyspark-connect.

2️⃣ Режим ANSI SQL по умолчанию. Раньше Spark прощал многие ошибки – например, если ты делил на ноль или числа не влезали в столбец, он просто возвращал NULL или тихо обрезал значение. Это было удобно, но могло скрывать баги. Теперь включён режим ANSI SQL по умолчанию – как в классических базах данных. Если в запросе ошибка, Spark сразу об этом скажет и выбросит ошибку. Получается более надежно и предсказуемо.

3️⃣

Materialized Views. Это сохранённый результат SQL-запроса, который может автоматически использоваться при выполнении будущих запросов, если Spark понимает, что часть запроса уже была вычислена и закеширована. То есть теперь повторяющиеся запросы не надо каждый раз пересчитывать, можно просто достать из кэша. Супер существенно для времени и нагрузки на кластер.

4️⃣

Python Data Source API. Это прямо очень приятно: теперь не надо учить Scala, чтобы подключиться к кастомному источнику данных, все можно сделать просто на питоне. Это сильно упрощает интеграцию Spark с веб-сервисами, файлами, базами данных и вообще чем угодно.

5️⃣

Новый тип данных VARIANT. Это специально для полуструктурированных данных. То есть теперь, если у вас где-то лежат вложенные поля или JSON, запросы к ним можно выполнять прямо из коробки, предварительно не описывая схему.

Официальный релиз

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1

1.82K views🇻 🇱 🇦 🇩, 09:38

Sberloga

Forwarded from CodeCamp

Будни вайб-кодеров 💀

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣29😢7👏1

1.58K views🇻 🇱 🇦 🇩, 10:17

Sberloga

🚀 Новый курс по рекомендательным системам и RePlay — прокачай навыки персонализации данных!

В мире, где персонализация решает всё — от любимых фильмов до идеальных покупок — рекомендательные системы стали must-have инструментом. Хотите не просто понимать их, а создавать с нуля? Тогда этот курс для вас!

Sber AI Lab представляет курс по рекомендательным системам и open-source библиотеке RePlay!

🔘 Погружение в основы: от коллаборативной фильтрации до гибридных моделей
🔘 Практика на реальных кейсах, только работающие решения
🔘 Освоение RePlay — мощного инструмента для построения рекомендаций
🔘 Гибкий график — учитесь где угодно и когда удобно

🎁 Бонус: Сертификат от СберУниверситета для участников, кто успешно закроет все модули - для резюме и личной гордости

Зачем это вам?
Рынок рекомендательных систем растёт на 24,7% в год (Research Nester), и спрос на специалистов огромен. С этим курсом вы войдёте в топ востребованных профессионалов!

💻 Записаться на курс

#курс
❤ @sb_ai_lab

❤7🔥3😁1👨‍💻1

1.43K views🇻 🇱 🇦 🇩, 16:14

Sberloga

Forwarded from Machinelearning

📌

США могут ускорить гонку ИИ, вложив в "Манхэттенский проект ИИ" ресурсы, сопоставимые с программой «Аполлон».

Идея «Манхэттенского проекта для ИИ», витавшая последние месяцы на самом высоком уровне в США, кажется, начинает обретать очертания. Но за громкими сравнениями обычно теряется суть: а что это значит на практике?

Аналитики из Epoch AI решили посчитать, какой вычислительный монстр может появиться, если американское правительство консолидирует ресурсы частного сектора и вложит в проект долю ВВП, сопоставимую с пиком лунной программы.

Epoch AI - некоммерческий исследовательский институт, который изучает траекторию развития искусственного интеллекта, анализирует тренды в вычислениях, данных и алгоритмах, чтобы прогнозировать влияние ИИ на экономику и общество.

🟡

Картина получается масштабная.

Расчеты показывают, что к концу 2027 года такой проект мог бы обеспечить тренировочный прогон модели с вычислительной мощностью порядка 2 × 10²⁹ FLOP.

Чтобы понять масштаб: это примерно в 10 000 раз больше, чем потребовалось для обучения GPT-4. По сути, это рывок, который по текущим прогнозам должен был случиться на несколько лет позже.

Финансирование на уровне программы «Аполлон» (около 0.8% ВВП или 244 млрд. долларов сегодня) позволило бы закупить и объединить в один кластер эквивалент 27 миллионов NVIDIA H100. Эта цифра, кстати, совпадает с экстраполяцией текущих доходов NVIDIA от продаж в США.

🟡

А хватит ли на это электричества?

27 миллионов GPU потребуют около 7.4 ГВт мощности - это больше, чем потребляет весь город Нью-Йорк. Оказывается, это не главная преграда. Аналитики говорят, что к 2027 году в США и так планируется ввод 8.8 ГВт за счет новых газовых электростанций, значительная часть которых уже предназначена для дата-центров.

При наличии политической воли и используя законодательные инструменты, правительство США сможет сконцентрировать эти мощности в одном месте, так что энергия не станет узким местом.

🟡

Разумеется, у сценария есть свои «но».

Геополитическая напряженность, например, вокруг Тайваня, может сорвать поставки чипов. Кроме того, нельзя просто так взять и увеличить масштаб в тысячи раз. Масштабирование требует времени на отладочные прогоны и эксперименты, но это скорее инженерное, а не ресурсное ограничение.

Тем не менее, анализ показывает: при должной координации и инвестициях технологический скачок в области ИИ может произойти гораздо быстрее, чем мы думаем. И это уже вполне просчитываемая возможность.

🔜

Статья на Epoch AI

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3🔥3✍1😁1

1.35K views🇻 🇱 🇦 🇩, 08:31

Sberloga

📣 Внимание! 17 июля (четверг) в 18:00 в Sberloga пройдет доклад на тему
GNN в рекомендациях OKKO

🎙️ Спикер - Никифоров Роман, Senior Data Scientist в отделе рекомендаций онлайн-кинотеатра Окко.

⭐ Роман поделится опытом использования графовой нейронной сети для создания персонализированных рекомендаций для пользователей. Узнайте об их экспериментах и достигнутых результатах.

🕕 Ждем вас в @Sberloga в 18:00!
(ссылку пришлю перед докладом в канал, подписывайтесь, чтобы не пропустить)

🔥4

2.06K views🇻 🇱 🇦 🇩, 06:27

Sberloga

Forwarded from Дата канальи — про «специалистов» в данных / ML / AI

0:05

Media is too big

VIEW IN TELEGRAM

МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов.

Обсудим:
⭐️«Вызовы для DS 2025 в России».
Спикеры:
— Никита Зелинский, CDS & Head of ML Platforms МТС, автор канала Дата канальи – про „специалистов“ данных в ML/AI
— Евгений Смирнов, CDS & Head of ML Lab, Alfa-Bank, автор канала Нескучный Data Science
— Шамаев Юлий, начальник управления моделирования партнерств и ИТ-процессов, Банк ВТБ.
⭐️ «Наши RecSys-технологии: как мы завариваем вашу любимую музыку». — Дмитрий Берестнев, начальник управления машинного обучения, Hi-Fi стриминга Звук.
⭐️ «Трансформеры в кино. Как мы строим персональные рекомы в KION». — Даниил Пименов, Team Lead RecSys в KION, MWS Big Data.
⭐️ «Георекомендации: как мы подсказываем клиентам, где тратить деньги». — Алексей Пустынников, DS Team Lead команды GeoML Банка ВТБ.
⭐️«Serving по-взрослому: ускорение NLP inference в 50 раз в Антиспаме» — Илья Денисов, ML Team Lead команды Антифрод MWS Big Data.
⭐️«Практические кейсы внедрения Rag: помощник оператора и HelpDesk» — Александр Вавилкин, Middle Data Scientist, Альфа Банк.

Готовьте ваши вопросы спикерам, под попкорн будем выбирать лучшие!

🗓 29 июля
🕗 19:00–22:30
🔗 Офлайн. Количество мест ограничено. Регистрируйтесь по ссылке.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤1

1.09K views🇻 🇱 🇦 🇩, 16:13

Sberloga

📣 Внимание! 17 июля (четверг) в 18:00 в Sberloga пройдет доклад на тему GNN в рекомендациях OKKO 🎙️ Спикер - Никифоров Роман, Senior Data Scientist в отделе рекомендаций онлайн-кинотеатра Окко. ⭐ Роман поделится опытом использования графовой нейронной сети…

Ребята, уже через полтора часа у нас начнется лекция Романа
GNN в рекомендациях OKKO

Начало в 18:00
Подключаться можно будет по ссылке:
https://mts.mts-link.ru/j/MTC/99464665

2.12K views🇻 🇱 🇦 🇩, 13:22

Sberloga

можно подключаться

1.27K views🇻 🇱 🇦 🇩, 14:56

Sberloga

📖️ Видеопост прошедшей лекции, как обещал!

Отдельный респект Роману за его крутой доклад! Очень подробно раскрыл специфику построения моделей, тонкости и разные подходы. 👍️ Рекомендую к просмотру!

Кстати, для удобства выкладываю видео и в VK, и в YouTube, чтобы не мучиться с VPN из России:

🎬 VK: https://vkvideo.ru/video-231661716_456239017

🎬 YouTube: https://youtu.be/7vfsl9HV5_c

Смотрите и наслаждайтесь! 🎥

VK Видео

GNN в рекомендациях OKKO

https://www.tg-me.com/sberloga GNN в рекомендациях OKKO 🎙️ Спикер - Никифоров Роман, Senior Data Scientist в отделе рекомендаций онлайн-кинотеатра Окко. ⭐ Роман поделится опытом использования графовой нейронной сети для создания персонализированных рекомендаций для…

👍7🦄1

1.38K views🇻 🇱 🇦 🇩, 07:10

Sberloga

❤1

1.1K views🇻 🇱 🇦 🇩, 16:37

Sberloga

Сейчас на Summer Data Science Night на площадке киона. Доклады обещают быть интересными ❤️ Потом поделюсь впечатлениями

1.07K views🇻 🇱 🇦 🇩, 16:41

Sberloga

👍3

834 views🇻 🇱 🇦 🇩, 12:59

Sberloga

Первый доклад был от Димы Берестнева из "Звука". На мой взгляд, это был лучший доклад дня, посвященный внутреннему устройству рекомендательной платформы в "Звуке". 🎧️

Дима рассказал о том, какие модели используются и как происходит взаимодействие продуктов. 🛠️

Честно говоря, количество различных моделей и решений было впечатляющим. Осталось неясным, как ребята пришли к такой архитектуре - кажется, схема довольно сложная и росла она исторически. Не факт, что каждый элемент вносит значительный вклад. 🤔️

Интересным моментом было то, что отбором кандидатов занимается RL. 📊️

924 views🇻 🇱 🇦 🇩, edited 12:59

Sberloga

862 views🇻 🇱 🇦 🇩, 13:00

Sberloga

Второй доклад подготовил Даниил Пиманов из "Кион". Темой его выступления стали трансформеры. 📽️

Даниил подробно рассказал о проблемах, возникающих при рекомендациях фильмов. Он поделился, как выбирались метрики, как происходила работа с популярными фильмами и как происходило модифицирование loss функции под конкретные задачи. 🎯️

Доклад был интересным и содержательным, однако за отведенные 20 минут не удалось рассказать обо всем. Осталось ощущение, что хотелось бы уделить этой теме больше времени. ⏰️

1.01K views🇻 🇱 🇦 🇩, edited 13:00

Sberloga

940 views🇻 🇱 🇦 🇩, 13:01

Sberloga

Третий доклад был от Алексея Пустынникова из ВТБ. Темой его презентации стало использование геоэмбедингов для решения задачи оптимального расположения банкоматов. 🏧️

Вкратце, рассматривались геопатчи размером 500х500 метров, для которых строились геоэмбединги. Также строились эмбединги клиентов и модель, определяющая для каждого клиента оптимальные патчи для расположения банкоматов. 🌍️

Проект выглядит весьма интересным, но сложным. Остается неясным, дал ли он эффект выше, чем аналитический подход с анализом локаций, где клиенты снимают деньги, но нет собственных банкоматов. На этот вопрос, по всей видимости, был дан ответ о проведении А/В-теста... но, если честно, в это сложно поверить. 🙂️

💅1

1.3K views🇻 🇱 🇦 🇩, edited 13:01

2025/10/20 09:26:04
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>