Telegram Web Link
🔥 Исследователи Яндекса выложили в опенсорс один из самых больших в мире датасетов для RecSys

Речь про YaMBDa — Yandex Music Billion-interactions Dataset. Он создан на основе обезличенных данных Яндекс Музыки, крупнейшего подписного музыкального сервиса в России, а также «Моей волны», главного рекомендательного продукта сервиса. Датасет содержит обезличенные взаимодействия 1 миллиона пользователей Яндекс Музыки с 9 миллионами треков в течение 10 месяцев. Всего это 5 миллиардов событий.

https://habr.com/ru/companies/yandex/articles/913294/
🐳3🔥1
Forwarded from Data Secrets
⚡️ Вышел Apache Spark 4.0. Что интересного в релизе:

1️⃣ Новая архитектура клиент-сервер Spark Connect. Теперь клиентское приложение отделено от кластера Spark. Это значит, что подключаться к Spark можно будет из любой среды и ЯП, включая Python, Scala, Go, Swift и Rust. Кстати, клиент для Python весит всего 1,5 МБ и устанавливается просто через pip install pyspark-connect.

2️⃣ Режим ANSI SQL по умолчанию. Раньше Spark прощал многие ошибки – например, если ты делил на ноль или числа не влезали в столбец, он просто возвращал NULL или тихо обрезал значение. Это было удобно, но могло скрывать баги. Теперь включён режим ANSI SQL по умолчанию – как в классических базах данных. Если в запросе ошибка, Spark сразу об этом скажет и выбросит ошибку. Получается более надежно и предсказуемо.

3️⃣ Materialized Views. Это сохранённый результат SQL-запроса, который может автоматически использоваться при выполнении будущих запросов, если Spark понимает, что часть запроса уже была вычислена и закеширована. То есть теперь повторяющиеся запросы не надо каждый раз пересчитывать, можно просто достать из кэша. Супер существенно для времени и нагрузки на кластер.

4️⃣ Python Data Source API. Это прямо очень приятно: теперь не надо учить Scala, чтобы подключиться к кастомному источнику данных, все можно сделать просто на питоне. Это сильно упрощает интеграцию Spark с веб-сервисами, файлами, базами данных и вообще чем угодно.

5️⃣ Новый тип данных VARIANT. Это специально для полуструктурированных данных. То есть теперь, если у вас где-то лежат вложенные поля или JSON, запросы к ним можно выполнять прямо из коробки, предварительно не описывая схему.

Официальный релиз
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from CodeCamp
Будни вайб-кодеров 💀
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣29😢7👏1
🚀 Новый курс по рекомендательным системам и RePlay — прокачай навыки персонализации данных!

В мире, где персонализация решает всё — от любимых фильмов до идеальных покупок — рекомендательные системы стали must-have инструментом. Хотите не просто понимать их, а создавать с нуля? Тогда этот курс для вас!

Sber AI Lab представляет курс по рекомендательным системам и open-source библиотеке RePlay!

🔘 Погружение в основы: от коллаборативной фильтрации до гибридных моделей
🔘 Практика на реальных кейсах, только работающие решения
🔘 Освоение RePlay — мощного инструмента для построения рекомендаций
🔘 Гибкий график — учитесь где угодно и когда удобно

🎁 Бонус: Сертификат от СберУниверситета для участников, кто успешно закроет все модули - для резюме и личной гордости

Зачем это вам?
Рынок рекомендательных систем растёт на 24,7% в год (Research Nester), и спрос на специалистов огромен. С этим курсом вы войдёте в топ востребованных профессионалов!


💻 Записаться на курс


#курс
@sb_ai_lab
7🔥3😁1👨‍💻1
Forwarded from Machinelearning
📌 США могут ускорить гонку ИИ, вложив в "Манхэттенский проект ИИ" ресурсы, сопоставимые с программой «Аполлон».

Идея «Манхэттенского проекта для ИИ», витавшая последние месяцы на самом высоком уровне в США, кажется, начинает обретать очертания. Но за громкими сравнениями обычно теряется суть: а что это значит на практике?

Аналитики из Epoch AI решили посчитать, какой вычислительный монстр может появиться, если американское правительство консолидирует ресурсы частного сектора и вложит в проект долю ВВП, сопоставимую с пиком лунной программы.

Epoch AI - некоммерческий исследовательский институт, который изучает траекторию развития искусственного интеллекта, анализирует тренды в вычислениях, данных и алгоритмах, чтобы прогнозировать влияние ИИ на экономику и общество.


🟡Картина получается масштабная.

Расчеты показывают, что к концу 2027 года такой проект мог бы обеспечить тренировочный прогон модели с вычислительной мощностью порядка 2 × 10²⁹ FLOP.

Чтобы понять масштаб: это примерно в 10 000 раз больше, чем потребовалось для обучения GPT-4. По сути, это рывок, который по текущим прогнозам должен был случиться на несколько лет позже.

Финансирование на уровне программы «Аполлон» (около 0.8% ВВП или 244 млрд. долларов сегодня) позволило бы закупить и объединить в один кластер эквивалент 27 миллионов NVIDIA H100. Эта цифра, кстати, совпадает с экстраполяцией текущих доходов NVIDIA от продаж в США.

🟡А хватит ли на это электричества?

27 миллионов GPU потребуют около 7.4 ГВт мощности - это больше, чем потребляет весь город Нью-Йорк. Оказывается, это не главная преграда. Аналитики говорят, что к 2027 году в США и так планируется ввод 8.8 ГВт за счет новых газовых электростанций, значительная часть которых уже предназначена для дата-центров.

При наличии политической воли и используя законодательные инструменты, правительство США сможет сконцентрировать эти мощности в одном месте, так что энергия не станет узким местом.

🟡Разумеется, у сценария есть свои «но».

Геополитическая напряженность, например, вокруг Тайваня, может сорвать поставки чипов. Кроме того, нельзя просто так взять и увеличить масштаб в тысячи раз. Масштабирование требует времени на отладочные прогоны и эксперименты, но это скорее инженерное, а не ресурсное ограничение.

Тем не менее, анализ показывает: при должной координации и инвестициях технологический скачок в области ИИ может произойти гораздо быстрее, чем мы думаем. И это уже вполне просчитываемая возможность.

🔜 Статья на Epoch AI

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥31😁1
📣 Внимание! 17 июля (четверг) в 18:00 в Sberloga пройдет доклад на тему
GNN в рекомендациях OKKO

🎙️ Спикер - Никифоров Роман, Senior Data Scientist в отделе рекомендаций онлайн-кинотеатра Окко.

Роман поделится опытом использования графовой нейронной сети для создания персонализированных рекомендаций для пользователей. Узнайте об их экспериментах и достигнутых результатах.

🕕 Ждем вас в @Sberloga в 18:00!
(ссылку пришлю перед докладом в канал, подписывайтесь, чтобы не пропустить)
🔥4
Media is too big
VIEW IN TELEGRAM
МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов.

Обсудим:

⭐️«Вызовы для DS 2025 в России».
Спикеры:
— Никита Зелинский, CDS & Head of ML Platforms МТС, автор канала Дата канальи – про „специалистов“ данных в ML/AI
— Евгений Смирнов, CDS & Head of ML Lab, Alfa-Bank, автор канала Нескучный Data Science
— Шамаев Юлий, начальник управления моделирования партнерств и ИТ-процессов, Банк ВТБ.
⭐️ «Наши RecSys-технологии: как мы завариваем вашу любимую музыку». — Дмитрий Берестнев, начальник управления машинного обучения, Hi-Fi стриминга Звук.
⭐️ «Трансформеры в кино. Как мы строим персональные рекомы в KION». — Даниил Пименов, Team Lead RecSys в KION, MWS Big Data.
⭐️ «Георекомендации: как мы подсказываем клиентам, где тратить деньги». — Алексей Пустынников, DS Team Lead команды GeoML Банка ВТБ.
⭐️«Serving по-взрослому: ускорение NLP inference в 50 раз в Антиспаме» — Илья Денисов, ML Team Lead команды Антифрод MWS Big Data.
⭐️«Практические кейсы внедрения Rag: помощник оператора и HelpDesk» — Александр Вавилкин, Middle Data Scientist, Альфа Банк.

Готовьте ваши вопросы спикерам, под попкорн будем выбирать лучшие!

🗓 29 июля
🕗 19:00–22:30
🔗
Офлайн. Количество мест ограничено. Регистрируйтесь по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41
можно подключаться
Sberloga
📣 Внимание! 17 июля (четверг) в 18:00 в Sberloga пройдет доклад на тему GNN в рекомендациях OKKO 🎙️ Спикер - Никифоров Роман, Senior Data Scientist в отделе рекомендаций онлайн-кинотеатра Окко. Роман поделится опытом использования графовой нейронной сети…
📖️ Видеопост прошедшей лекции, как обещал!

Отдельный респект Роману за его крутой доклад! Очень подробно раскрыл специфику построения моделей, тонкости и разные подходы. 👍️ Рекомендую к просмотру!

Кстати, для удобства выкладываю видео и в VK, и в YouTube, чтобы не мучиться с VPN из России:

🎬 VK: https://vkvideo.ru/video-231661716_456239017

🎬 YouTube: https://youtu.be/7vfsl9HV5_c

Смотрите и наслаждайтесь! 🎥
👍7🦄1
1
Сейчас на Summer Data Science Night на площадке киона. Доклады обещают быть интересными ❤️ Потом поделюсь впечатлениями
👍3
Первый доклад был от Димы Берестнева из "Звука". На мой взгляд, это был лучший доклад дня, посвященный внутреннему устройству рекомендательной платформы в "Звуке". 🎧️

Дима рассказал о том, какие модели используются и как происходит взаимодействие продуктов. 🛠️

Честно говоря, количество различных моделей и решений было впечатляющим. Осталось неясным, как ребята пришли к такой архитектуре - кажется, схема довольно сложная и росла она исторически. Не факт, что каждый элемент вносит значительный вклад. 🤔️

Интересным моментом было то, что отбором кандидатов занимается RL. 📊️
Второй доклад подготовил Даниил Пиманов из "Кион". Темой его выступления стали трансформеры. 📽️

Даниил подробно рассказал о проблемах, возникающих при рекомендациях фильмов. Он поделился, как выбирались метрики, как происходила работа с популярными фильмами и как происходило модифицирование loss функции под конкретные задачи. 🎯️

Доклад был интересным и содержательным, однако за отведенные 20 минут не удалось рассказать обо всем. Осталось ощущение, что хотелось бы уделить этой теме больше времени. ⏰️
Третий доклад был от Алексея Пустынникова из ВТБ. Темой его презентации стало использование геоэмбедингов для решения задачи оптимального расположения банкоматов. 🏧️

Вкратце, рассматривались геопатчи размером 500х500 метров, для которых строились геоэмбединги. Также строились эмбединги клиентов и модель, определяющая для каждого клиента оптимальные патчи для расположения банкоматов. 🌍️

Проект выглядит весьма интересным, но сложным. Остается неясным, дал ли он эффект выше, чем аналитический подход с анализом локаций, где клиенты снимают деньги, но нет собственных банкоматов. На этот вопрос, по всей видимости, был дан ответ о проведении А/В-теста... но, если честно, в это сложно поверить. 🙂️
💅1
2025/10/20 09:26:04
Back to Top
HTML Embed Code: