Telegram Web Link
Evidently и кастомные метрики

Дописал пост про Evidently и кастомные метрики.
Эту работу мы еще начали в Билайне и вот теперь уже Pull request приняли. Теперь в Evidently есть lift метрика и её визуализация.

Пост: https://alimbekov.com/evidently-%d0%b8-%d0%ba%d0%b0%d1%81%d1%82%d0%be%d0%bc%d0%bd%d1%8b%d0%b5-%d0%bc%d0%b5%d1%82%d1%80%d0%b8%d0%ba%d0%b8/


Спасибо @EvidentlyAI за принятый и допиленный pull request
​​Лайфхак от моего товарища

Как то раз сижу я читаю очередной пейпер и параллельно переключаюсь на vscode и контраст прям по глазам бьет.

Нашел способ все arxiv пейперы сделать черными, просто вместо .org ставите .black

Например: https://arxiv.black/pdf/1706.03762.pdf
Сегодня «Черная пятница», то есть день лютых скидок. Скидка 50% на все книги и курсы.

Только до 5 декабря

- Data Science Interview Guide (на англ. языке) по промокоду BLACKFRIDAY скидка 50%, 2.5 $
- Medical Image Analysis In Python (на англ. языке) по промокоду BLACKFRIDAY скидка 50%, 1.5$
- Руководство по подготовке к Data Science интервью (на рус. языке) по промокоду BLACKFRIDAY скидка 50%, 2.5 $

Промокод необходимо вводить в момент оформления заказа.
Всем приятной учебы и выходных!
​​Как нанимать сотрудников класса А? Выжимка из книги "Who: The A Method For Hiring"

Если вы сейчас ищете работу или сами нанимаете людей себе в команду, то рекомендую прочитать статью с кратким содержанием книги "Who: The A Method For Hiring"
Наткнулся на классный гайд по файнтюнингу LLM от Sebastian Raschka

Себастьян достаточно известный рисерчер и автор книг по Deep Learning

Так же у него есть крутой репозиторий по построению LLM моделей From Scratch
Курс по мониторингу моделей в продакшене

Курс от одной из фаундеров Evidently Эмели Драль про мониторинг моделей/ данных в продакшене.

Я уже довольно много писал про Evidently: в канале есть обзорный пост, а в блоге есть пост про кастомные метрики

Но в этом мини курсе дано гораздо больше полезного материала. Например:

- Различные методы оценки
- Качество данных
- Дрифт данных
- Мониторинг LLM
- Развертывание и интеграция

А еще это все приправлено упражнениями на кодинг

Ссылка на курс
Forwarded from DataEng
Всем привет!

Я сделал курс по Luigi бесплатным для всех, велком изучать — Введение в Data Engineering: дата-пайплайны

Luigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт там, где Airflow кажется избыточным инструментом. В далёком 2017 году я писал небольшой обзорный пост на Luigi у себя в блоге: Строим Data Pipeline на Python и Luigi. С тех пор мало что изменилось в концепции инструмента, он по прежнему компактный и простой, именно в этом вся его прелесть.
Курс Анализ медицинских изображений в Python теперь бесплатный для всех.

На курсе вы изучите анализ медицинских изображений с помощью Python. Вы будете изучать КТ и рентген снимки, сегментировать области изображения и проводить анализ метаданных. Даже если вы никогда раньше не работали с медицинскими изображениями, то по завершению курса вы будете обладать всеми необходимы навыками.

Если хотите меня поддержать, то это можно сделать на Patreon и Boosty просто подпишитесь на месяц =)
Forwarded from DataEng
Курс про Apache Airflow бесплатно

Решил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.

В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе я подробно разбираю как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.

Велком!
Если вы любите футбол и аналитику так же как я, то можно поучаствовать в Хакатоне по анализу футбольных данных

Даты хакатона: 11.03.2024 - 23.04.2024

Задача весьма интересная:

Нужно выбрать команду Английской Премьер Лиги для анализа.

Вам нужно проанализировать последние выступления выбранной команды, тактику и статистику игроков, чтобы выявить значительные слабые места в команде.

Выберите 2 позиции в соответствии с вашим анализом. Ваша задача создать два списки игроков (максимум 5 игроков, включая ГЛАВНУЮ трансферную цель) для выбранных позиций и обосновать принятые решения по набору игроков, данными.

Все участники Хакатона должны учитывать планируемый бюджет, который можно найти на странице Transfermarkt для каждого игрока. Бюджетный план: максимальная сумма 60 млн евро для общей оценки игрока на Transfermarkt на две ГЛАВНЫE цели.

Описание задачи

Мне кажется очень крутая скаутская задача и возможность поработать с реальными футбольными данными. Ограничения в 60 миллионов я думаю не позволят вам выбрать топ клубы АПЛ.

Думаю попробовать поучаствовать
250 бесплатных курсов по ИИ

Наткнулся на интересный пост со списком 250 бесплатных курсов по ИИ

До 5 апреля они будут открыты и доступны на семи языках.

Ссылка
Погружение в LLM часть первая

Я тут начал погружаться в LLM чуть глубже и лично для меня гораздо проще начинать погружение через практику.

Таким образом можно понять все ключевые концепции и наметить себе список пейперов для дальнейшего ознакомления.

Начал я с заметки StackLLaMA: A hands-on guide to train LLaMA with RLHF

Тут вы сразу сможете ознакомиться с концепциями Reinforcement Learning from Human Feedback, эффективной тренировкой с помощью LoRA, PPO.

Так же вы познакомитесь с зоопарком библиотек huggingface: accelerate, bitsandbytes, peft и trl.

В заметке используется StackExchange датасет, но для разнообразия могу посоветовать вам использовать датасет Anthropic/hh-rlhf

Во второй части пройдемся по ключевым пейперам
Погружение в LLM часть вторая

В первой части мы разобрали практическую часть погружения в LLM.

В этой части мы поговорим про ключевые пейперы, которые помогут в понимании LLM и прохождение собеседований =) Но об этом позже.

Все начинается с первой гпт

Затем рекомендую прочитать работу про InstructGPT. Там раскрыта тема обучения с фидбеком от человека.

Дальше есть пара интересных пейперов:
- SELF-INSTRUCT
- Information Retrieval with Contrastive Learning

Затем рекомендую ознакомиться с двумя воистину знаковых пейпера: LORA и QLORA, которые решают следующие проблемы:
- скорость обучения
- вычислительные ресурсы
- эффективность памяти

Еще два не менее важных пейпера PPO и DPO. Понимание этих работ поможет в ревард моделинге.

Ну и на последок:
- Switch Transformers - как база Mixtures of experts
- Mixtral of Experts - как Open Source SOTA
- Llama 2

Всем приятного чтения
​​Стартап в который я недавно устроился попал в мартовский топ по привлечённым ангельским инвестициям.

Вообще работа в такого рода стартапах для меня новый опыт и вызов.

В следующих постах расскажу как я туда устроился и про другие кейсы собеседования и поиска работы в LLM.

Источник
​​MOST BI летит в США!
Присоединяйтесь к нам⤵️

Примите участие в SelectUSA Investment Summit в Мэриленде, чтобы расширить свой бизнес за пределами Казахстана🚀

Вас ждут:
• встречи с ключевыми игроками из государственного и частного секторов, а также компаниями из 80+ рынков;
• более чем 50 тематических сессий;
• выставка и питч стартапов;
• возможность назначить встречи и заключить выгодные инвестиционные сделки. 

Поездка состоится с 21 по 28 июня.

Откройте новые бизнес-возможности в США вместе с нами! 

Оставляйте заявку на тур по ссылке: https://forms.gle/r5KR54Fnzp9sB5LE9
​​Большая папка с крутыми каналами про IT ⚡️ 

Каналов про IT много, хороших каналов про IT — мало. Собрали такие в одном месте! Тут про новости, ивенты, вакансии, работу, учебу и многое другое. Полезно как для начинающих специалистов, так и опытных айтишников из Центральной Азии 🔥

Переходите по ссылке, добавляйте папку себе и оставайтесь в тренде всего самого интересного из IT-мира:

https://www.tg-me.com/addlist/4zT-2KYP1JYzNGRi
Всем привет 🚀! За несколько последних дней на канале добавилось много новых подписчиков. Рад вас приветствовать на канале.

Немного расскажу о себе. Меня зовут Ренат Алимбеков, я живу и работаю в городе Алматы. С недавних пор работаю в американском стартапе Conformal Group в качестве Research Engineer, но об этом чуть позже будет пост. С остальным моим профессиональным опытом можно ознакомиться в LI (добавляйтесь)

Для всех подписчиков и особенно для тех кто к нам присоединился недавно публикую подборку старых постов. Надеюсь это поможет с навигацией и удобным поиском информации на канале.

Пишете в комментариях о чём было бы интересно почитать.🗣


👨🏻‍💻 Про курсы и обучение хэштег #course

Как освоить Data Science — личный опыт
Прокачиваемся до computer vision researcher
Как стать Machine Learning Engineer

🚊 Production хэштег #production

Machine learning в продакшн — Flask REST API
BentoML

👍 Полезное хэштег #полезно

Visual Studio Code для Data Science
Тестовые задания от разных компаний, на позицию, связанную с Data Scientist
Пост в блоге про выбор логирования в Python

📝 Подборки

Основы Python
Статистический анализ данных
Pandas и А/Б тесты
Сбор и хранение данных

А еще я написал буклеты по подготовке к Data Science интервью:

- Data Science Interview Guide (на англ. языке) по промокоду BLOG скидка 2 $
- Руководство по подготовке к Data Science интервью (на рус. языке) о промокоду BLOG скидка 2 $
Пристанище Дата Сайентиста pinned «Всем привет 🚀! За несколько последних дней на канале добавилось много новых подписчиков. Рад вас приветствовать на канале. Немного расскажу о себе. Меня зовут Ренат Алимбеков, я живу и работаю в городе Алматы. С недавних пор работаю в американском стартапе…»
​​ Друзья, этой осенью в Москве состоится интересное событие:

Ai Conf 2024 – первая прикладная тематическая конференция по Data Science. 

Программа конференции будет строиться вокруг областей применения машинного обучения, а к выступлению приглашены не только спикеры из отраслей отраслей IT, Интернет и ECommerce, но и из отраслей реального сектора.

В программе конференции:

- работа со звуком
- компьютерное зрение и генерация изображений
- обработка естественного языка
- рекомендательные системы и поиск
- умные механизмы
- разработка агентов
- академические исследования
- оптимизация использования железа и др.

До 15 июня принимаются заявки на доклады. Есть чем поделиться - подавайте заявку на сайте https://cfp.aiconf.ru

А 23 мая в 18:00 мск приглашаем на встречу докладчиков с программным комитетом, где обсудим какие темы будут актуальны на AI Conf. Встреча пройдет в онлайн формате, необходима регистрация (https://cfp.aiconf.ru)

Подробности о конфeренции AiConf 👉 https://aiconf.ru/2024
Роботы, горы, нейросети и музыка

27 июня в Алматы на стадионе «Медеу» пройдет фестиваль Yandex Qazaqstan Day. Он объединит всех любителей и создателей технологий, пользователей сервисов Яндекс Казахстан, а также представителей креативной и бизнес индустрий.

Гости фестиваля первыми узнают о новых запусках и обновлениях сервисов компании. Участники смогут поговорить с их создателями, обсудить партнерство и задать любые вопросы. 

В интерактивных зонах гости фестиваля смогут заглянуть в умную юрту и управлять ею голосом, сделать уникальное селфи на лидар беспилотного робота-доставщика, нарисовать картину с помощью нейросети, пройти школу безопасного вождения на самокатах и поучаствовать в других развлечениях. Завершит фестиваль музыкальная программа.

Для всех участников будут организованы трансфер и обед.

Участие в фестивале бесплатное. Количество мест ограничено.

Нужно оставить заявку на сайте и дождаться письма с приглашением.

PS
Увидимся на Yandex Qazaqstan Day 😉
2024/05/28 19:47:35
Back to Top
HTML Embed Code: