Evidently и кастомные метрики
Дописал пост про Evidently и кастомные метрики.
Эту работу мы еще начали в Билайне и вот теперь уже Pull request приняли. Теперь в Evidently есть lift метрика и её визуализация.
Пост: https://alimbekov.com/evidently-%d0%b8-%d0%ba%d0%b0%d1%81%d1%82%d0%be%d0%bc%d0%bd%d1%8b%d0%b5-%d0%bc%d0%b5%d1%82%d1%80%d0%b8%d0%ba%d0%b8/
Спасибо @EvidentlyAI за принятый и допиленный pull request
Дописал пост про Evidently и кастомные метрики.
Эту работу мы еще начали в Билайне и вот теперь уже Pull request приняли. Теперь в Evidently есть lift метрика и её визуализация.
Пост: https://alimbekov.com/evidently-%d0%b8-%d0%ba%d0%b0%d1%81%d1%82%d0%be%d0%bc%d0%bd%d1%8b%d0%b5-%d0%bc%d0%b5%d1%82%d1%80%d0%b8%d0%ba%d0%b8/
Спасибо @EvidentlyAI за принятый и допиленный pull request
Персональный блог Рената Алимбекова - Data Science, ML и Analytics Engineering
Evidently и кастомные метрики
Evidently и кастомные метрики Это библиотека, которая помогает анализировать модели машинного обучения во время проверки или мониторинга продакшена
Лайфхак от моего товарища
Как то раз сижу я читаю очередной пейпер и параллельно переключаюсь на vscode и контраст прям по глазам бьет.
Нашел способ все arxiv пейперы сделать черными, просто вместо .org ставите .black
Например: https://arxiv.black/pdf/1706.03762.pdf
Как то раз сижу я читаю очередной пейпер и параллельно переключаюсь на vscode и контраст прям по глазам бьет.
Нашел способ все arxiv пейперы сделать черными, просто вместо .org ставите .black
Например: https://arxiv.black/pdf/1706.03762.pdf
Сегодня «Черная пятница», то есть день лютых скидок. Скидка 50% на все книги и курсы.
Только до 5 декабря
- Data Science Interview Guide (на англ. языке) по промокоду BLACKFRIDAY скидка 50%, 2.5 $
- Medical Image Analysis In Python (на англ. языке) по промокоду BLACKFRIDAY скидка 50%, 1.5$
- Руководство по подготовке к Data Science интервью (на рус. языке) по промокоду BLACKFRIDAY скидка 50%, 2.5 $
Промокод необходимо вводить в момент оформления заказа.
Всем приятной учебы и выходных!
Только до 5 декабря
- Data Science Interview Guide (на англ. языке) по промокоду BLACKFRIDAY скидка 50%, 2.5 $
- Medical Image Analysis In Python (на англ. языке) по промокоду BLACKFRIDAY скидка 50%, 1.5$
- Руководство по подготовке к Data Science интервью (на рус. языке) по промокоду BLACKFRIDAY скидка 50%, 2.5 $
Промокод необходимо вводить в момент оформления заказа.
Всем приятной учебы и выходных!
Как нанимать сотрудников класса А? Выжимка из книги "Who: The A Method For Hiring"
Если вы сейчас ищете работу или сами нанимаете людей себе в команду, то рекомендую прочитать статью с кратким содержанием книги "Who: The A Method For Hiring"
Если вы сейчас ищете работу или сами нанимаете людей себе в команду, то рекомендую прочитать статью с кратким содержанием книги "Who: The A Method For Hiring"
Наткнулся на классный гайд по файнтюнингу LLM от Sebastian Raschka
Себастьян достаточно известный рисерчер и автор книг по Deep Learning
Так же у него есть крутой репозиторий по построению LLM моделей From Scratch
Себастьян достаточно известный рисерчер и автор книг по Deep Learning
Так же у него есть крутой репозиторий по построению LLM моделей From Scratch
YouTube
Insights from Finetuning LLMs with Low-Rank Adaptation
Links:
- LoRA: Low-Rank Adaptation of Large Language Models, https://arxiv.org/abs/2106.09685
- LitGPT: https://github.com/Lightning-AI/lit-gpt
- LitGPT LoRA Tutorial: https://github.com/Lightning-AI/lit-gpt/blob/main/tutorials/finetune_lora.md
Low-rank…
- LoRA: Low-Rank Adaptation of Large Language Models, https://arxiv.org/abs/2106.09685
- LitGPT: https://github.com/Lightning-AI/lit-gpt
- LitGPT LoRA Tutorial: https://github.com/Lightning-AI/lit-gpt/blob/main/tutorials/finetune_lora.md
Low-rank…
Курс по мониторингу моделей в продакшене
Курс от одной из фаундеров Evidently Эмели Драль про мониторинг моделей/ данных в продакшене.
Я уже довольно много писал про Evidently: в канале есть обзорный пост, а в блоге есть пост про кастомные метрики
Но в этом мини курсе дано гораздо больше полезного материала. Например:
- Различные методы оценки
- Качество данных
- Дрифт данных
- Мониторинг LLM
- Развертывание и интеграция
А еще это все приправлено упражнениями на кодинг
Ссылка на курс
Курс от одной из фаундеров Evidently Эмели Драль про мониторинг моделей/ данных в продакшене.
Я уже довольно много писал про Evidently: в канале есть обзорный пост, а в блоге есть пост про кастомные метрики
Но в этом мини курсе дано гораздо больше полезного материала. Например:
- Различные методы оценки
- Качество данных
- Дрифт данных
- Мониторинг LLM
- Развертывание и интеграция
А еще это все приправлено упражнениями на кодинг
Ссылка на курс
Forwarded from DataEng
Всем привет!
Я сделал курс по Luigi бесплатным для всех, велком изучать — Введение в Data Engineering: дата-пайплайны
Luigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт там, где Airflow кажется избыточным инструментом. В далёком 2017 году я писал небольшой обзорный пост на Luigi у себя в блоге: Строим Data Pipeline на Python и Luigi. С тех пор мало что изменилось в концепции инструмента, он по прежнему компактный и простой, именно в этом вся его прелесть.
Я сделал курс по Luigi бесплатным для всех, велком изучать — Введение в Data Engineering: дата-пайплайны
Luigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт там, где Airflow кажется избыточным инструментом. В далёком 2017 году я писал небольшой обзорный пост на Luigi у себя в блоге: Строим Data Pipeline на Python и Luigi. С тех пор мало что изменилось в концепции инструмента, он по прежнему компактный и простой, именно в этом вся его прелесть.
Startdatajourney
Введение в Data Engineering: дата-пайплайны
Построение масштабируемых дата-пайплайнов на Python и Luigi
Курс Анализ медицинских изображений в Python теперь бесплатный для всех.
На курсе вы изучите анализ медицинских изображений с помощью Python. Вы будете изучать КТ и рентген снимки, сегментировать области изображения и проводить анализ метаданных. Даже если вы никогда раньше не работали с медицинскими изображениями, то по завершению курса вы будете обладать всеми необходимы навыками.
Если хотите меня поддержать, то это можно сделать на Patreon и Boosty просто подпишитесь на месяц =)
На курсе вы изучите анализ медицинских изображений с помощью Python. Вы будете изучать КТ и рентген снимки, сегментировать области изображения и проводить анализ метаданных. Даже если вы никогда раньше не работали с медицинскими изображениями, то по завершению курса вы будете обладать всеми необходимы навыками.
Если хотите меня поддержать, то это можно сделать на Patreon и Boosty просто подпишитесь на месяц =)
Startdatajourney
Анализ медицинских изображений в Python
Практический курс по исследованию медицинских изображений в Python
Forwarded from DataEng
Курс про Apache Airflow бесплатно
Решил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.
В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе я подробно разбираю как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.
Велком!
Решил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.
В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе я подробно разбираю как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.
Велком!
Startdatajourney
Apache Airflow 2.2: практический курс
Практический курс по основам Apache Airflow версии 2.2 и выше
Forwarded from Артета позвонит
Если вы любите футбол и аналитику так же как я, то можно поучаствовать в Хакатоне по анализу футбольных данных
Даты хакатона: 11.03.2024 - 23.04.2024
Задача весьма интересная:
Нужно выбрать команду Английской Премьер Лиги для анализа.
Вам нужно проанализировать последние выступления выбранной команды, тактику и статистику игроков, чтобы выявить значительные слабые места в команде.
Выберите 2 позиции в соответствии с вашим анализом. Ваша задача создать два списки игроков (максимум 5 игроков, включая ГЛАВНУЮ трансферную цель) для выбранных позиций и обосновать принятые решения по набору игроков, данными.
Все участники Хакатона должны учитывать планируемый бюджет, который можно найти на странице Transfermarkt для каждого игрока. Бюджетный план: максимальная сумма 60 млн евро для общей оценки игрока на Transfermarkt на две ГЛАВНЫE цели.
Описание задачи
Мне кажется очень крутая скаутская задача и возможность поработать с реальными футбольными данными. Ограничения в 60 миллионов я думаю не позволят вам выбрать топ клубы АПЛ.
Думаю попробовать поучаствовать
Даты хакатона: 11.03.2024 - 23.04.2024
Задача весьма интересная:
Нужно выбрать команду Английской Премьер Лиги для анализа.
Вам нужно проанализировать последние выступления выбранной команды, тактику и статистику игроков, чтобы выявить значительные слабые места в команде.
Выберите 2 позиции в соответствии с вашим анализом. Ваша задача создать два списки игроков (максимум 5 игроков, включая ГЛАВНУЮ трансферную цель) для выбранных позиций и обосновать принятые решения по набору игроков, данными.
Все участники Хакатона должны учитывать планируемый бюджет, который можно найти на странице Transfermarkt для каждого игрока. Бюджетный план: максимальная сумма 60 млн евро для общей оценки игрока на Transfermarkt на две ГЛАВНЫE цели.
Описание задачи
Мне кажется очень крутая скаутская задача и возможность поработать с реальными футбольными данными. Ограничения в 60 миллионов я думаю не позволят вам выбрать топ клубы АПЛ.
Думаю попробовать поучаствовать
Football Analytics Hackathon 2024
Football Analytics Hackathon is a competition where participants use data analysis to solve challenges related to football.
250 бесплатных курсов по ИИ
Наткнулся на интересный пост со списком 250 бесплатных курсов по ИИ
До 5 апреля они будут открыты и доступны на семи языках.
Ссылка
Наткнулся на интересный пост со списком 250 бесплатных курсов по ИИ
До 5 апреля они будут открыты и доступны на семи языках.
Ссылка
Linkedin
Build Critical AI Skills with These 250 AI Courses | LinkedIn
LinkedIn has 250 courses focused on AI that can help address the needs of everyone from AI newbies to power users.
Погружение в LLM часть первая
Я тут начал погружаться в LLM чуть глубже и лично для меня гораздо проще начинать погружение через практику.
Таким образом можно понять все ключевые концепции и наметить себе список пейперов для дальнейшего ознакомления.
Начал я с заметки StackLLaMA: A hands-on guide to train LLaMA with RLHF
Тут вы сразу сможете ознакомиться с концепциями Reinforcement Learning from Human Feedback, эффективной тренировкой с помощью LoRA, PPO.
Так же вы познакомитесь с зоопарком библиотек huggingface: accelerate, bitsandbytes, peft и trl.
В заметке используется StackExchange датасет, но для разнообразия могу посоветовать вам использовать датасет Anthropic/hh-rlhf
Во второй части пройдемся по ключевым пейперам
Я тут начал погружаться в LLM чуть глубже и лично для меня гораздо проще начинать погружение через практику.
Таким образом можно понять все ключевые концепции и наметить себе список пейперов для дальнейшего ознакомления.
Начал я с заметки StackLLaMA: A hands-on guide to train LLaMA with RLHF
Тут вы сразу сможете ознакомиться с концепциями Reinforcement Learning from Human Feedback, эффективной тренировкой с помощью LoRA, PPO.
Так же вы познакомитесь с зоопарком библиотек huggingface: accelerate, bitsandbytes, peft и trl.
В заметке используется StackExchange датасет, но для разнообразия могу посоветовать вам использовать датасет Anthropic/hh-rlhf
Во второй части пройдемся по ключевым пейперам
GitHub
blog/stackllama.md at main · huggingface/blog
Public repo for HF blog posts. Contribute to huggingface/blog development by creating an account on GitHub.
Погружение в LLM часть вторая
В первой части мы разобрали практическую часть погружения в LLM.
В этой части мы поговорим про ключевые пейперы, которые помогут в понимании LLM и прохождение собеседований =) Но об этом позже.
Все начинается с первой гпт
Затем рекомендую прочитать работу про InstructGPT. Там раскрыта тема обучения с фидбеком от человека.
Дальше есть пара интересных пейперов:
- SELF-INSTRUCT
- Information Retrieval with Contrastive Learning
Затем рекомендую ознакомиться с двумя воистину знаковых пейпера: LORA и QLORA, которые решают следующие проблемы:
- скорость обучения
- вычислительные ресурсы
- эффективность памяти
Еще два не менее важных пейпера PPO и DPO. Понимание этих работ поможет в ревард моделинге.
Ну и на последок:
- Switch Transformers - как база Mixtures of experts
- Mixtral of Experts - как Open Source SOTA
- Llama 2
Всем приятного чтения
В первой части мы разобрали практическую часть погружения в LLM.
В этой части мы поговорим про ключевые пейперы, которые помогут в понимании LLM и прохождение собеседований =) Но об этом позже.
Все начинается с первой гпт
Затем рекомендую прочитать работу про InstructGPT. Там раскрыта тема обучения с фидбеком от человека.
Дальше есть пара интересных пейперов:
- SELF-INSTRUCT
- Information Retrieval with Contrastive Learning
Затем рекомендую ознакомиться с двумя воистину знаковых пейпера: LORA и QLORA, которые решают следующие проблемы:
- скорость обучения
- вычислительные ресурсы
- эффективность памяти
Еще два не менее важных пейпера PPO и DPO. Понимание этих работ поможет в ревард моделинге.
Ну и на последок:
- Switch Transformers - как база Mixtures of experts
- Mixtral of Experts - как Open Source SOTA
- Llama 2
Всем приятного чтения
MOST BI летит в США!
Присоединяйтесь к нам⤵️
Примите участие в SelectUSA Investment Summit в Мэриленде, чтобы расширить свой бизнес за пределами Казахстана🚀
Вас ждут:
• встречи с ключевыми игроками из государственного и частного секторов, а также компаниями из 80+ рынков;
• более чем 50 тематических сессий;
• выставка и питч стартапов;
• возможность назначить встречи и заключить выгодные инвестиционные сделки.
Поездка состоится с 21 по 28 июня.
Откройте новые бизнес-возможности в США вместе с нами!
Оставляйте заявку на тур по ссылке: https://forms.gle/r5KR54Fnzp9sB5LE9
Присоединяйтесь к нам⤵️
Примите участие в SelectUSA Investment Summit в Мэриленде, чтобы расширить свой бизнес за пределами Казахстана🚀
Вас ждут:
• встречи с ключевыми игроками из государственного и частного секторов, а также компаниями из 80+ рынков;
• более чем 50 тематических сессий;
• выставка и питч стартапов;
• возможность назначить встречи и заключить выгодные инвестиционные сделки.
Поездка состоится с 21 по 28 июня.
Откройте новые бизнес-возможности в США вместе с нами!
Оставляйте заявку на тур по ссылке: https://forms.gle/r5KR54Fnzp9sB5LE9
Большая папка с крутыми каналами про IT ⚡️
Каналов про IT много, хороших каналов про IT — мало. Собрали такие в одном месте! Тут про новости, ивенты, вакансии, работу, учебу и многое другое. Полезно как для начинающих специалистов, так и опытных айтишников из Центральной Азии 🔥
Переходите по ссылке, добавляйте папку себе и оставайтесь в тренде всего самого интересного из IT-мира:
https://www.tg-me.com/addlist/4zT-2KYP1JYzNGRi
Каналов про IT много, хороших каналов про IT — мало. Собрали такие в одном месте! Тут про новости, ивенты, вакансии, работу, учебу и многое другое. Полезно как для начинающих специалистов, так и опытных айтишников из Центральной Азии 🔥
Переходите по ссылке, добавляйте папку себе и оставайтесь в тренде всего самого интересного из IT-мира:
https://www.tg-me.com/addlist/4zT-2KYP1JYzNGRi
Всем привет 🚀! За несколько последних дней на канале добавилось много новых подписчиков. Рад вас приветствовать на канале.
Немного расскажу о себе. Меня зовут Ренат Алимбеков, я живу и работаю в городе Алматы. С недавних пор работаю в американском стартапе Conformal Group в качестве Research Engineer, но об этом чуть позже будет пост. С остальным моим профессиональным опытом можно ознакомиться в LI (добавляйтесь)
Для всех подписчиков и особенно для тех кто к нам присоединился недавно публикую подборку старых постов. Надеюсь это поможет с навигацией и удобным поиском информации на канале.
Пишете в комментариях о чём было бы интересно почитать.🗣
👨🏻💻 Про курсы и обучение хэштег #course
Как освоить Data Science — личный опыт
Прокачиваемся до computer vision researcher
Как стать Machine Learning Engineer
🚊 Production хэштег #production
Machine learning в продакшн — Flask REST API
BentoML
👍 Полезное хэштег #полезно
Visual Studio Code для Data Science
Тестовые задания от разных компаний, на позицию, связанную с Data Scientist
Пост в блоге про выбор логирования в Python
📝 Подборки
Основы Python
Статистический анализ данных
Pandas и А/Б тесты
Сбор и хранение данных
А еще я написал буклеты по подготовке к Data Science интервью:
- Data Science Interview Guide (на англ. языке) по промокоду BLOG скидка 2 $
- Руководство по подготовке к Data Science интервью (на рус. языке) о промокоду BLOG скидка 2 $
Немного расскажу о себе. Меня зовут Ренат Алимбеков, я живу и работаю в городе Алматы. С недавних пор работаю в американском стартапе Conformal Group в качестве Research Engineer, но об этом чуть позже будет пост. С остальным моим профессиональным опытом можно ознакомиться в LI (добавляйтесь)
Для всех подписчиков и особенно для тех кто к нам присоединился недавно публикую подборку старых постов. Надеюсь это поможет с навигацией и удобным поиском информации на канале.
Пишете в комментариях о чём было бы интересно почитать.🗣
👨🏻💻 Про курсы и обучение хэштег #course
Как освоить Data Science — личный опыт
Прокачиваемся до computer vision researcher
Как стать Machine Learning Engineer
🚊 Production хэштег #production
Machine learning в продакшн — Flask REST API
BentoML
👍 Полезное хэштег #полезно
Visual Studio Code для Data Science
Тестовые задания от разных компаний, на позицию, связанную с Data Scientist
Пост в блоге про выбор логирования в Python
📝 Подборки
Основы Python
Статистический анализ данных
Pandas и А/Б тесты
Сбор и хранение данных
А еще я написал буклеты по подготовке к Data Science интервью:
- Data Science Interview Guide (на англ. языке) по промокоду BLOG скидка 2 $
- Руководство по подготовке к Data Science интервью (на рус. языке) о промокоду BLOG скидка 2 $
Пристанище Дата Сайентиста pinned «Всем привет 🚀! За несколько последних дней на канале добавилось много новых подписчиков. Рад вас приветствовать на канале. Немного расскажу о себе. Меня зовут Ренат Алимбеков, я живу и работаю в городе Алматы. С недавних пор работаю в американском стартапе…»
✅ Друзья, этой осенью в Москве состоится интересное событие:
Ai Conf 2024 – первая прикладная тематическая конференция по Data Science.
Программа конференции будет строиться вокруг областей применения машинного обучения, а к выступлению приглашены не только спикеры из отраслей отраслей IT, Интернет и ECommerce, но и из отраслей реального сектора.
В программе конференции:
- работа со звуком
- компьютерное зрение и генерация изображений
- обработка естественного языка
- рекомендательные системы и поиск
- умные механизмы
- разработка агентов
- академические исследования
- оптимизация использования железа и др.
До 15 июня принимаются заявки на доклады. Есть чем поделиться - подавайте заявку на сайте https://cfp.aiconf.ru
А 23 мая в 18:00 мск приглашаем на встречу докладчиков с программным комитетом, где обсудим какие темы будут актуальны на AI Conf. Встреча пройдет в онлайн формате, необходима регистрация (https://cfp.aiconf.ru)
Подробности о конфeренции AiConf 👉 https://aiconf.ru/2024
Ai Conf 2024 – первая прикладная тематическая конференция по Data Science.
Программа конференции будет строиться вокруг областей применения машинного обучения, а к выступлению приглашены не только спикеры из отраслей отраслей IT, Интернет и ECommerce, но и из отраслей реального сектора.
В программе конференции:
- работа со звуком
- компьютерное зрение и генерация изображений
- обработка естественного языка
- рекомендательные системы и поиск
- умные механизмы
- разработка агентов
- академические исследования
- оптимизация использования железа и др.
До 15 июня принимаются заявки на доклады. Есть чем поделиться - подавайте заявку на сайте https://cfp.aiconf.ru
А 23 мая в 18:00 мск приглашаем на встречу докладчиков с программным комитетом, где обсудим какие темы будут актуальны на AI Conf. Встреча пройдет в онлайн формате, необходима регистрация (https://cfp.aiconf.ru)
Подробности о конфeренции AiConf 👉 https://aiconf.ru/2024
Роботы, горы, нейросети и музыка
27 июня в Алматы на стадионе «Медеу» пройдет фестиваль Yandex Qazaqstan Day. Он объединит всех любителей и создателей технологий, пользователей сервисов Яндекс Казахстан, а также представителей креативной и бизнес индустрий.
Гости фестиваля первыми узнают о новых запусках и обновлениях сервисов компании. Участники смогут поговорить с их создателями, обсудить партнерство и задать любые вопросы.
В интерактивных зонах гости фестиваля смогут заглянуть в умную юрту и управлять ею голосом, сделать уникальное селфи на лидар беспилотного робота-доставщика, нарисовать картину с помощью нейросети, пройти школу безопасного вождения на самокатах и поучаствовать в других развлечениях. Завершит фестиваль музыкальная программа.
Для всех участников будут организованы трансфер и обед.
Участие в фестивале бесплатное. Количество мест ограничено.
Нужно оставить заявку на сайте и дождаться письма с приглашением.
PS
Увидимся на Yandex Qazaqstan Day 😉
27 июня в Алматы на стадионе «Медеу» пройдет фестиваль Yandex Qazaqstan Day. Он объединит всех любителей и создателей технологий, пользователей сервисов Яндекс Казахстан, а также представителей креативной и бизнес индустрий.
Гости фестиваля первыми узнают о новых запусках и обновлениях сервисов компании. Участники смогут поговорить с их создателями, обсудить партнерство и задать любые вопросы.
В интерактивных зонах гости фестиваля смогут заглянуть в умную юрту и управлять ею голосом, сделать уникальное селфи на лидар беспилотного робота-доставщика, нарисовать картину с помощью нейросети, пройти школу безопасного вождения на самокатах и поучаствовать в других развлечениях. Завершит фестиваль музыкальная программа.
Для всех участников будут организованы трансфер и обед.
Участие в фестивале бесплатное. Количество мест ограничено.
Нужно оставить заявку на сайте и дождаться письма с приглашением.
PS
Увидимся на Yandex Qazaqstan Day 😉
Yandex Qazaqstan Day
Первый фестиваль технологий Yandex Qazaqstan Day