Telegram Web Link
Переворачиваем календарь — а там скидки, которые уже закончились.

Но мы их вернули на последний день 🤔

До 00:00 третьего сентября (цены как до 1 сентября):

▪️ Математика для Data Science — 35.199 ₽ вместо 44.900 ₽
▪️ Алгоритмы и структуры данных — 31.669 ₽ вместо 39.900 ₽
▪️ Основы IT — 14.994 ₽ вместо 19.900 ₽
▪️ Архитектуры и шаблоны — 24.890 ₽ вместо 32.900 ₽
▪️ Python — 24.990 ₽ вместо 32.900 ₽
▪️ ML для Data Science — 34.000 ₽ вместо 44. 000 ₽
▪️ AI-агенты — 49.000 ₽ вместо 59.000 ₽

👉 Хватаем скидки из прошлого

P.S. Машину времени одолжили у дяди Миши
😎 Сколько баллов набрали вы?

Голосуйте, какой у вас уровень разработчика:

😁 — 5-12 баллов (стажер)
👍 — 13-25 баллов (джуниор)
⚡️ — 26-40 баллов (джуниор+)
👏 — 41-60 баллов (миддл)
🔥 — 61-80 баллов (миддл+)
🎉 — 81-100 баллов (сеньор)
🤩 — 100+ баллов (тимлид)

Но вот в чем прикол — опытный разработчик набирает баллы не случайными косяками, а осознанными решениями.

👉 Научим, как быстро прокачаться от стажера до сеньора
🚩 Почему для задач классификации часто используют стратифицированную кросс-валидацию

Стратификация гарантирует, что в каждом фолде сохраняются пропорции классов, близкие к исходному датасету. Это особенно важно при дисбалансе классов.

👉 Пример: если в выборке 90% отрицательного класса и 10% положительного, обычная (нестратифицированная) разбивка может создать фолд почти без положительных примеров.

В итоге:
модель получает искажённый сигнал,
метрики становятся нестабильными,
иногда обучение даже невозможно (например, при отсутствии класса в фолде).

Стратификация снижает эти риски и делает оценки качества более надёжными и воспроизводимыми.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
6
✳️ В чём разница между статическими эмбеддингами (Word2Vec, GloVe) и контекстными (BERT, GPT)

Статические эмбеддинги (Word2Vec, GloVe, FastText):
➡️ Каждое слово в словаре имеет один фиксированный вектор.
➡️ Например, слово bank будет иметь одно представление вне зависимости от того, идёт речь о «банке» как учреждении или «берегe реки».
➡️ Просты и быстры, но не учитывают многозначность.

Контекстные эмбеддинги (BERT, GPT):
➡️ Вектор для слова зависит от его окружения.
➡️ Одно и то же bank в разных предложениях получит разные представления.
➡️ Лучше справляются с полисемией и передают более тонкий смысл.
➡️ Часто значительно повышают качество в downstream-задачах (классификация, QA, NER и др.).

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1
🎮 КВЕСТОВАЯ ЛИНИЯ: «Путь Data Scientist'а»

⮕ Твой стартовый набор искателя данных:
Python — твое легендарное оружие (урон по багам +∞)
Математика — твой базовый интеллект (влияет на понимание алгоритмов)
Машинное обучение — твое дерево навыков (открывает новые способности)


⚡️ АКТИВЕН ВРЕМЕННЫЙ БАФФ: «Щедрость наставника»

Эффект: –30% к цене полного набора ДСника
Было: 121.800 ₽ → Стало: 84.900 ₽

☞ Что ждет тебя в этом квесте

— Получение артефактов: портфолио проектов и сертификаты— Прокачка от новичка до Senior Data Scientist— Босс-файты с реальными задачами из индустрии— Доступ к гильдии единомышленников


📎 Забрать бафф
Рассрочки: 3 мес | 6 мес | 12 мес
⚙️ Почему не стоит использовать Mean Squared Error (MSE) для многоклассовой классификации

Формально MSE можно применять, сравнивая логиты или вероятности с one-hot разметкой. Но на практике есть серьёзные минусы:
🚩 Слабый градиент: MSE даёт менее прямой сигнал для увеличения вероятности правильного класса и подавления остальных.
🚩 Медленная сходимость: обучение идёт дольше, так как градиенты «размазаны».
🚩 Нет явной вероятностной интерпретации: MSE не напрямую связано с максимизацией правдоподобия.

Кросс-энтропия (Cross-Entropy), напротив:
🚩 Напрямую соответствует задаче максимизации лог-правдоподобия.
🚩 Даёт более информативные градиенты.
🚩 На практике почти всегда сходится быстрее и стабильнее.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
⚡️ Будь как этот гений с картинки — предлагай свои условия работодателю, а не наоборот!

Кто нужен?

Senior ML-Engineer с опытом работы более 6 месяцев в FAANG компаниях. Требование: разработать кросс-платформенное приложение-трекер зарплат с AI-распознаванием вакансий по резюме.


Но если вы пока джун — я бы предложил:

- Full-time контракт: 180к/мес после курса + опцион на карьеру в топ-компаниях

- Либо фикс за проект: стань ML-инженером за 39к вместо 44к с промокодом LASTCALL

🔗 Старт 9 сентября
💬 Гарантирует ли одна только контейнеризация воспроизводимость результатов

Контейнеризация (Docker, Singularity и т.п.) отлично фиксирует окружение: версии библиотек, драйверы CUDA, системные зависимости.

Но этого недостаточно, если другие факторы не контролируются:
➡️ Данные: если модель тянет «живые» данные без сохранённого среза, результат будет меняться.
➡️ Случайность: без фиксации random seeds итог обучения может отличаться.
➡️ Гиперпараметры и конфигурации: их нужно явно сохранять и версионировать.
➡️ Аппаратное различие: разные GPU/CPU могут давать небольшие численные расхождения из-за особенностей вычислений с плавающей точкой.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52
Иногда реально ощущение, что нас держат в Матрице.

Большинство сидит, читает статьи про ML, смотрит ролики «как это работает» — и всё.

Сегодня последний день промокода Lastcall (−5000 ₽).
Уже завтра стартует первый вебинар по Машинному обучению — полный набор для выхода из Матрицы.

Кто готов вырваться из симуляции и ворваться в сезон найма?

👾 — я уже в команде Нео
👍 — хочу красную таблетку
🤔 — пока думаю, но интересно

👉 Забронируй место сейчас
⚡️ Какие ограничения у логистической регрессии по сравнению с более гибкими моделями

➡️ Линейность: Logistic regression строит линейное разделение в пространстве признаков. Если границы классов нелинейные, она не справится без ручной трансформации признаков или использования полиномиальных расширений.

➡️ Аддитивность признаков: модель предполагает, что признаки складываются на шкале логарифма шансов (log-odds), что не всегда верно в реальных данных.

➡️ Ограниченная выразительная сила: при неразделимых линейно классах нужна сложная инженерия признаков.

Более гибкие модели (Random Forest, Gradient Boosting, нейросети) умеют:
➡️ захватывать сложные нелинейные зависимости,
➡️ строить более сложные поверхности решений,
➡️ но требуют больше данных и тщательной настройки гиперпараметров.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
🔥 Почему для сложных временных рядов иногда предпочтительнее непараметрические модели

🚩 Временные ряды часто содержат нелинейную динамику, сезонность и локальные зависимости, которые сложно описать простой параметрической моделью.

🚩 Непараметрические подходы (например, kernel-based или kNN для временных рядов) адаптируются к локальным структурам без жестких предположений о функциональной форме.

🚩 Они могут точнее уловить локальные паттерны, чем линейные модели или модели с фиксированным законом затухания.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁1
➡️ Нужны ли нам линейные SVM, если kernel SVM более гибкие

Да, нужны.

Линейные SVM активно применяются на практике:
🟠 Скорость и масштабируемость – в задачах с миллионами признаков (например, текстовая классификация) ядровые методы становятся вычислительно слишком тяжёлыми, а линейные SVM обучаются очень быстро.
🟠 Простота – если данные примерно линейно разделимы, то усложнять модель ядром нет смысла.
🟠 Реализация – линейные SVM (coordinate descent, dual coordinate descent) хорошо оптимизированы для работы с огромными датасетами.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1
☹️ Какие подводные камни и edge-cases встречаются при применении PCA

➡️ Масштабирование признаков — если признаки измеряются в разных единицах и имеют сильно разные масштабы, то компоненты будут доминироваться признаками с высокой дисперсией. Обычно перед PCA данные стандартизируют (mean=0, std=1).

➡️ Линейность метода — PCA работает только с линейными зависимостями. Если данные имеют нелинейную структуру (например, лежат на многообразии), то PCA не уловит её. В таких случаях применяют kernel PCA или manifold learning.

➡️ Интерпретация компонент — хотя PCA и несупервизированный метод, часто возникает соблазн приписывать главным компонентам слишком явный смысл. На деле они могут быть трудны для интерпретации.

➡️ Мало наблюдений — если выборка меньше размерности (N < D), матрица ковариации может оказаться вырожденной. Лучше использовать SVD-реализацию PCA, которая стабильнее.

➡️ Выбор числа компонент — нет универсального правила. Иногда используют порог по объяснённой дисперсии (например, 95%), иногда руководствуются доменной экспертизой или CV на супервизированной задаче.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2
🔥 Последняя неделя перед стартом курса по AI-агентам

Старт курса уже 15го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место

На курсе:
разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах

📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями

И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»

Промокод на 5.000₽: LASTCALL

👉 Курс здесь
Есть ли проблемы с численной стабильностью при использовании Softmax + Cross-Entropy

Да, есть:
⚠️ Переполнение: экспонента больших логитов может давать очень большие числа → floating-point overflow.
⚠️ Недополнение: логарифм очень маленьких вероятностей может привести к underflow.

Как решают:
Сдвиг логитов: вычитаем максимальный логит из всех перед экспонентой — простая и эффективная хитрость.
Комбинированные функции: большинство DL-библиотек используют log-softmax + negative log-likelihood в одном шаге, что обеспечивает стабильные градиенты даже для больших и маленьких логитов.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1
▫️ В чём разница между LIME и SHAP с точки зрения стабильности объяснений и теоретической основы

Обе методы дают локальные объяснения для отдельных предсказаний.

SHAP:
🤖 Основывается на кооперативной теории игр.
🤖 Гарантирует свойства консистентности и аддитивности: если вклад признака увеличивается во всех возможных комбинациях, его SHAP-значение не уменьшится.
🤖 Обычно даёт более стабильные объяснения между разными запусками.
🤖 Минус: вычислительно затратен, особенно для больших моделей.

LIME:
🤖 Строит локальную линейную аппроксимацию вокруг интересующего примера.
🤖 Объяснения могут различаться при каждом запуске из-за случайной генерации локальных точек.
🤖 Быстрее, но менее теоретически обоснован.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Есть ли уникальные особенности подбора гиперпараметров у параметрических и непараметрических моделей, кроме стандартной кросс-валидации

🔹 Параметрические модели

Обычно гиперпараметров меньше.

Чаще всего настраивают:
➡️ коэффициенты регуляризации (λ в ridge/lasso),
➡️ архитектуру сети (глубина, число нейронов),
➡️ степень полинома.

Важно учитывать взаимодействия гиперпараметров (например, глубина сети + скорость обучения + регуляризация).

🔹 Непараметрические модели

Количество гиперпараметров может быть больше и они сильно влияют на сложность модели.

Примеры:
➡️ число соседей в kNN,
➡️ bandwidth в kernel density estimation,
➡️ глубина деревьев и число признаков в случайных лесах.

Подбор может требовать grid search, random search или Bayesian optimization.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🤠Как получить оффер от зарубежных компаний

Карьеристы, знаем многие из вас хотят построить карьеру в зарубежной компании. А мы, в свою очередь, напомним, что зарубежные работодатели готовы нанимать даже тех, кто не идеально владеет английским языком.

Поэтому сегодня знакомим вас с другом проекта – Виталием Лавелиным. За его плечами 10к+ просмотренных резюме, 600+ проведенных интервью и сотни человек, получивших работу в Европе, Австралии и странах MENA. Он рассказывает:

➡️Что писать в резюме, чтобы вас пригласили на интервью?
➡️Как получить оффер с релокацией и высокой зарплатой?
➡️Как составить сопроводительное письмо, которое выделит вас среди других?

Всю пользу о построении карьеры за границей ищем тут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🙏1
⚠️ Гарантирует ли выпуклость (convexity) лучшую обобщающую способность модели

Нет. Выпуклость гарантирует нахождение глобального минимума функции ошибки на обучающей выборке, но это не означает, что модель будет показывать лучшее обобщение на новых данных.

Даже при идеально решённой оптимизационной задаче:
➡️ возможен оверфиттинг, если модель слишком сложная для задачи;
➡️ возможен андерфиттинг, если модель слишком простая;
➡️ важную роль играют регуляризация, выбор признаков и качество данных.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1
2025/09/16 16:01:56
Back to Top
HTML Embed Code: