Библиотека собеса по Data Science | вопросы с собеседований

🤔

Что делать, если редкий класс встречается менее 1% случаев и обычное увеличение выборки не помогает

Когда редкий класс очень мал (например, менее 1%), простое увеличение выборки (oversampling) может не решить проблему. В некоторых областях, таких как обнаружение мошенничества или аномалий, редкий класс по своей природе сильно отличается от обычных данных. Традиционные методы создания синтетических примеров могут не передавать сложные «аномальные» паттерны.

В таких случаях лучше использовать методы обнаружения аномалий, которые учатся распознавать нормальное поведение и отмечают отклонения. Если всё же применяете увеличение выборки, важно не создавать искусственные данные, слишком похожие на обычные, чтобы не запутать модель.

Также помогает обучение с учётом стоимости ошибок (cost-sensitive learning), которое сильнее штрафует ошибки на редком классе. Для оценки результатов полезно смотреть специальные метрики, например, количество ложных срабатываний и пропусков именно для редкого класса.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

660 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

📍

Зачем использовать log-loss вместо accuracy для оценки качества классификатора

Log-loss (логарифмическая функция потерь) учитывает не только правильность предсказания, но и уверенность модели. Если модель предсказывает правильный класс с низкой уверенностью, log-loss будет наказывать её сильнее, чем accuracy.

Например, если модель предсказывает класс A с вероятностью 0.51, а правильный ответ — A, то accuracy посчитает это успешным предсказанием. Log-loss же зафиксирует, что модель не была уверена. Это особенно важно в задачах, где требуется хорошо откалиброванная вероятность (например, в медицине или при принятии финансовых решений).

Таким образом, log-loss — более строгий критерий, который помогает отбирать не просто «угаданные» модели, а те, которые правильно оценивают свои предсказания.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

638 viewsedited 18:59

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Нейросети для дата-сайентиста: свежий гид по инструментам

Мир нейросетей меняется каждый день — выбрать подходящий инструмент для задач Data Science непросто.

Мы собрали в статье то, что действительно работает: какие модели помогают автоматизировать рутину, ускоряют кодинг и дают ощутимый буст продуктивности.

📊 Что выбрать под вашу задачу — читайте в обзоре!

📌 Подробнее: https://proglib.io/sh/yq0MaQtHrn

Библиотека дата-сайентиста #буст

529 views09:38

Библиотека собеса по Data Science | вопросы с собеседований

📝

Немного инсайтов из третьего модуля курса

Сейчас большинство представлений об ИИ ограничиваются одним агентом — моделькой, которая что-то предсказывает, генерирует или классифицирует.

Но реальный прорыв начинается, когда этих агентов становится несколько.
Когда они начинают взаимодействовать друг с другом.
Когда появляется координация, распределение ролей, память, планирование — всё это и есть мультиагентные системы (MAS).

➡️ Пока кто-то думает, что это звучит как научная фантастика, индустрия уже переходит к новым уровням сложности:
— Microsoft делает язык DroidSpeak для общения между LLM
— Open Source-фреймворки вроде LangChain, AutoGen, CrewAI, LangGraph — бурно развиваются
— компании, включая МТС, уже применяют MAS в боевых задачах

🎓 На курсе мы подходим к этому практично:
🔵 разбираем, как устроены MAS
🔵 пишем агентов с нуля
🔵 учимся выстраивать взаимодействие: конкуренцию, кооперацию, планирование

Именно на третьем уроке вы впервые собираете не просто «умного бота», а живую систему из агентов, которая работает вместе — как команда.

Причём по-настоящему: врач, SQL-аналитик, travel-планировщик, Python-генератор, поисковик.

🙂 Если хочется не просто использовать ИИ, а проектировать системы, которые думают, планируют и сотрудничают → тогда забирайте курс по ИИ-агентам

Please open Telegram to view this post

VIEW IN TELEGRAM

517 views11:03

Библиотека собеса по Data Science | вопросы с собеседований

👇 Когда стоит рассмотреть использование специализированных решателей вместо стандартных градиентных фреймворков глубокого обучения

Хотя PyTorch или TensorFlow способны справляться со многими задачами с ограничениями, есть ситуации, когда специализированные решатели оказываются более подходящими:

• Комбинаторные или целочисленные ограничения: если необходимо обеспечить дискретность выходных данных или комбинаторную допустимость (например, в задачах планирования или маршрутизации), более эффективными могут быть методы смешанного целочисленного программирования.

• Жёсткие физические или операционные ограничения: в инженерном проектировании или исследовании операций ограничения часто настолько строгие, что естественнее использовать методы вроде ветвей и границ или внутренней точки.

• Высокомерные и связанные между собой ограничения: если ограничения затрагивают множество взаимодействующих переменных (например, потоки в сетях, многопериодное планирование), общие решатели, способные обрабатывать крупномасштабные задачи с ограничениями, могут быть быстрее или надёжнее.

Потенциальные сложности и крайние случаи:

• Сложная интеграция: связать параметры нейросети с внешним решателем требует дополнительных усилий для организации связи или передачи градиентов (некоторые решатели не являются полностью дифференцируемыми).

• Ограниченная масштабируемость: некоторые специализированные решатели могут не справляться с задачами, где размерность проблем или сети очень велика.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

647 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

🖍 Почему в задачах обработки текста важно учитывать порядок слов, а не только их частоту

Порядок слов несёт ключевую смысловую информацию, которая часто теряется при простом подсчёте частоты слов (мешок слов). Например, фразы «кот chased мышь» и «мышь chased кот» имеют одинаковые слова, но совсем разный смысл.

Учёт порядка помогает моделям понять контекст, отношения между словами и построить более точное представление текста, что особенно важно в задачах перевода, анализа тональности и ответах на вопросы.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

583 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

🤯 Мы больше года строим мультиагентные системы

Грабли, находки, паттерны, эксперименты — всё это накопилось и в какой-то момент стало жалко держать только у себя.

Никита — рассказывает (и показывает) базу: токенизация, LLM, SFT, PEFT, локальный инференс + RAG и как оценивать его качество.
Диана — как строят мультиагентные системы, какие есть паттерны проектирования и библиотеки.
Макс — про инференс в проде + разберет CoPilot, соберет с вами из кусочков свой копайлот, а затем его сломает через prompt injection. // Макс фанат autogen (а если нет — он вас разубедит в своем классном канале)
Финальным аккордом Дима углубится в MCP и соберет несколько кейсов повзрослее.

Курс тут: https://clc.to/47pgYA
Промокод: datarascals действует до 23:59 29 июня

605 viewsedited 09:00

Библиотека собеса по Data Science | вопросы с собеседований

🌸

Почему иногда полезно использовать аугментацию данных даже при большом объёме обучающей выборки

Аугментация помогает не только в условиях дефицита данных, но и при их избыточности — она повышает разнообразие обучающего набора. Даже если данных много, они могут быть однородными или содержать скрытые смещения (bias).

Аугментация (например, случайные повороты изображений, перестановки слов в тексте, добавление шума) помогает модели стать устойчивее к небольшим изменениям входных данных и улучшает её способность обобщать. Это особенно полезно в реальных задачах, где на этапе инференса данные могут немного отличаться от обучающих.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

652 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

✨

Зачем иногда использовать вероятностные модели, если можно просто выбрать класс с наибольшей вероятностью

Выбор класса с наибольшей вероятностью даёт одно конкретное решение, но теряет информацию об уверенности модели. В некоторых задачах (например, медицине, кредитном скоринге, системах рекомендаций) важно не только знать что модель предсказывает, но и насколько она в этом уверена.

Вероятностный вывод позволяет:
— учитывать риски при принятии решений,
— строить более надёжные ансамбли,
— калибровать пороги отсечения для разных задач (например, при дисбалансе классов),
— делать «мягкие» предсказания для downstream-задач.

Таким образом, вероятности дают больше гибкости и контроля в использовании модели.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

622 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

🔖

Почему в задачах машинного обучения важно фиксировать случайное зерно (random seed)

Во многих алгоритмах машинного обучения присутствует случайность — например, в инициализации весов, случайных разбиениях данных, выборе подмножеств признаков и т.д. Без фиксации random seed каждый запуск модели может давать немного разные результаты.

Фиксация случайного зерна позволяет сделать эксперименты воспроизводимыми: другие исследователи (или вы сами позже) смогут получить те же результаты и проверить корректность методики. Это особенно важно при сравнении моделей, отладке и написании научных статей.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

608 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

🔎

Зачем использовать метод главных компонент (PCA), если модель и так может работать с большим числом признаков

Хотя современные модели способны обрабатывать высокоразмерные данные, большое количество признаков может привести к проклятию размерности, увеличению времени обучения, риску переобучения и ухудшению интерпретируемости.

PCA помогает уменьшить размерность, сохранив основную информацию — он находит новые оси (комбинации признаков), по которым данные варьируются сильнее всего. Это ускоряет обучение, уменьшает шум, помогает визуализировать данные и делает модель более устойчивой, особенно когда среди признаков есть коррелирующие или нерелевантные.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

551 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

✅

Почему иногда имеет смысл обучать модель не на всех доступных данных

Интуитивно кажется, что больше данных — всегда лучше. Но в некоторых случаях использование всего набора данных может быть неэффективным или даже вредным:

1⃣

Переизбыток одинаковых примеров может привести к смещению модели в сторону часто встречающихся паттернов и заглушить редкие, но важные случаи.

2⃣

Шумные или устаревшие данные могут ввести модель в заблуждение, особенно если данные собирались в разное время или из разных источников.

3⃣

При прототипировании или отладке модели обучение на подмножестве экономит ресурсы и ускоряет эксперименты.

Выборка «умных» подмножеств (например, стратифицированных или репрезентативных) может дать почти то же качество — но быстрее и устойчивее.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

496 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Последняя неделя перед стартом курса по AI-агентам

Старт курса уже 5го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место

На курсе:
— разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах

📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями

И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»

👉 Курс здесь

474 views13:12

Библиотека собеса по Data Science | вопросы с собеседований

🌀

Почему в некоторых случаях полезно обучать модель на данных, полученных… от другой модели

Обучение на предсказаниях другой модели — это основа подхода под названием knowledge distillation (дистилляция знаний). Идея в том, что сложная, тяжёлая модель (например, глубокая нейросеть) может содержать более «мягкую» и богатую информацию о структуре задачи, чем просто метки «0» и «1».

Маленькая модель, обучающаяся не на оригинальных метках, а на вероятностных предсказаниях большой модели, может:

➡️

лучше улавливать обобщённые закономерности,

➡️

достигать качества, близкого к исходной модели,

➡️

быть гораздо быстрее и легче в продакшене.

Это особенно полезно, когда требуется deploy в ограниченной среде (например, на мобильных устройствах), но не хочется терять в качестве. Получается, что модель может «учиться у другой модели», как ученик у учителя — и это работает.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

447 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

👇

Зачем в машинном обучении иногда специально нарушают симметрию

Во многих моделях, особенно нейронных сетях, изначальная симметрия (одинаковая инициализация весов, одинаковая структура путей) может привести к тому, что все нейроны начинают учиться одинаково — и, по сути, дублируют друг друга. Это мешает сети извлекать разнообразные признаки и тормозит обучение.

Чтобы этого избежать, симметрию намеренно ломают — например, инициализируя веса случайными значениями, даже если структура одинаковая. Этот маленький хаос позволяет разным частям модели начать «думать» по-разному с самого старта и постепенно развивать разные специализации.

Симметрия красива в математике, но в обучении может быть смертельна: без разнообразия начальных состояний — нет разнообразия решений.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

405 views18:16

Библиотека собеса по Data Science | вопросы с собеседований

🧠 «Поиграйся с LLM, почитай про агентов — и сам поймёшь, как это работает»

Это один из самых бесполезных советов, который мы слышали в адрес тех, кто хочет разобраться в AI-агентах.

Поиграйся — это как?
Потыкать пару промптов в ChatGPT и решить, что теперь ты можешь строить мультиагентные системы? 🤡 Ну-ну.

AI-агенты — это не «очередная обёртка над GPT». Это архитектура. Состояния, инструменты, цепочки вызовов, память, оценка качества и адекватность поведения.

➡️ Чтобы разобраться, нужно:
— понимать, как устроен LLM под капотом
— уметь подключать внешние данные (RAG, retrievers, rerankers)
— уметь масштабировать и дебажить поведение агентов
— разбираться в фреймворках вроде AutoGen, CrewAI, LangChain
— знать, как всё это тащится в прод

Если вы реально хотите не «поиграться», а научиться собирать рабочие агентные системы — у нас стартует курс по разработке ИИ-агентов 5го июля

P.S: не упусти свой шанс, промокод: LASTCALL на 10.000₽

385 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

😤 Пока вы думаете — остальные уже учатся строить системы, которые работают за них

⚡24 часа до старта курса по AI-агентам. Самое время задуматься о прокачке скиллов, потому что места ограничены!

Если вы до сих пор думаете, что LLM — это просто «вызов через API», то вы рискуете очень скоро оказаться за бортом индустрии.

Модели больше не в центре. Решают те, кто умеет собирать интеллектуальные системы, а не просто «дообучать модельку».

➡️ Что вы потеряете, если не впишетесь:
— навык, который уже востребован на рынке
— понимание, как из GPT сделать полноценного помощника, агента или продукт
— шанс догнать тех, кто уже перешёл на следующий уровень

📌 Курс стартует уже завтра
— 5 вебинаров, живая практика, код, разборы, продовые кейсы
— без «посмотрите статью», только то, что реально нужно

Спикеры: Никита Зелинский (МТС), Диана Павликова, Макс Пташник, Дима Фомин — те, кто реально собирает агентные системы, а не просто про них пишет.

❗Старт уже завтра — забронируйте место на курсе сейчас

351 views09:00

Библиотека собеса по Data Science | вопросы с собеседований

😎 Почему иногда используют «обманчиво плохую» loss-функцию на этапе обучения

Иногда для обучения выбирают лосс-функцию, которая не совпадает с целевой метрикой — и даже, на первый взгляд, плохо её отражает.

Это делается не по ошибке, а потому что:
— Целевая метрика негладкая или недифференцируемая, например, F1-score, Precision\@K, Accuracy. Их нельзя напрямую оптимизировать с помощью градиентного спуска.
— Взамен используют surrogate loss — «замещающую» функцию, которую можно эффективно минимизировать.
Например:

✔️

log-loss для классификации,

✔️

hinge loss для SVM,

✔️

MSE вместо MAE в регрессии.

Иногда surrogate loss вообще не похож на целевую метрику — и всё равно работает. Это парадокс: модель учится не по той метрике, которую мы хотим улучшить, но всё равно её улучшает.

Такой выбор — компромисс между математической удобством и практической целью. И это одна из причин, почему хорошие метрики ≠ хорошие loss-функции, и наоборот.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

335 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Сегодня стартует курс по AI-агентам!

Онбординг уже сегодня, но ещё можно вписаться — ПОСЛЕДНИЙ ШАНС это сделать.

Мы больше года собирали мультиагентные системы: экспериментировали, переделывали и в итоге — оформили всё в 5 плотных вебинаров.

😤 «А можно ли вообще научиться чему-то за 5 вебинаров?!»

Если вы хотите просто послушать — нет
Если хотите разбираться и делать — да

➡️ На курсе:
— мы не читаем слайдики, а работаем в коде в реальном времени
— можно задавать вопросы прямо на вебинаре
— после каждого вебинара есть домашка и поддержка в чате

И главное — вы получаете системное понимание, а не набор хаотичных туториалов.

⚡️Если вы думаете, что успеете потом — не успеете.
Старт сегодня:
— а те, кто вписался сейчас, будут вас опережать — в проектах, на грейде и в зарплате

Знакомьтесь, эксперт нашего курса:
Никита Зелинский — Chief Data Scientist МТС, Head of ML Platforms, руководитель центра компетенций по Data Science.

❗Стартуем сегодня — забронируй свое место

328 views10:00

Библиотека собеса по Data Science | вопросы с собеседований

👉 Может ли модель машинного обучения быть «неправильно правой»

Да — и это довольно опасный случай. Модель может выдавать правильный результат, но по неправильной причине.

Примеры:
— Классическая история: модель для распознавания танков «научилась» отличать их от леса, но не по форме техники — а по погоде (все фото с танками были при пасмурной погоде, а без — в солнечную).
— Модель предсказывает болезнь, но оказывается, что она просто запомнила, в каких больницах делались анализы, а не сами медицинские показатели.

Это называется «shortcut learning» — когда модель ищет кратчайший путь к правильному ответу, даже если он бессмыслен с точки зрения задачи.

Почему это плохо:
— Модель может работать «правильно» на тесте, но провалиться в реальной жизни, когда нарушатся скрытые зависимости.
— В критичных сферах (медицина, право, финансы) это может привести к опасным решениям.

Библиотека собеса по Data Science

313 views17:47

2025/07/06 17:28:04
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>