Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6319

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🌯 Чем ближе к вокзалу, тем хуже кебаб — научный прорыв века

На французском Reddit появилась гипотеза: чем ближе к вокзалу, тем хуже кебаб. Это утверждение потребовало проверки, и один энтузиаст решил разобраться, вооружившись свободным временем и шутливым настроением. Нобелевка и job-офферы, конечно, уже на горизонте!

🔬 Методология:
Для анализа выбрали Париж: гипотеза родом оттуда, вокзалов и кебабных там полно, а пешеходные маршруты идеально подходят для «научных» прогулок.

🔗 Подробности исследования — https://clc.to/dKOPyQ

Библиотека дата-сайентиста #буст

😁3🔥2❤1

2.66K viewsedited 11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🪄 Визуальные вычисления в Power BI: прокачиваем условное форматирование

Теперь настраивать условное форматирование в Power BI можно без сложных DAX-формул!

Разбираем, как новые визуальные вычисления помогают создавать динамичные, адаптивные и стильные отчеты, которые мгновенно реагируют на изменения данных.

⭐️ Пора сделать отчеты действительно интерактивными!

🔗

Ссылка на статью: https://proglib.io/sh/lsb0fEuYSv

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

15.3K viewsedited 18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯

Промпт дня: улучшаем аналитику и принятие решений

Как быстро разобраться в сложных данных, выделить ключевые закономерности и донести инсайты до команды? Этот промпт поможет вам анализировать данные глубже и принимать обоснованные решения:

💬 Промпт:

Analyze [dataset/feature] and identify key trends, correlations, and anomalies. Summarize the most important insights in a way that can be easily explained to non-technical stakeholders. Suggest potential next steps or hypotheses that should be tested further. If possible, recommend a visualization that best represents the findings.

➡️

Что вы получите:
• Четкое понимание трендов, скрытых закономерностей и аномалий
• Способы объяснить сложные данные простым языком для бизнеса
• Идеи для дальнейшего исследования и проверки гипотез
• Рекомендации по лучшим визуализациям для наглядного представления данных

➡️

Как применять:
• Используйте промпт для первичного анализа данных перед презентацией
• Проверяйте гипотезы перед постановкой экспериментов
• Готовьте краткие и понятные отчеты для команды и руководства
• Экспериментируйте с разными визуализациями, чтобы сделать инсайты еще понятнее

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

2.17K views06:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👋 Дата-сайентисты, нужен ваш совет!

Готовим крутой обзор ноутбуков для кодеров в 2025-м и хотим собрать реальный фидбек от тех, кто в теме.

Какой ноутбук — ваш незаменимый помощник в работе?

Поделитесь:
⭐️ Модель и характеристики вашего ноутбука
⭐️ Что нравится и что не очень в повседневной работе
⭐️ На что обратить внимание при выборе ноутбука для анализа данных
⭐️ Как он вам в целом

Лучшие советы попадут в нашу статью. Давайте создадим полезный гайд для коллег!

Ждем ваших комментариев!

⬇️

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

😁2

1.92K views10:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Давайте будем честны... 😏

Библиотека дата-сайентиста #развлекалово

😁11🥱2

1.9K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❓ How to: как «на самом деле» работает Dropout

Если вы думаете, что Dropout просто обнуляет часть нейронов, это лишь половина правды. Есть ещё один важный шаг, который делает обучение стабильным.

⭐

Разберёмся на примере:
— Представьте, что у нас есть 100 нейронов в предыдущем слое, все с активацией 1.
— Все веса соединений с нейроном A в следующем слое равны 1.
— Dropout = 50% — половина нейронов отключается во время обучения.

⭐

Что происходит:
— Во время обучения: половина нейронов выключена, так что вход нейрона A ≈ 50.
— Во время inference: Dropout не применяется, вход A = 100.

⭐

Проблема:
Во время обучения нейрон получает меньший вход, чем во время inference. Это создаёт дисбаланс и может ухудшить обобщающую способность сети.

⭐

Секретный шаг Dropout:
Чтобы это исправить, Dropout масштабирует оставшиеся активации во время обучения на коэффициент 1/(1-p), где p — доля отключённых нейронов.

— Dropout = 50% (p = 0.5).
— Вход 50 масштабируется: 50 / (1 - 0.5) = 100.

Теперь во время обучения вход нейрона A примерно соответствует тому, что он получит при inference. Это делает поведение сети стабильным.

⭐

Проверим на практике:

import torch
import torch.nn as nn

dropout = nn.Dropout(p=0.5)
tensor = torch.ones(100)

# Обучение (train mode)
print(dropout(tensor).sum())  # ~100 (масштабировано)

# Вывод (eval mode)
dropout.eval()
print(dropout(tensor).sum())  # 100 (без Dropout)

В режиме обучения оставшиеся значения увеличиваются, в режиме inference — нет.

⭐

Вывод:
Dropout не просто отключает нейроны — он ещё масштабирует оставшиеся активации, чтобы модель обучалась корректно.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤4❤‍🔥1

2.05K views06:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👊

Холивар: Kaggle или реальные проекты — где настоящий дата-сайенс?

«Kaggle — это песочница для студентов, а реальные проекты — для взрослых дата-сайентистов. Если ты только и делаешь, что гонишься за медальками, ты не профи, а геймер!»

🚶‍♂️

Kaggle:
• Обучение: сотни датасетов и задач — от регрессии до компьютерного зрения.
• Соревновательный дух: топ-1% на лидерборде — это как Олимпийская медаль.
• Сообщество: готовые ноутбуки, идеи и код от лучших умов.
• Но: идеальные датасеты и метрики часто далеки от реальных проблем, а переобучение ради 0.001 — это не про бизнес.

🚶‍♂️

Реальные проекты:
• Практика: данные грязные, требования меняются, а результат нужен вчера.
• Бизнес-ценность: модель не для галочки, а для прибыли или спасения жизней.
• Полный цикл: от сбора данных до деплоя — настоящий опыт.
• Но: рутина, дедлайны и отсутствие чистой «магии ML» могут выгореть.

Давайте спорить в комментариях!

⤵️

Инструкция о том, как оставить комментарий: https://www.tg-me.com/dsproglib/6244

👍 Kaggle — лучший тренажёр для мозга
❤️ Реальные проекты — тут рождается настоящий DS

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19👍11😁1💯1

2.04K viewsedited 18:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💎

Фишка инструмента: SHAP — интерпретируемость ML-моделей

SHAP (SHapley Additive exPlanations) — это мощный инструмент для объяснения предсказаний моделей машинного обучения. Он основан на значениях Шепли из теории игр и позволяет разобрать вклад каждого признака в итоговый результат модели.

📍

Что делает SHAP:
➖ Объясняет любой ML-модели, от XGBoost и LightGBM до нейросетей и трансформеров
➖ Выявляет ключевые признаки, влияющие на предсказания
➖ Создаёт наглядные визуализации, такие как водопадные графики, force plots, scatter plots и beeswarm-графики
➖ Работает с деревьями решений, нейросетями и линейными моделями

📍

Ключевые приёмы:
➖ Waterfall plot — детальный разбор влияния признаков
➖ Beeswarm plot — топ-важных признаков по всей выборке
➖ Dependence plot — анализ взаимодействий признаков

📍

Пример использования

1⃣ Установка:

pip install shap

2⃣ Простая демонстрация для XGBoost:

import xgboost
import shap

# Обучаем модель
X, y = shap.datasets.california()
model = xgboost.XGBRegressor().fit(X, y)

# Создаём объяснитель SHAP
explainer = shap.Explainer(model)
shap_values = explainer(X)

# Визуализируем вклад признаков в предсказание
shap.plots.waterfall(shap_values[0])
shap.plots.beeswarm(shap_values)

🔗 Подробнее в репозитории: SHAP на GitHub

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥2❤1

2.08K views06:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠

ИИ не отнимает работу у инженеров — он трансформирует её

По свежему отчёту WEF, к 2030 году произойдёт глобальная перекройка рынка труда:
✅ 22% текущих профессий изменятся
✅ +170 млн новых рабочих мест
✅ -92 млн уйдут в прошлое

И ключевой драйвер этих изменений — ИИ и автоматизация.

🎯 Что это значит для DS-инженеров?

Вместо стандартного «data scientist»/«ML engineer» сейчас появляются:
🔘 AI/ML продуктовые инженеры
🔘 Специалисты по data pipelines для LLM и мультимодальных моделей
🔘 Инженеры по интерпретируемости моделей (XAI)
🔘 Мастера feature engineering под foundation models
🔘 MLOps с уклоном в этику, безопасность и оценку рисков
🔘 Prompt/agent engineers (внезапно, уже инженерная роль)

💼 Интересно, что многие из этих ролей не существовали 3-5 лет назад. И это не предел: растёт спрос на специалистов, которые могут работать на стыке ИИ и бизнеса, ИИ и UX, ИИ и governance.

🧠 Поэтому ключевая компетенция 2025+ — уметь мыслить с ИИ: не просто строить пайплайн, а понимать, как ИИ влияет на продукт, решение, пользователя.

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3❤‍🔥2

2.57K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Неловкая ситуация 😂

Библиотека дата-сайентиста #междусобойчик

😁13💯2🔥1

1.98K views09:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧐 Игра: испытайте свою наблюдательность в эпоху ИИ

На изображении два кинопостера: один — подлинная фотография, другой — продукт нейросети.

⬇️ Попробуйте определить, какой из них настоящий, и в комментариях расскажите, почему вы так решили и на какие детали обратили внимание.

🤫 Ответ ~~раскрою в воскресенье.~~

-> A

Инструкция о том, как оставить комментарий: https://www.tg-me.com/dsproglib/6244

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

2.21K viewsedited 13:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Я думаю, что ИИ на картинке

Anonymous Poll

86%

14%

❤3

374 voters1.98K views13:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Модели и релизы:
— Amazon Nova Act — AI-модель для действий в браузере, обходит Claude 3.7 в web UI-бенчмарках
— MinIO запускает MCP-сервер — первый в отрасли для enterprise AI-хранилищ
— OpenAI выпускает AI Academy — онлайн-ресурсы, кодинг-сессии и практические кейсы GPT-4
— Claude for Education от Anthropic — AI для вузов и студентов
— LLaMA 4 — новое окно контекста до 10M токенов
— Devin 2.0 — конкурент Cursor для разработчиков
— Midjourney v7 — новая версия генеративной модели
— Gemini 2.5 Pro (preview) — Google открывает доступ разработчикам
— YandexGPT 5 Lite (instruct) в open-source + упрощённая лицензия

🧠 Исследования и бенчмарки:
— GPT-4.5 прошёл тест Тьюринга — в 74% случаев принят за человека
— PaperBench от OpenAI — бенчмарк на репликацию SOTA-ресёрча
— CodeScientist от Allen AI — AI-агент, открывший 6 новых научных закономерностей
— Исследование от Anthropic — LLM часто скрывают истинное рассуждение
— AGI и безопасность — 145-страничный отчёт Google DeepMind
— Multi-Token Attention — новый механизм внимания

📈 Индустрия и кадры:
— Опрос Hookline — 82% американцев отличают AI-контент
— GPT-5 отложен — сложности с инфраструктурой и интеграцией

🧰 Инструменты и инфраструктура:
— DuckDB UI для Hugging Face Datasets — удобно работать с 380k+ датасетами
— NotebookLM от Google — добавил функцию Discover Sources
— Unsloth + Hugging Face — гайд по обучению разума у моделей

📚 Что почитать:
— Обратное распространение ошибки без формул
— Введение в SciPy
— 15 лучших нейросетей для генерации изображений в 2025
— Как мы пишем ML-приложения по пайплайн-паттерну
— OCR на базе LLM
— Что важно знать при внедрении LLM
— Vision Transformers — применение в CV
— Семантический поиск в сложных документах
— Гайд по промпт-инжинирингу
— Нейросети и проблема сильного ИИ
— История увольнения Сэма Альтмана

Библиотека дата-сайентиста #свежак

🔥2❤1👍1

1.85K views12:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

🔍 Как скрытые состояния в HMM отличаются от скрытых представлений в RNN и как это влияет на интерпретируемость

🧠 Скрытые марковские модели (HMM):
В HMM скрытые состояния — это дискретные латентные переменные с четким вероятностным значением. Каждое состояние соответствует конкретному режиму или явлению (например, «дождливо» или «солнечно» в модели погоды), что способствует интерпретируемости. Переходы между состояниями описываются матрицей вероятностей.

🤖 Рекуррентные нейронные сети (RNN):
В отличие от HMM, скрытые состояния в RNN — это непрерывные векторы, которые обучаются автоматически с помощью градиентного спуска. Они могут кодировать сложные аспекты истории последовательности, но не всегда легко интерпретируемы. Каждый элемент скрытого состояния может быть связан с более сложными зависимостями, которые сложно трактовать в явной форме.

💡 Главная проблема:
При попытке трактовать скрытые состояния в RNN как дискретные состояния в HMM можно столкнуться с ошибками. Непрерывные скрытые представления могут не иметь четких «меток», что затрудняет их интерпретацию и объяснение. Важно учитывать, что RNN может захватывать более сложные, но менее интерпретируемые зависимости.

⚠️ Как избежать ошибок:

Не стоит пытаться трактовать скрытые состояния RNN как дискретные. Лучше использовать методы интерпретации, такие как визуализация внимания, чтобы понять, как скрытые состояния влияют на выход модели.

Библиотека собеса по Data Science

❤2👍1

1.72K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

❤1

1.69K views11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

❤1

268 voters1.67K views11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🔄 Обновление: Gradio стал ещё удобнее

Gradio — это open-source фреймворк на Python для создания веб-интерфейсов для моделей машинного обучения и приложений с минимумом кода.

🔘

Почему стоит использовать Gradio:
➡️ Мгновенное прототипирование — пользовательский интерфейс запускается за считанные минуты
➡️ Поддержка Hugging Face и других AI-фреймворков
➡️ Интерактивность: ввод текста, загрузка изображений, аудио, видео, работа с таблицами и кодом
➡️ Удобный шаринг — можно расшарить ссылку или встроить приложение в сайт

🔘Пример:

import gradio as gr

def greet(name):
    return f"Привет, {name}!"

gr.Interface(fn=greet, inputs="text", outputs="text").launch()

🆕

Что нового в компоненте gr.Dataframe:

Недавно команда Gradio выпустила обновление компонента gr.Dataframe(), закрыв более 70 задач и багов.

🔘

Основные улучшения:
➡️ Мультивыделение ячеек — можно копировать или удалять сразу несколько значений
➡️ Нумерация строк и закрепление колонок — удобно при работе с широкими таблицами
➡️ Кнопка копирования и полноэкранный режим — для более комфортной работы с данными
➡️ Поиск и фильтрация — находите нужные строки за секунды
➡️ Статичные колонки — защита важной информации от случайного редактирования
➡️ Выбор строк и колонок — для удобного взаимодействия с данными

🔗 Попробуйте Gradio в действии: https://clc.to/YKU9yw
💬 А вы уже использовали Gradio в своих проектах?

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥2

1.66K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💡

How to: как грамотно группировать YAML-конфигурации в ML-проектах

В ML-проектах множество параметров: данные, модели, обучение, инференс. Чтобы не потеряться в этом хаосе, важно организовать конфигурации понятно и масштабируемо.

🎯 Лучшее решение — использовать связку OmegaConf + Hydra.

⭐

OmegaConf: гибкость и структура

OmegaConf создана для сложных ML-пайплайнов и позволяет:

• Объединять несколько YAML-файлов в единую структуру
• Обращаться к полям как через config.model.optimizer, так и config["model"]["optimizer"]
• Использовать проверку типов через dataclasses или Pydantic-моделей

• Пример:

# model.yaml
model:
  name: resnet50
  optimizer:
    type: Adam
    lr: 0.001

from omegaconf import OmegaConf
cfg = OmegaConf.load("model.yaml")
print(cfg.model.optimizer.lr)  # 0.001

⭐

Hydra: управление ML-воркфлоу

Hydra расширяет OmegaConf и упрощает работу с конфигурациями:

• Группировка конфигураций через defaults:

# config.yaml
defaults:
  - data: imagenet.yaml
  - model: resnet.yaml
  - training: adam.yaml

• Структура может быть произвольной:

conf/
├── config.yaml
├── data/imagenet.yaml
├── model/resnet.yaml
├── training/adam.yaml

• Переопределения из командной строки:

python train.py model.optimizer=SGD training.lr=0.01

• Параметрические прогоны (sweeps):

python train.py -m training.lr=0.001,0.01 model.optimizer=Adam,SGD

Это удобно при автоматизированном поиске гиперпараметров.

💬

А как вы организуете свои конфигурации?

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

1.67K views06:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧱⛏️ Чекни свой крафт: 8 признаков, что разработчик слишком залип в Minecraft

Думаешь, что твоя продуктивность падает из-за багов в коде? А может, все дело в том, что ты мысленно фармишь крипперов, пока твой PM объясняет задачу?

😎 Пройди наш тест и узнай, насколько глубоко ты провалился в пиксельную кроличью нору!

👉 Пройти тест

Библиотека питониста

❤3👍1

1.74K views11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

📚 13 ресурсов, чтобы выучить математику с нуля — подборка, которую просили

Хочешь прокачаться в математике для Data Science, ML или просто чтобы понимать, что происходит в формулах. Лови список лучших источников, которые собрали на Proglib.

➡️ Что внутри:
• Книги: от Пойи и Перельмана до Хофштадтера
• Советы: как учить, с чего начать, как не сдаться
• Математика для Data Science: разбор тем и формул
• Ссылки на форумы и задачи
• Как не бояться, если всё кажется сложным
• Что читать, если ты гуманитарий и страдал от школьной алгебры

✍️ Простой язык, много примеров и ноль академического занудства.

🔵 Для полного понимания Архитектуры, забирайте наш курс → «Архитектуры и шаблоны проектирования»

👉 Читай статью тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

1.78K views18:04

2025/07/09 15:58:39
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>