Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6425

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение pinned a photo

13:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

🐍✨ Пиши как профи: 10 Python-лайфхаков для новичков

Лайфхаки от разработчиков, обжёгшихся до вас

➡️ Что вас ждет внутри:
— почему if x == True: — это преступление
— как списковые включения экономят часы
— зачем линтер важнее кофе
— и почему def func(start_list=[]) может испортить тебе вечер
— как не сойти с ума от зависимостей (и что делать с виртуальными окружениями)
— секретный power move: dir(), help() и другие встроенные суперсилы

И всё это без занудства и «книг для чайников». Просто, по делу, с примерами и личным опытом от бывалых питонистов

📎

Статья

🔵 Начинайте свой путь в программировании и прокачивайте свои навыки с нашим курсом «Основы программирования на Python»

Proglib Academy #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

1.6K views18:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Промпт для анализа и оптимизации пайплайнов обработки данных

Этот промпт поможет оптимизировать пайплайны данных для повышения эффективности, автоматизации процессов и улучшения качества данных, используемых в проектах.

🧾 Промпт:

Prompt: [опишите текущий пайплайн обработки данных]

I want you to help me analyze and optimize my data processing pipeline. The pipeline involves [data collection, cleaning, feature engineering, storage, etc.]. Please follow these steps:

1. Data Collection:
- Evaluate the current method of data collection and suggest improvements to increase data quality and speed.
- If applicable, recommend better APIs, data sources, or tools for more efficient data collection.

2. Data Cleaning:
- Check if the data cleaning process is efficient. Are there any redundant steps or unnecessary transformations?
- Suggest tools and libraries (e.g., pandas, PySpark) for faster and more scalable cleaning.
- If data contains errors or noise, recommend methods to identify and handle them (e.g., outlier detection, missing value imputation).

3. Feature Engineering:
- Evaluate the current feature engineering process. Are there any potential features being overlooked that could improve the model’s performance?
- Recommend automated feature engineering techniques (e.g., FeatureTools, tsfresh).
- Suggest any transformations or feature generation techniques that could make the data more predictive.

4. Data Storage & Access:
- Suggest the best database or storage system for the current project (e.g., SQL, NoSQL, cloud storage).
- Recommend methods for optimizing data retrieval times (e.g., indexing, partitioning).
- Ensure that the data pipeline is scalable and can handle future data growth.

5. Data Validation:
- Recommend methods to validate incoming data in real-time to ensure quality.
- Suggest tools for automated data validation during data loading or transformation stages.

6. Automation & Monitoring:
- Recommend tools or platforms for automating the data pipeline (e.g., Apache Airflow, Prefect).
- Suggest strategies for monitoring data quality throughout the pipeline, ensuring that any anomalies are quickly detected and addressed.

7. Performance & Efficiency:
- Evaluate the computational efficiency of the pipeline. Are there any bottlenecks or areas where processing time can be reduced?
- Suggest parallelization techniques or distributed systems that could speed up the pipeline.
- Provide recommendations for optimizing memory usage and reducing latency.

8. Documentation & Collaboration:
- Ensure the pipeline is well-documented for future maintainability. Recommend best practices for documenting the pipeline and the data flow.
- Suggest collaboration tools or platforms for teams working on the pipeline to ensure smooth teamwork and version control.

📌 Что получите на выходе:
• Анализ пайплайна обработки данных: поиск проблем и предложений для улучшения
• Рекомендации по автоматизации и мониторингу: улучшение рабочих процессов с помощью инструментов автоматизации
• Рекомендации по хранению и доступу: оптимизация хранения и извлечения данных
• Оптимизация и улучшение производительности: уменьшение времени обработки данных и повышение эффективности

Библиотека дата-сайентиста #буст

2.0K views07:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека дата-сайентиста #развлекалово

1.8K views18:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

✅

How to: работать с 11 типами переменных в данных

В анализе данных и машинном обучении важно понимать, с какими типами переменных вы имеете дело — это помогает правильно интерпретировать данные, строить модели и избегать ошибок.

👇 Разберём 11 ключевых типов переменных.

➡️

Независимые и зависимые переменные:
🔵Независимые переменные (или предикторы/фичи) — это признаки, которые используются в качестве входных данных для предсказания результата.
🔵 Зависимая переменная — это результат, который предсказывается. Её также называют целевой переменной, ответом или выходной переменной.
🔵 Пример: предсказываем уровень дохода (зависимая переменная) по возрасту, образованию и стажу (независимые переменные).

➡️

Спутывающие и коррелированные переменные:
🔵 Спутывающие переменные влияют и на независимую, и на зависимую переменную, искажают причинно-следственные связи.
🔵 Коррелированные переменные могут быть связаны между собой, но это не означает наличие причинной связи.
🔵 Важно: «Корреляция ≠ причинность».
🔵 Пример: продажи мороженого и кондиционеров растут одновременно не из-за связи между ними, а из-за жары (спутывающая переменная).

➡️

Контрольные переменные:
🔵 Не являются объектом исследования, но учитываются, чтобы избежать искажения результатов.
🔵 Пример: при исследовании влияния образования на доход контролируют возраст и регион.

➡️

Латентные (скрытые) переменные:
🔵 Не наблюдаются напрямую, но влияют на данные. Выводятся опосредованно через другие признаки.
🔵 Пример: кластеры пользователей (предпочтения, поведение) — латентны, но можно выявить с помощью кластеризации.

➡️

Переменные взаимодействия:
🔵 Отражают влияние комбинации двух или более переменных.
🔵 Пример: взаимодействие плотности населения и дохода может выявить различия в потреблении по регионам.

➡️

Стационарные и нестационарные переменные:
🔵 Стационарные: статистики (среднее, дисперсия) не меняются со временем.
🔵 Нестационарные: имеют тренды, сезонность, нарушают предположения многих моделей.
🔵 Пример: цены акций — нестационарны, их нужно преобразовать перед анализом (например, логарифм, разности).

➡️

Отставшие переменные:
🔵 Переменные, которые представляют собой значения с предыдущих временных точек.
🔵 Продажи в прошлом месяце — отставшая переменная для прогноза продаж в следующем.

➡️

Утечка переменных:
🔵 Эти переменные предоставляют информацию о целевой переменной, которая была бы недоступна во время предсказания. Это приводит к чрезмерно оптимистичной производительности модели на обучающих данных, но она плохо обобщается на новые данные.
🔵 Пример: дата оформления страховки появляется в обучении, но при предсказании она ещё неизвестна.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views06:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

Please open Telegram to view this post

VIEW IN TELEGRAM

1.4K views10:42

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Фишка инструмента: топ-5 библиотек Python для EDA (разведочного анализа данных)

EDA (Exploratory Data Analysis) — это важнейший этап анализа данных, помогающий понять структуру, закономерности и аномалии в данных перед моделированием. Ниже — библиотеки, которые максимально ускоряют и упрощают этот процесс.

1️⃣

pandas\_profiling

import pandas_profiling  
report = pandas_profiling.ProfileReport(df)  
report.to_file("eda_report.html")

🟪 Генерирует полноценный HTML-отчёт по DataFrame.
🟪 Показывает распределения, корреляции, пропущенные значения, типы данных и многое другое.
🟪 Отличный способ получить обзор по данным всего за пару строк кода.

2️⃣

Sweetviz

import sweetviz  
report = sweetviz.analyze(df)  
report.show_html("sweetviz_report.html")

🟪 Создаёт красивый визуальный EDA-отчёт.
🟪 Можно сравнивать два набора данных (например, обучающую и тестовую выборки).
🟪 Очень полезен для выявления смещений и различий между выборками.

3️⃣

D-Tale

import dtale  
dtale.show(df)

🟪 Открывает DataFrame в веб-интерфейсе прямо в браузере.
🟪 Позволяет фильтровать, сортировать, строить графики и смотреть статистику без написания кода.
🟪 Идеален для быстрой визуальной разведки данных.

4️⃣

Skimpy

import skimpy  
skimpy.clean_columns(df)  
skimpy.scan(df)

🟪 Очищает названия столбцов (удаляет пробелы, приводит к удобному формату).
🟪 Показывает компактную сводку: типы, пропуски, уникальные значения и т.д.
🟪 Очень лёгкая и быстрая библиотека — минимализм и эффективность.

5️⃣

AutoViz

from autoviz.AutoViz_Class import AutoViz_Class  
AV = AutoViz_Class()  
AV.AutoViz("your_file.csv")

🟪 Автоматически определяет тип переменных и строит графики: распределения, тренды, связи между переменными.
🟪 Работает напрямую с CSV и Pandas DataFrame.
🟪 Подходит для быстрого первичного анализа без ручного выбора визуализаций.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

2.3K views07:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Азбука айтишника

🎓 Как выбрать свою роль в Data Science и не потеряться в терминах

Если вы только начинаете разбираться в Data Science — перед вами лабиринт из названий: data scientist, аналитик, ML-инженер, BI, архитектор... Кто чем занимается? Что нужно учить?

➡️

Что внутри статьи

— Кто такие Data Engineer

— Чем отличается Data Architect от инженера и зачем он нужен в big data проектах

— Чем занимаются Data Analyst и почему это отличная точка входа в карьеру

— Что делает настоящий Data Scientist

В статье разобрано всё: от задач до технологий, которые реально спрашивают на собеседованиях.

📎 Ссылка

Азбука айтишника #ликбез

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views18:37

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Только с опытом понимаешь, что что-то тут не то... 🤣

Библиотека дата-сайентиста #развлекалово

2.0K views08:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик

2.0K views12:49

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕 Свежие новости из мира AI и Data Science

🔥 Модели, релизы и технологии:
— Alibaba выпустила Qwen3 — восемь моделей с гибридным мышлением и агентными возможностями, сопоставимыми с OpenAI и xAI
— Amazon представила Nova Premier — продвинутую AI-модель, способную обучать другие
— Model2Vec — делает sentence transformers в 50 раз меньше и в 500 раз быстрее
— Google NotebookLM теперь говорит на 50+ языках — поддержка многоязычного аудио и чата
— Apache Airflow 3.0 — крупнейшее обновление популярного оркестратора

🧠 Статьи, исследования и лучшие практики:
— Backpropagation Through Time: разбор с выводами — глубокое погружение в обучение RNN
— Геометрия ландшафта потерь и «понимание» модели — визуализация и интерпретация обучения
— MLflow для исследований — как систематизировать ML-эксперименты
— Как Яндекс обучал Алису «видеть» — мультимодальный подход в реальном кейсе
— Бинарная классификация одним нейроном — личный опыт и минимализм в ML

🗣 Мнения и индустрия:
— У GPT-4o проблема с личностью — OpenAI работает над излишней лестью и согласием модели
— Китай готовит альтернативу NVIDIA — Huawei тестирует AI-чип Ascend 910D
— 30% кода Microsoft пишется ИИ — Satya Nadella рассказал о роли Copilot в разработке
— Марк Цукерберг о Llama 4 и стратегии AGI — интервью о масштабировании AI-инфраструктуры

📚 Библиотека дата-сайентиста #свежак

2.0K views12:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека задач по Data Science

2.1K views13:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Что выведет код?

Anonymous Quiz

271 voters2.0K views13:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Конкурс: 30 000 ₽ за самую смешную IT-новость

Напоминаем о конкурсе «Библиотеки программиста»: напишите самую смешную версию реальной новости про технологии.

👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.

🎁 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе

🏆 Как будем оценивать:
Мы выложим новости всех участников в одном из наших телеграм-каналов. Те новости, которые наберут больше всего охвата, войдут в шорт-лист. Из шорт-листа подписчики и жюри выберут победителя.

📅 Сроки: прием новостей до 11 мая включительно

Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8

Осталась неделя — ждем ваших новостей!

Google Docs

Конкурс на самую смешную IT-новость

Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!

Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переворачиваете её с ног на голову, чтобы смеялись…

2.0K views13:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍💻

Топ-вакансий для дата-сайентистов за неделю

Бизнес-/продуктовый аналитик в B2B-маркетплейс — от 100 000 до 180 000 ₽ net, удаленка, предпочтительная география: Урал, Поволжье и около

Продуктовый аналитик на проект Piece of Cake

AI Engineer (инженер по ИИ) data science (дата-сайентист) — от 100 000 до 200 000 ₽, гибрид (Москва)

Data Scientist в Сетку, гибрид (Москва)

BI Analytics Team Lead — от 6 600 до 7 500 €, гибрид (Кипр, Казахстан, Грузия, Сербия, ОАЭ)

Senior Data Scientist (RL), удалёнка (Москва)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views17:49

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔍 How to: выбрать важные признаки и избежать переобучения

Выбор признаков и регуляризация — ключевые методы для повышения эффективности модели и предотвращения переобучения. Вот как это можно реализовать:

1️⃣

Использование Recursive Feature Elimination (RFE)

Метод RFE помогает выбрать наиболее значимые признаки, исключая менее важные:

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
rfe = RFE(model, n_features_to_select=5)
X_rfe = rfe.fit_transform(X, y)

2️⃣

L1-регуляризация (Lasso)

L1-регуляризация помогает «занулять» незначительные признаки, что эффективно для отбора:

from sklearn.linear_model import Lasso

model = Lasso(alpha=0.1)
model.fit(X, y)

📌 Рекомендация: подбирайте оптимальное значение alpha с использованием кросс-валидации, например, через GridSearchCV.

3️⃣

Random Forest для выбора признаков

Алгоритм Random Forest вычисляет важность признаков, что позволяет отбирать наиболее значимые:

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X, y)
importances = model.feature_importances_

4️⃣

Регуляризация с Ridge (L2-регуляризация)

L2-регуляризация помогает уменьшить влияние менее значимых признаков, но не исключает их полностью:

from sklearn.linear_model import Ridge

model = Ridge(alpha=0.1)
model.fit(X, y)

5️⃣

Анализ важности признаков с помощью деревьев решений

Если вы используете алгоритмы на основе деревьев решений, важно учитывать их внутреннюю важность признаков:

from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(X, y)
importances = model.feature_importances_

📌 Рекомендация: рассмотрите возможность комбинированного использования методов Lasso и RFE для более агрессивного отбора признаков, что может быть полезно, если ваш набор данных содержит множество признаков.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views07:27

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📌 Какой вектор лучше: Dense vs Multi-vector embeddings

Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.

📍

Dense-векторы (single vector per doc):
— быстрые
— экономные по памяти
— слабо улавливают контекст
— «плавают» при сложных запросах
👉 подходят для простого поиска

📍

Multi-vector (late interaction):
— вектор на каждый токен
— сравниваются токены запроса и документа напрямую
— лучше качество на сложных задачах
— выше требования к хранилищу
👉 баланс между скоростью и точностью

📍

Late interaction ≈ золотая середина:
— быстрее, чем cross-encoders
— точнее, чем dense-векторы

📍

Примеры моделей:
— ColBERT — для текстов
— ColPali — multimodal: текст + PDF как картинки
— ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)

Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views17:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✅

Команда дня: pipe

Сегодня делимся полезной фишкой из библиотеки pandas — метод .pipe() для создания чистых и читаемых цепочек обработки данных.

import pandas as pd

# Пример: очистка и преобразование данных в одну цепочку
def clean_data(df):
    return df.dropna().reset_index(drop=True)

def add_age_group(df):
    df['age_group'] = pd.cut(df['age'], bins=[0, 18, 35, 60, 100], labels=['Kid', 'Young', 'Adult', 'Senior'])
    return df

# Используем pipe для последовательной обработки
df = (pd.read_csv('data.csv')
      .pipe(clean_data)
      .pipe(add_age_group))

Зачем это нужно:

🎌

.pipe() позволяет организовать преобразования данных в логическую цепочку, улучшая читаемость кода
🎌 Удобно для сложных ETL-процессов (Extract, Transform, Load)
🎌 Легко добавлять новые шаги обработки

Пример в деле:

def normalize_column(df, col):
    df[col] = (df[col] - df[col].mean()) / df[col].std()
    return df

df = (pd.DataFrame({'value': [10, 20, 30, 40]})
      .pipe(normalize_column, col='value'))

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

2.2K views07:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

Accuracy 99.9% 😆

Библиотека дата-сайентиста #развлекалово

2.4K views17:56

2025/07/07 07:57:59
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>