Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6403

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

💻

Как ускорить выполнение запросов к базе данных в Django

Когда Django-запросы вытягивают из базы больше данных, чем нужно, это тормозит работу приложения. Чтобы ускорить выполнение и уменьшить нагрузку, можно использовать методы:

〰️

defer() — откладывает загрузку указанных полей до их фактического использования

〰️

only() — загружает только указанные поля, остальные — по запросу

〰️

exclude() — фильтрует объекты, исключая ненужные

В статье — практические примеры на базе веб-приложения для агентства недвижимости: как применять эти методы, чтобы получать только нужные данные и ускорять запросы.

🔗 Подробнее в статье: https://proglib.io/sh/2vagPRorTU

Библиотека питониста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🔥1🤔1

1.77K views18:36

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔

Как понять, что нейросеть переобучилась — без доступа к данным

С помощью weightwatcher — open-source библиотеки на Python — можно проанализировать обученные модели глубокого обучения и выявить:
🎌 переобучение
🎌 переусложнённые слои
🎌 другие потенциальные проблемы

И всё это без тренировочных или тестовых данных — анализ идёт напрямую по весам модели.

✅ Полезный инструмент для аудита, особенно если доступ к данным ограничен.

Пример использования weightwatcher для анализа модели:

import weightwatcher as ww
import torchvision.models as models

# Загружаем предобученную модель
model = models.vgg19_bn(pretrained=True)

# Запускаем анализ
watcher = ww.WeightWatcher(model=model)
details = watcher.analyze()

# Получаем краткое резюме
summary = watcher.get_summary(details)

🔗 Ссылка на репозиторий: https://clc.to/ih8VVw

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤2⚡1🔥1

2K viewsedited 06:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Периодическая таблица машинного обучения от MIT

В MIT создали структуру, объединяющую 20+ классических алгоритмов машинного обучения в единую таблицу — как периодическую таблицу Менделеева, но для ИИ. Она показывает, как связаны между собой разные подходы, и даже указывает на пробелы, где ещё можно открыть что-то новое.

🔍 Ключевая идея: большинство алгоритмов обучаются находить связи между точками данных. Авторы вывели одно общее уравнение, на котором строятся десятки методов — от кластеризации до современных LLM.

Что в этом крутого:
— Объединяет более 20 ML-алгоритмов через общую математическую структуру
— Позволяет комбинировать подходы и получать более мощные модели
— Уже дал новый алгоритм для кластеризации изображений, который на 8% лучше SOTA
— Делает поиск и разработку новых методов системным, а не случайным

💬 Как говорят авторы:

«Мы начали видеть машинное обучение как пространство, которое можно исследовать, а не просто гадать».

📌 Подробнее: https://clc.to/cp6Gig

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤2⚡2👍2

2.07K views11:49

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Каждый раз, когда выходит новая модель 🤣

Библиотека дата-сайентиста #развлекалово

😁16👍4

1.83K views17:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💡 Что посмотреть: топ-3 курса для дата-сайентистов

1️⃣

Numpy For Machine Learning — освоение основ работы с массивами и математическими операциями в Python для анализа данных.

2️⃣

Scikit-Learn Tutorials - Master Machine Learning — подробное руководство по машинному обучению с использованием одного из самых популярных Python-библиотек.

3️⃣

Pandas For Machine Learning — курс по обработке и анализу данных с помощью Pandas, ключевого инструмента для работы с данными.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🙏3❤1🔥1

2.08K views06:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека джависта | Java, Spring, Maven, Hibernate

📈 Как «ленивая разработка» захватывает IT-рынок

Пока мы выстраиваем архитектуру, пишем тесты и спорим о лучших практиках, рынок всё активнее обживают те, кто вообще не пишет код. Low-code и no-code решения не просто живы — они становятся нормой для бизнеса.

Порог входа минимальный, скорость разработки — бешеная, а заказчику всё равно, написано ли это на Java или накликано в визуальном редакторе. Вопрос: как долго останется актуальной классическая разработка?

🔗 Подробнее в статье

🐸

Библиотека джависта

Please open Telegram to view this post

VIEW IN TELEGRAM

🥱4👍2❤1

1.78K views10:20

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕 Свежий релиз PyTorch 2.7

Новая версия PyTorch 2.7 приносит множество улучшений:
— Поддержка GPU-архитектуры NVIDIA Blackwell и сборки с CUDA 12.8 (Linux x86 и arm64)
— torch.compile теперь поддерживает Torch Function Modes, можно переопределять любые операции torch.** под себя
— Mega Cache — переносимое end-to-end кэширование для torch
— Обновления FlexAttention

👉 Начать работу с PyTorch 2.7: https://clc.to/hZMHDQ

Библиотека дата-сайентиста #свежак

❤3🔥3👍2

1.93K viewsedited 14:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❓

Вопросы подписчиков: как запомнить детали ML-алгоритмов для собеседований?

Сегодня делимся вопросом от нашего подписчика, который готовится к собеседованию на позицию в топовую компанию.

💬 Вот что он пишет:

«Я сейчас готовлюсь к собеседованиям, но сталкиваюсь с проблемой в технических раундах по ML. Изучаю ISLR, делаю заметки, но не могу эффективно запомнить все детали алгоритмов. Прошло много времени с тех пор, как я углубленно изучал алгоритмы машинного обучения в университете. Как мне лучше готовиться к собеседованиям по ML, чтобы уверенно отвечать на вопросы? Как укрепить знания и эффективно запомнить алгоритмы?»

➡️ Какие у вас есть стратегии для запоминания алгоритмов и концепций ML?

➡️ Как закрепить материал и не перегрузиться?

💡 Поделитесь советами и личным опытом в комментариях!
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2🔥2

1.95K viewsedited 17:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🛠 Команда дня: ускоряем динамический инференс

▶️ Проблема: у модели меняется размер входов — обычно это мешает трассировке и оптимизации.

✅ Решение: torch.jit.trace умеет кэшировать разные формы входов. TorchScript сохраняет шаблоны и переиспользует их, ускоряя инференс без потерь гибкости.

Пример:

import torch
from torch import nn

# Простая нейросеть
model = nn.Sequential(
    nn.Linear(128, 64),
    nn.ReLU(),
    nn.Linear(64, 10)
)

# Пример входа для трассировки
example_input = torch.randn(1, 128)

# Трассировка модели — включаем TorchScript
traced_model = torch.jit.trace(model, example_input)

# Первый вызов с новым размером — форма кэшируется
output1 = traced_model(torch.randn(32, 128))

# Второй вызов с такой же формой — используется кэш
output2 = traced_model(torch.randn(32, 128))

# Новый батч — снова кэшируется
output3 = traced_model(torch.randn(64, 128))

➡️

Что это даёт:
• Ускорение инференса за счёт shape specialization
• Гибкость — не нужно фиксировать размер входа
• TorchScript автоматически переиспользует кэш при повторении формы

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2⚡1👏1

1.78K viewsedited 07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека программиста | программирование, кодинг, разработка

🧠⚡️👟 Странные, но эффективные лайфхаки для продуктивности

Иногда самые действенные способы повысить продуктивность звучат как полный бред. Но это работает! Пользователи Reddit делятся своими «тупо-звучащими-но-реально-помогающими» секретами, которые помогут тебе наконец-то перестать прокрастинировать и начать делать дела.

ТОП-советы от пользователей Reddit — в нашей статье.

🐸

Библиотека программиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

1.71K views10:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐶

Лучшие материалы по Data Science в одной подборке

Собрали топовые материалы, которые наши подписчики сохраняют чаще всего.

Эту подборку мы будем регулярно пополнять, поэтому сохраняйте тонну пользы, чтобы не потерять!

1. 25 самых важных математических определений в Data Science

2. Machine Learning Crash Course — бесплатный курс от Google обновился

3. SQL для дата-сайентиста за 6 недель

4. PandasAI — библиотека для исследования данных с помощью естественного языка

5. Какие навыки нужны Data Scientist'у и как их освоить

6. Ликбез по теореме Байеса

7. Подробный гайд по описательной статистике

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

2.28K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека дата-сайентиста #развлекалово

😁8💯2

2.04K views08:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Холивар: Jupyter Notebook — «мертв» или «живее всех живых»?

С каждым годом всё больше говорят, что Jupyter — «игрушка для новичков», «ад для reproducibility», «debug невозможен», и ему нет места в продакшне. Но с другой стороны — это удобство, интерактивность и быстрое прототипирование.

😡 Одна из проблем, с которой сталкиваются многие — это слияние ноутбуков и git-конфликты, которые могут превращать работу в настоящий кошмар. Если вам это знакомо, значит, вы просто ещё не попробовали nbdime.

Это набор утилит, которые делают сравнение и слияние ноутбуков человеческим:
• nbdiff — сравнение ноутбуков прямо в терминале
• nbdiff-web — визуальное сравнение с рендером ячеек
• nbmerge — трёхсторонний merge с автоматическим разрешением конфликтов
• nbmerge-web — тот же merge, но в браузере
• nbshow — удобный просмотр ноутбука в консоли

📌 Если до этого вы просто коммитили .ipynb «как получится» — попробуйте, это может изменить ваше мнение о Jupyter.

А теперь по-честному: используете ли Jupyter в 2025?
Давайте обсужим в комментариях!

⤵️

Инструкция о том, как оставить комментарий: https://www.tg-me.com/dsproglib/6244

❤️ — Без Jupyter не обойтись, он мой главный инструмент
👍 — Ушёл на другие решения, Jupyter — это прошлый век
🤔 — Не могу выбрать, использую и Jupyter, и другие инструменты

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤30🤔9👍3

2.21K views12:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕 Свежие новости из мира AI и Data Science

🔥 Модели, релизы и технологии:
— Scikit-learn, UMAP и HDBSCAN теперь работают на GPU — ускорение без единой строчки изменений в коде
— Свежий релиз PyTorch 2.7 — новые возможности для оптимизации, работы с графами и улучшения API
— Периодическая таблица машинного обучения от MIT — удобная визуализация ключевых алгоритмов и методов

🧠 Статьи, исследования и лучшие практики:
— Как в Авито предсказывают категории объявлений по описанию — разбор ML-решений в реальном продукте
— Mixture of Experts: когда нейросеть учится делегировать — о динамическом распределении задач между частями модели
— Организация датасетов с ClearML — практическое руководство для ML-команд
— Пайплайн распознавания номеров транспортных средств: как это устроено — кейс от МТС о построении полного конвейера

👍 Cоветы:
— Как перестать кидать Jupyter-ноутбуки по почте — гид по эффективной коллаборации с данными и моделями

Библиотека дата-сайентиста #свежак

❤2

2.26K views12:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

2.12K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

213 voters2.07K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍💻

Топ-вакансий для дата-сайентистов за неделю

Power BI разработчик — от 125 000 ₽, удалёнка

Data Engineer — от 350 000 до‍ 440 000 ₽, удалёнка

TL Data Scientist — до 459 000 ₽, удалёнка

Senior Data Analyst, удалёнка

Senior Data Scientist (Rec. System), удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

2.24K views10:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Вышел Apache Airflow 3.0 — крупнейшее обновление за последнее время

После месяцев активной работы сообщества мир увидел релиз Apache Airflow 3.0 — важный шаг вперёд для оркестрации данных.

Что нового:
➡️ Сервисно-ориентированная архитектура — разворачивайте только нужные компоненты, без монолита.
➡️ Планирование на основе данных — теперь можно нативно определять и отслеживать объекты данных.
➡️ Событийное управление — запускайте DAG-и не только по расписанию, но и в ответ на события.
➡️ Версионирование DAG-ов — история выполнения сохраняется даже при изменении кода.
➡️ Новый UI на React — современный, удобный, полностью переработанный веб-интерфейс.

👉 Подробнее: https://clc.to/1KZxhQ

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤5👍2

2.72K views18:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔍

Datacompy — библиотека для быстрого сравнения DataFrame'ов

Datacompy — мощная Python-библиотека для валидации и сравнения данных.
Идеально подходит для работы с Pandas, Polars и Spark.

Что умеет:
🟠 Сравнивает строки и столбцы между DataFrame'ами
🟠 Генерирует подробные отчёты о различиях
🟠 Гибкая настройка: ключи сравнения, допуски, регистр

Преимущества:
🟠 Лёгкая интеграция в пайплайны и тесты
🟠 Подходит для больших данных и распределённых вычислений
🟠 Контроль качества данных в ETL и миграциях

➡️

Подробнее: https://clc.to/6ZBRkA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍1🔥1

2.09K viewsedited 06:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 IT Breaking Memes — 30 000 ₽ за самую смешную IT-новость

Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!

👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.

🏆 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе

Пример:
Реальная новость: «Гугл создала модель для общения с дельфинами».

Смешная альтернатива: «Нейросеть от Гугл обрабатывает видеопоток с камеры в свинарнике. ИИ следит, сколько свинья находится возле кормушки, не отталкивают ли ее собратья. Недокормленных докармливают, а переевшие пропускают следующую кормешку».

📅 Сроки: с 29 апреля по 11 мая включительно

Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8

Ждем ваших новостей!

👍2

2.05K views13:01

2025/07/08 13:31:16
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>