Big Data Science [RU] 704

Big Data Science [RU]

🚀🐝Распределенность Hive vs. распределенность Spark: преимущества и недостатки

Apache Hive и Apache Spark – два мощных инструмента для работы с большими данными, но их распределенность реализована по-разному.

🔹 Hive: SQL-интерфейс для Hadoop
Преимущества:
✅ Поддержка огромных объемов данных за счет хранения в HDFS
✅ Интуитивно понятный SQL-подобный язык (HiveQL)
✅ Хорош для пакетной обработки (Batch Processing)

Недостатки:
❌ Высокая задержка выполнения запросов (использует MapReduce/Tez)
❌ Медленная обработка в сравнении со Spark
❌ Ограниченные возможности для потоковой обработки данных

🔹 Spark: быстрая распределенная обработка
Преимущества:
✅ In-memory вычисления → высокая скорость
✅ Поддержка потоковой обработки (Structured Streaming)
✅ Гибкость: работает с HDFS, S3, Cassandra, JDBC и др.

Недостатки:
❌ Требует больше оперативной памяти
❌ Сложнее в администрировании
❌ Не всегда эффективен при обработке огромных объемов архивных данных

💡 Вывод:
Hive – для сложных SQL-запросов и пакетной обработки, Spark – для высокоскоростной аналитики и потоковой обработки данных.

523 views15:59

Big Data Science [RU]

🗂VAST Data меняет правила игры в хранении данных

Как считает автор статьи, VAST Data делает важный шаг к созданию универсальной платформы для хранения данных, добавляя поддержку блочного хранения и встроенную обработку событий.

✅ Блочное хранилище теперь объединяет все основные протоколы (файлы, объекты, таблицы, потоки данных), устраняя необходимость в разрозненной инфраструктуре. Это означает единое, мощное и экономичное решение для компаний, работающих с AI и аналитикой.

✅ VAST Event Broker заменяет сложные event-системы, такие как Kafka, встроенной потоковой обработкой данных. Теперь AI и аналитика могут получать события в реальном времени без дополнительного ПО.

🚀 Основные особенности :
✅ Ускорение AI-аналитики благодаря мгновенной передаче данных
✅ Полная совместимость с MySQL, PostgreSQL, Oracle и облачными сервисами
✅ Масштабируемая архитектура без компромиссов в производительности

🔎Подробнее тут

Database Trends and Applications

VAST DataStore Becomes Universal, Multiprotocol Storage Platform with Block Storage and Event-Processing

VAST Data, the AI data platform company, is announcing two significant advancements for the VAST Data Platform, unveiling Block storage functionality for the VAST DataStore, as well as the new VAST Event Broker. These latest capabilities aim to better accommodate…

531 views16:00

Big Data Science [RU]

У вас есть датафрейм с пропущенными значениями в случайных местах. Какой способ обработки данных наиболее устойчив для вас?

Anonymous Poll

41%

Заполнение медианой для числовых и модой для категориальных признаков

22%

Удаление всех строк с пропущенными значениями

20%

Интерполяция по линейной регрессии на основе других признаков

17%

Заполнение средним значением для числовых и "Unknown" для категориальных

🤔2

76 voters541 views16:01

Big Data Science [RU]

🌎ТОП мартовских ивентов в Data Science
1-16 марта - Kryptonite ML Challenge – Онлайн - https://kryptonite-ml.ru/
2 марта - Data Science Meetup – Новосибирск, Россия - https://koronatech.ru/events/200/
4 марта - T-Meetup: AI в SWE – Москва, Россия - https://meetup.tbank.ru/event/t-meetup-ai-v-swe/
6 марта - Okko Tech Team митап. Tech Mix: AI, SPRING & SAFE CODE - Санкт-Петербург, Россия - https://okkomeetup.timepad.ru/event/3231462/
6 марта - Backend Odyssey - Москва, Россия - https://x5-tech-event.timepad.ru/event/3239510/
18 марта - ML Party 2025 - Санкт-Петербург, Россия - https://events.yandex.ru/events/ml-party-18-03-2025/index
27 марта - DATA+AI 2025 – Москва, Россия - https://www.osp.ru/lp/data-ai2025

kryptonite-ml.ru

Kryptonite ML Challenge

Победи DeepFake! Участвуй в Kryptonite ML Challenge и создай DeepFake-устойчивую Face ID-модель

547 views16:00

Big Data Science [RU]

🐼 Pandas устарел, FireDucks предлагает замену без переписывания кода

Pandas — самая популярная библиотека для обработки данных, но она давно страдает от низкой скорости. Современные альтернативы, такие как Polars, значительно её превосходят, но переход на новые фреймворки требует изучения нового API, что останавливает многих разработчиков.

🔥 FireDucks решает эту проблему, предлагая полную совместимость с Pandas, но с многопоточной обработкой и ускорением компилятора. Всё, что нужно для перехода — изменить одну строку:

import fireducks.pandas as pd

FireDucks быстрее Pandas и Polars, что подтверждается бенчмарками:

🔗 GitHub-репозиторий FireDucks: https://github.com/fireducks-dev/fireducks
🔗 Сравнение с Polars и Pandas: https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb
🔗 Подробные бенчмарки: https://fireducks-dev.github.io/docs/benchmarks/

👍9

854 views15:59

Big Data Science [RU]

🎲 Условная вероятность: как обновлять знания с появлением новых данных

Когда мы получаем новую информацию, наши представления о вероятностях событий меняются. Это фундаментальный принцип условной вероятности, который применяется в машинном обучении, медицине, финансах и других областях.

💡 Простые примеры:
🔹 Шанс вытянуть короля из колоды – 4/52. Если известно, что карта — картинка, вероятность повышается до 4/12.
🔹 Вероятность выпадения 6 на кубике — 1/6. Если сказано, что выпало четное число, шанс уже 1/3.

💡 Практическое применение:
✅ Медицина: анализ точности тестов (чувствительность, специфичность, ложноположительные результаты).
✅ Финансы: оценка риска падения рынка, вероятность дефолта заемщика.
✅ Машинное обучение: фильтрация спама, диагностика заболеваний, кредитный скоринг.

📌 Байесовская теорема помогает обновлять вероятности по мере поступления новых данных. Например, положительный тест на редкое заболевание не всегда означает, что пациент болен – вероятность зависит от распространенности болезни и точности теста.

Подробнее об этом читайте в статье: 👉 Conditional Probability

Datacamp

Conditional Probability: A Close Look

Conditional probability is the likelihood of an event occurring given another has happened, found by dividing the joint probability by the event's probability.

👍3

563 views15:58

Big Data Science [RU]

🔥Everything to Markdown (E2M): всё в Markdown за секунды!

Если нужно быстро и качественно преобразовать файлы разных форматов в Markdown, обратите внимание на Everything to Markdown (E2M) — Python-библиотеку, которая делает это автоматически!

📌 Что умеет E2M?
E2M поддерживает конвертацию множества форматов:
✅ Текстовые документы: doc, docx, epub
✅ Веб-страницы: html, htm, url
✅ Презентации и PDF: ppt, pptx, pdf
✅ Аудиофайлы: mp3, m4a (распознавание речи)

🤔 Как это работает?
Процесс конвертации строится на двух ключевых модулях:
🔹 Парсер — извлекает текст и изображения из файлов.
🔹 Конвертер — преобразует их в Markdown.

🎯 Зачем это нужно?
Главная цель E2M — создание текстовых данных для:
🚀 Retrieval-Augmented Generation (RAG)
🤖 Обучения и дообучения языковых моделей
📚 Создания удобной документации

💡 Почему это удобно?
E2M автоматизирует рутинную работу, позволяя быстро структурировать данные, а Markdown — это универсальный формат, который легко интегрировать в любые системы.

😁1

594 views15:58

Big Data Science [RU]

Вы обучили модель и получили AUC-ROC = 0.95. Что бы вы предпочли сделать для проверки качества работы модели?

Anonymous Poll

14%

Проверить стабильность метрики на кросс-валидации

27%

Оценить Precision-Recall для несбалансированных классов

41%

Провести тестирование на отложенной выборке, не использовавшейся при обучении

18%

Проверить, нет ли утечки данных между обучением и тестированием

127 voters473 views15:59

Big Data Science [RU]

📊 Apache Iceberg vs Delta Lake vs Hudi: Какой формат выбрать для AI/ML?

Если вы работаете с машинным обучением (ML) или аналитикой, выбор правильного формата хранения данных может значительно повлиять на скорость, масштабируемость и удобство работы с данными.

🔥 Почему важен выбор формата?
Традиционные data lakes сталкиваются с проблемами:
🚧 Нет ACID-транзакций – возможны конфликты при чтении/записи
📉 Нет версии данных – сложно отслеживать изменения
🐢 Медленные запросы – обработка больших объемов данных тормозит аналитику

💡Apache Iceberg – лучший выбор для аналитики и batch-процессов

📌 Когда использовать?
✅ Если вы обрабатываете исторические данные
✅ Если нужны оптимизация запросов и гибкое управление схемами
✅ Если важна поддержка batch-процессов

📌 Преимущества
✅ ACID-транзакции с изоляцией снапшотов (snapshot isolation)
✅ Time travel – возможность восстанавливать старые версии данных
✅ Скрытое разбиение (hidden partitioning) ускоряет запросы
✅ Поддержка Spark, Flink, Trino, Presto

📌 Где применять?
🔸 Анализ больших данных (BI, аналитика трендов)
🔸 Хранение данных для последующего обучения ML-моделей
🔸 Фиксация данных для аудита или отката

💡Delta Lake – лучший для потоковой обработки и AI/ML

📌 Когда использовать?
✅ Если нужны потоковые данные для ML
✅ Если важны реальные ACID-транзакции
✅ Если используете Apache Spark

📌 Преимущества
✅ Глубокая интеграция с Apache Spark
✅ Инкрементальная обработка данных (не перезаписывает весь датасет)
✅ Z-Ordering – кластеризация схожих данных для ускорения запросов
✅ Time travel – откат и восстановление данных

📌 Где применять?
🔹 ML-пайплайны в реальном времени (анализ транзакций, предсказательная аналитика)
🔹 ETL-процессы
🔹 Обработка данных из IoT-устройств, логов

💡Apache Hudi – лучший для real-time обновлений

📌 Когда использовать?
✅ Если нужен быстрый real-time анализ
✅ Если важна частая актуализация данных
✅ Если работаете с Apache Flink, Spark или Kafka

📌 Преимущества
✅ ACID-транзакции и контроль версий данных
✅ Merge-on-Read (MoR) – возможность читать обновленные данные без полной перезаписи
✅ Оптимизирован для real-time ML (фрод-анализ, рекомендательные системы)
✅ Работа с микробатчами и потоковой обработкой

📌 Где применять?
🔸 Фрод-мониторинг и антифрод (банковские транзакции, безопасность)
🔸 Рекомендательные системы (e-commerce, потоковое видео)
🔸 AdTech (реклама, аукционы)

🤔 Какой формат выбрать для AI/ML?

✅ Iceberg – если работаете с большими историческими данными и BI-аналитикой
✅ Delta Lake – если важны AI/ML, потоковая обработка и Apache Spark
✅ Hudi – если нужны частые обновления и real-time ML (фрод, рекомендательные системы, реклама)

🔗 Полный разбор читайте здесь

delta.io

Home

👍1

443 views15:59

Big Data Science [RU]

🛠Очередная подборка инструментов для работы, хранения и анализа данных

DrawDB - это система управления базами данных, ориентированная на визуализацию и моделирование данных. Она предоставляет графический интерфейс для создания и работы с базами данных, что делает процесс проектирования и взаимодействия с данными более интуитивно понятным. Это особенно полезно для разработчиков, которым нужно быстро создать или визуализировать структуру базы данных, не углубляясь в сложные SQL-запросы.

Hector RAG - это фреймворк для создания систем генерации текста с дополнением извлеченной информацией (Retrieval Augmented Generation, RAG), построенный на базе PostgreSQL. Он предлагает расширенные методы поиска и объединения данных, что позволяет разрабатывать AI-приложения с улучшенной способностью обрабатывать и генерировать текст, основанный на извлеченной информации. Этот фреймворк помогает интегрировать поисковые и генеративные модели, улучшая производительность и точность ответов.

ERD Lab - это бесплатный онлайн-инструмент для профессионального проектирования и визуализации баз данных с использованием диаграмм "сущность-связь" (ERD). Он позволяет пользователям импортировать существующие SQL-скрипты или создавать новые базы данных без необходимости писать код, что значительно упрощает процесс разработки и документирования структур данных. Этот инструмент идеален для разработки, визуализации и управления базами данных без необходимости глубоких знаний в области программирования.

SuperMassive - это распределенная, масштабируемая, устойчивая к сбоям и самовосстанавливающаяся база данных ключ-значение, работающая в оперативной памяти. Она предназначена для обработки больших объемов критически важных данных с низкой задержкой, что делает ее идеальной для приложений, требующих высокой производительности и отказоустойчивости. База данных разработана для работы с большими объемами данных, обеспечивая быстрый доступ и надежность.

Smallpond - это легковесный фреймворк для обработки данных, разработанный на основе DuckDB и 3FS. Он обеспечивает высокопроизводительную обработку данных и масштабируемость для работы с наборами данных петабайтного масштаба. Фреймворк упрощает операции, не требуя длительно работающих сервисов, что делает его идеальным для эффективной работы с большими данными без сложных инфраструктурных настроек.

ingestr — это инструмент командной строки для копирования данных между различными базами данных с помощью одной команды. Он поддерживает множество источников и пунктов назначения, включая Postgres, BigQuery, Snowflake, Redshift, Databricks, DuckDB, Microsoft SQL Server и другие. ngestr позволяет выполнять как полное обновление данных, так и инкрементальную загрузку с использованием стратегий append, merge или delete+insert. Установка осуществляется через пакетный менеджер pip, а использование не требует написания кода — достаточно указать необходимые параметры в командной строке.

GitHub

GitHub - drawdb-io/drawdb: Free, simple, and intuitive online database diagram editor and SQL generator.

Free, simple, and intuitive online database diagram editor and SQL generator. - drawdb-io/drawdb

❤1

477 views15:59

Big Data Science [RU]

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

💡Как легко освоить SQL: сайт для тренировки навыков

Если хочешь прокачать свои навыки SQL на реальных примерах, этот сайт — отличный выбор!

🔹 Формат: Задачи решаются через базу данных больницы, что приближает их к реальным сценариям использования SQL.
🔹 Разные уровни сложности: Можно начать с простых SELECT-запросов и постепенно перейти к сложным задачам, включая джойны, подзапросы, оконные функции и оптимизацию запросов.
🔹 Практическая польза: Такой формат особенно полезен для специалистов в сфере медицины и аналитики данных, а также для разработчиков, работающих с медицинскими системами.
🔹 Идеально для подготовки: Подойдет для подготовки к собеседованиям, сертификациям или просто для улучшения своих навыков.

Этот ресурс поможет тебе не только освоить SQL, но и понять, как эффективно работать с данными в медицинском контексте

481 views15:59

Big Data Science [RU]

📚 Обзор книги "Apache Pulsar в действии"

Автор: Дэвид Хьеррумгор

"Apache Pulsar в действии" — это практическое руководство по использованию Apache Pulsar, мощной платформы для потоковой передачи сообщений и обработки данных в реальном времени. Книга ориентирована на опытных Java-разработчиков, но содержит примеры на Python, что делает её полезной и для специалистов с другим техническим бэкграундом.

🔍 О чём книга?
Автор подробно рассматривает архитектуру Apache Pulsar, объясняя его ключевые преимущества по сравнению с другими системами обмена сообщениями, такими как Kafka и RabbitMQ. Он выделяет такие особенности, как:
🔹 Поддержка нескольких протоколов (MQTT, AMQP, двоичный протокол Kafka).
🔹 Высокая отказоустойчивость и масштабируемость в облачных средах.
🔹 Фреймворк Pulsar Functions, который позволяет разрабатывать микросервисные приложения.

💡 Для кого эта книга?
📌 Разработчики микросервисов – смогут глубже понять интеграцию Pulsar в свои системы.
📌 DevOps-инженеры – получат руководство по развёртыванию и мониторингу Apache Pulsar.
📌 Специалисты по обработке данных – найдут полезные техники для стриминговой аналитики.

📌 Плюсы и минусы
✅ Детальное руководство по разработке и архитектуре Apache Pulsar.
✅ Практическая направленность, примеры кода на Java и Python.
✅ Подходит для разработчиков разного уровня.
❌ Мало примеров из реальных проектов, что может затруднить адаптацию Pulsar под конкретные бизнес-кейсы.

🏆 Вывод
"Apache Pulsar в действии" — полезная книга для тех, кто хочет глубже разобраться в потоковой обработке данных и научиться эффективно использовать Apache Pulsar. Несмотря на нехватку кейсов из реальной индустрии, она остаётся отличным практическим руководством, которое поможет освоить масштабируемые распределённые системы.

579 views15:59

Big Data Science [RU]

📕 Think Stats — лучшее бесплатное руководство по статистике для Python-разработчиков

Think Stats — это уникальная книга, которая предлагает практический подход к изучению статистики и теории вероятностей для специалистов, работающих с Python. В отличие от традиционных учебников, эта книга сразу погружает в код, помогая освоить статистические методы через реальные данные и практические задачи.

🔍 Чем Think Stats отличается от других книг по статистике?
✅ Практический фокус – минимум сложной математики, максимум реальных примеров.
✅ Полная интеграция с Python – все главы оформлены в виде Jupyter Notebook, где можно запускать код и сразу видеть результаты.
✅ Применение на реальных данных – используется анализ демографической информации, медицинских исследований, данных из соцсетей и других источников.
✅ Фокус на Data Science – обучение построено вокруг задач, которые полезны аналитикам, разработчикам и дата-сайентистам.
✅ Легко читается – материал подаётся понятным языком, что делает его доступным даже для тех, кто только начинает осваивать статистику.

📚 Что внутри?
🔹 Основные концепции статистики и вероятности в контексте программирования.
🔹 Методы работы с данными: чистка, обработка, визуализация.
🔹 Изучение распределений: нормальное, биномиальное, пуассоновское и другие.
🔹 Оценка параметров, доверительные интервалы и проверка статистических гипотез.
🔹 Методы байесовского анализа, которые находят всё большее применение в Data Science.
🔹 Введение в регрессионный анализ, прогнозирование и статистическое моделирование.

🎯 Для кого эта книга?
✅ Python-разработчиков, которые хотят освоить статистику через код.
✅ Датасаентистов и аналитиков, которым нужны прикладные знания для работы с данными.
✅ Студентов и самоучек, которые хотят понять, как применять статистику в реальных проектах.
✅ Разработчиков ML-моделей, которым важно разбираться в методах обработки данных.

🤔 Почему стоит изучить Think Stats?
📌 Это не просто теория, а применимая на практике статистика, которую можно сразу внедрять в свои проекты.
📌 Книга бесплатная и распространяется под лицензией Creative Commons, так что её можно свободно скачивать, копировать и распространять.
📌 Весь код можно запустить онлайн в Jupyter Notebook, что упрощает обучение.

Таким образом, Think Stats – отличный ресурс, который поможет быстро освоить ключевые концепции и начать применять их на практике

💻Github

GitHub

GitHub - AllenDowney/ThinkStats: Notebooks for the third edition of Think Stats

Notebooks for the third edition of Think Stats. Contribute to AllenDowney/ThinkStats development by creating an account on GitHub.

👍1

481 views15:59

Big Data Science [RU]

🤔🗂 Google Research разработала метод генерации синтетических данных с защитой приватности

Google Research в своей статье Generating synthetic data with differentially private LLM inference предложила новый подход к генерации синтетических данных, используя дифференциально приватный вывод LLM. Этот метод позволяет гарантировать защиту исходных данных, исключая утечки информации, при этом сохраняя их полезные статистические свойства.

🔍 Как работает метод?
Во время генерации текста к распределениям токенов в LLM добавляется шум (например, механизм Гаусса). Это исключает возможность восстановления исходных данных, так как наличие или отсутствие отдельных примеров в обучающем датасете не влияет на результат.

🧐Параметры ε (эпсилон) и δ (дельта) регулируют уровень приватности:
🔹 Чем меньше ε, тем выше защита, но качество текста может ухудшаться.
🔹 Например, ε = 1–5 считается безопасным балансом между приватностью и качеством данных.

🚀 Ключевые механизмы защиты
✅ Добавление шума к логам вероятностей модели перед выбором токена.
✅ Усечение градиентов при обучении модели, чтобы ограничить влияние отдельных примеров.
✅ Группировка запросов к модели, чтобы минимизировать утечки через множественные обращения.

📊 Результаты тестирования
🔹 Синтетические данные сохраняют практическую применимость – их можно использовать для обучения downstream-моделей.
🔹 Формальная защита приватности гарантирована (ε < 5) без значительного ухудшения качества.

🛠 Где можно применять?
💡 Обучение моделей на конфиденциальных данных (например, в медицине и финансах).
💡 Тестирование алгоритмов без доступа к реальным данным.
💡 Совместное использование данных между организациями, исключая утечки.

⚖️ Плюсы и минусы
✅ Приватность без потери функциональности – защита данных без значительного ухудшения результатов.
✅ Этичное использование LLM в чувствительных доменах.
❌ Компромисс между качеством и приватностью – чем выше защита, тем сложнее сохранить естественность текста.
❌ Дополнительные вычислительные затраты – генерация занимает больше времени из-за проверки приватности.

🤖 Вывод
Этот подход открывает новые возможности для работы с конфиденциальными данными, сохраняя баланс между безопасностью и практической полезностью. Google Research делает важный шаг в направлении этичного использования ИИ, что может изменить принципы работы с персональными и корпоративными данными

research.google

Generating synthetic data with differentially private LLM inference

❤1🤔1

517 views15:59

Big Data Science [RU]

Какой метод компрессии данных вами более предпочтителен для хранения больших массивов числовых данных?

Anonymous Poll

63%

Использование колонкового формата хранения (Parquet)

Применение алгоритмов Snappy или LZ4

13%

Использование delta-кодирования и RLE-сжатия

15%

Комбинация ZSTD и dictionary encoding

46 voters494 views15:59

Big Data Science [RU]

🌎ТОП апрельских ивентов в Data Science
1 апреля - Хакатон БЕЗУМhack – Москва, Россия - https://bezumci.wtf/hack/
1-3 апреля - Business Technology Expo – Астана, Казахстан - https://btexpo.kz/
1-4 апреля - MosBuild 2025 – Москва, Россия - https://mosbuild.com/
2 апреля - ИИ как ETL – Онлайн - https://my.mts-link.ru/j/52054453/911458558
2-3 апреля - AiHUB Study 2025 – Онлайн - https://aihub.study/
3 апреля - Big Data и AI Day 2025 – Москва, Россия - https://conferos.ru/event/big_data_i_ai_day_2025
3 апреля - Создание Telegram-бота на базе LLM с RAG и Function Calling – Онлайн - https://yandex.cloud/ru/events/1117
5 апреля - T-Meetup: CV & Speech – Москва, Россия - https://meetup.tbank.ru/conference/ml-cv-speech/
10 апреля - GoCloud 2025 – Москва, Россия - https://cloud.ru/gocloud
12-29 апреля - IT_One Cup ML Challenge – Онлайн - https://it-onecup-mlchallenge.ru/
15-16 апреля - MPSTATS Conf 2025 – Москва, Россия - https://mpstatsconf.io/
15-17 апреля - REact IT Summit 2025 – Каир, Египет - https://summitreact.com/ru
16-17 апреля - Data Fusion 2025 – Москва, Россия - https://data-fusion.ru/
17 апреля - DATA SUMMIT 2025 – Москва, Россия - https://dis-group-events.timepad.ru/event/3231087/
23 апреля - Platform Engineering Night: Productivity & AI – Москва, Россия - https://meetup.tbank.ru/event/platform-engineering-night-productivity-and-ai/
25-26 апреля - Merge 2025. Иннополис – Казань, Россия - https://tatarstan2025.mergeconf.ru/

btexpo.kz

Международная выставка-форум автоматизации и технологий для бизнеса | Business Technology Expo 2025 | RU

Международная выставка-форум автоматизации и технологий для бизнеса состоится 1-3 апреля 2025 года в МВЦ «EXPO», г. Астана

443 views15:59

Big Data Science [RU]

🚀 HuggingFace представил набор датасетов для обучения LLM в генерации кода

После успеха OlympicCoder-32B, обошедшего Sonnet 3.7 в бенчмарках LiveCodeBench и задачах Международной олимпиады по информатике (IOI 2024), HuggingFace опубликовал богатый набор датасетов для предварительного обучения и тонкой настройки LLM в задачах программирования.

✅Stack-Edu (125 млрд. токенов) – образовательный код на 15 языках программирования, отфильтрованный из The Stack v2
✅GitHub Issues (11 млрд. токенов) – данные из обсуждений и баг-репортов на GitHub
✅CodeForces problems (10 тыс. задач) – уникальный набор задач CodeForces, 3 тыс. из которых не использовались в обучении DeepMind
✅CodeForces problems DeepSeek-R1 (8,69 ГБ) – отфильтрованные трассировки решений CodeForces
✅International Olympiad in Informatics: Problem statements dataset (2020 - 2024) - уникальный набор из заданий Олимпиады по программированию, разбитый на подзадачи так, чтобы каждый запрос соответствовал решению этих подзадач
✅International Olympiad in Informatics: Problem - DeepSeek-R1 CoT dataset (2020 - 2023) - 11 тыс трассировок рассуждений, выполненных DeepSeek-R1 в ходе решения заданий Олимпиады по программированию

💡 Для чего использовать?
🔹 Предобучение LLM для кодогенерации
🔹 Разработка AI-ассистентов для программистов
🔹 Улучшение решений в компьютерных олимпиадах
🔹 Создание ML-моделей для анализа кода

huggingface.co

HuggingFaceTB/stack-edu · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

451 views15:59

Big Data Science [RU]

📊 Как избежать хаоса в данных? Способы обеспечения согласованности метрик в хранилище

Если вы работаете с аналитикой, то наверняка сталкивались с ситуацией, когда одна и та же метрика считается по-разному в разных отделах. Это приводит к путанице, снижает доверие к данным и замедляет принятие решений. В новой статье рассматриваются ключевые причины такой проблемы и два эффективных решения.

🤔 Почему метрики расходятся?
Причина кроется в спонтанном росте аналитики:
🔹 Один аналитик пишет SQL-запрос для вычисления показателя.
🔹 Дальше другие команды создают свои версии на основе этого запроса, внося небольшие изменения.
🔹 Со временем возникают расхождения, а команда аналитиков тратит все больше времени на разбор несоответствий.

Чтобы избежать этой ситуации, стоит внедрить единые стандарты управления метриками.

🛠 Два подхода для обеспечения согласованности

✅Семантический слой (Semantic Layer)
Это промежуточный слой между данными и аналитическими инструментами, где метрики определяются централизованно. Они хранятся в статических файлах (например, YAML) и используются для автоматической генерации SQL-запросов.

💡 Плюсы:
✔️ Гибкость: адаптация к разным запросам без предсоздания таблиц.
✔️ Прозрачность: единые определения доступны всем командам.
✔️ Актуальность: данные обновляются в реальном времени.

⚠️ Минусы:
❌ Требует вложений в инфраструктуру и оптимизацию.
❌ Может увеличивать нагрузку на вычисления (но это решается кэшированием).

📌 Пример инструмента: Cube.js – один из немногих зрелых open-source решений.

✅Предагрегированные таблицы (Pre-Aggregated Tables)
Здесь заранее создаются таблицы с предвычисленными метриками и фиксированными измерениями.

💡 Плюсы:
✔️ Простая реализация, удобная для небольших проектов.
✔️ Экономия вычислительных ресурсов.
✔️ Полный контроль над расчетами.

⚠️ Минусы:
❌ Сложно поддерживать при увеличении числа пользователей.
❌ Возможны расхождения, если метрики определяются в разных таблицах.

🚀 Какой метод выбрать?
Оптимальный подход – гибридное использование:
🔹 Внедрить семантический слой для масштабируемости.
🔹 Использовать предагрегированные таблицы для критичных метрик, где важна минимальная стоимость вычислений.

🔎Подробнее тут

Startdataengineering

How to ensure consistent metrics in your warehouse

If you’ve worked on a data team, you’ve likely encountered situations where multiple teams define metrics in slightly different ways, leaving you to untangle why discrepancies exist.
The root cause of these metric deviations often stems from rapid data utilization…

👍2

495 views15:59

Big Data Science [RU]

📊 FinMind — открытые финансовые данные мирового уровня для анализа и обучения

FinMind — это не просто коллекция котировок, а целая экосистема финансовых данных, доступных бесплатно и с открытым исходным кодом. Проект ориентирован на исследователей, студентов, инвесторов и энтузиастов, которым важен доступ к качественным, актуальным данным без необходимости платить за дорогие подписки, вроде Bloomberg Terminal или Quandl.

🔍 Что можно найти в FinMind:
📈 Исторические и внутридневные котировки акций (тик-данные, свечи, объемы)
📊 Финансовые метрики: PER, PBR, EPS, ROE и др.
💵 Дивиденды, отчётность компаний, выручка
📉 Данные по опционам и фьючерсам
🏦 Процентные ставки центробанков, инфляция
🛢 Сырьевые рынки и облигации

🧠 Особенности:
✅Данные регулярно обновляются в автоматическом режиме
✅Удобный и лёгкий в освоении Python API
✅Документация и учебные примеры на английском и китайском
✅Возможность быстро построить бэктест или провести исследование рынка

💡FinMind идеально подходит для:
✅Обучающих курсов по анализу временных рядов, эконометрике, ML в финансах
✅Прототипирования стратегий, без риска и затрат
✅Университетских исследований и хакатонов

🤖 GitHub

GitHub

GitHub - FinMind/FinMind: Open Data, more than 50 financial data. 提供超過 50 個金融資料(台股為主)，每天更新 https://finmind.github.io/

Open Data, more than 50 financial data. 提供超過 50 個金融資料(台股為主)，每天更新 https://finmind.github.io/ - FinMind/FinMind

515 views15:59

Big Data Science [RU]

Вы получаете данные из внешнего API с нестабильной структурой. Что бы вы сделали в препроцессинге, чтобы не падал весь пайплайн?

Anonymous Poll

24%

Пишу schema-validator с default-значениями и логгингом

26%

Оборачиваю парсинг в try/except с отправкой алертов в случае аномалий

30%

Сохраняю “сырые” данные отдельно, чтобы можно было перепарсить при доработке

20%

Делаю маппинг API → внутренняя схема через адаптер или ETL-слой

54 voters447 views15:59

2025/07/10 12:21:42
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>