Telegram Web Link
Начнём с теории!

В чем суть визуализации данных?

Суть заключается в переводе чисел на язык графических образов. Иными словами, в кодировании числовых значений визуальными объектами и их свойствами.

При кодировании чисел каждую единицу в наборе данных мы превращаем в объект — простую геометрическую фигуру: точку, линию, квадрат, круг.

А количественные и качественные свойства этой единицы данных зашифровываем визуальными свойствами этого объекта. В качестве визуальных свойств обычно выступает размер, положение, цвет (оттенок, насыщенность, яркость), угол, наклон.

☝️ Кодировка имеет разную степень точности восприятия. Например, длина воспринимается мозгом точнее, чем площадь. А положение относительно общей оси считывается точнее, чем просто длина.

Шкалу точности методов визуального кодирования можно встретить в книге «Графики, которые убеждают всех» — цветная картинка слева как раз оттуда. Методы отсортированы от более точного сравнения значений к менее точным.

🤓 Для тех, кто любит копнуть поглубже: родоначальником такого рейтинга стал эксперт по визуализации информации и вице-президент по исследованиям и дизайну в Tableau Software Джон Д. Маккинли, опубликовавший статью «Automating the Design of Graphical Presentations of Relational Information» 1986 — справа на картинке расположена чёрно-белая схема из этой статьи.

Исходя из этого рейтинга точнее всего считываются столбчатая диаграмма📊 и линейный график📈. Именно поэтому они более предпочтительны при проектировании дашбордов.

Но это не означает, что другими визуализациями не стоит пользоваться. Нужно оценивать степень точности каждой из диаграмм и использовать сообразно задаче.

А в чем польза-то визуализации?

🥹Мозг обрабатывает визуальные образы быстрее, чем текстовую или числовую информацию.

🥹А еще на графике легче заметить аномалии и тенденции, чем в сырых данных.

Практические примеры будем рассматривать в следующих днях, следите за обновлениями!

#зачемвиз
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from 🔋 Труба данных (Simon Osipov)
https://dbtips.substack.com/p/the-core-principles-of-robust-data

Казалось бы, очень простые советы, но каждый раз смотря на очередной DWH, я удивляюсь тому, какую мешанину там напридумывали, что это очень тяжело поддерживать.

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
How to. Make Chat in DataLens
Немного шутливый пост, что внутри DataLens можно сделать чатик =)
ага, как в в конце девяностых в браузерах =)

На самом деле полезная штука для определенных задач. Это интеграция через API с Базой данных и запись / чтение из нее информации. Это может быть write-back, триггер обновления данных или смена статуса заказа (привет, CRM)
Forwarded from Делаю BI
Всем привет= )

У нас в Core BI Авито открылась новая ставка и мы ищем крутого спеца senior - lead уровня, который и швец и жнец и всем пиз и в датавиз и в инженерию и в построение BI процессов.
Цель амбициозная - строить вместе с нами крутую BI функцию во всем Авито с достаточно низкого старта.
Непосредственно тимлидом буду я, команда работает в прямом подчинении head of bi (@alexbarakov)
Задачи на любой вкус:
1) Можно заниматься построением высокоуровнего репортинга для всего Авито или C-level пользователей
2) Можно писать много SQL и выстраивать архитектуру витрин
3) Можно лидировать проекты развития всей фукнции BI (как пример: продумать и внедрить процессы сертификации отчетности, разработать концепцию и внедрить аналитические рабочие места для разных ролей не-аналитиков, разработать стандары репортинга BI)
Пропорции этих типов задач будут примерно 30/20/50

Автономность - высокая, свобода выбора интересных проектов - еще выше. Комьюнити BI ламповое и вовлеченное.

Опыт работы в кор командах BI или выстраивании BI процессов - весомый плюс. Опыт участия в таких проектах - желателен и почти обязателен

За подробностями - велкам в лс @astigo
Forwarded from Дашбордец
Котятки🐱,
Сегодня при подготовке к одному из демо, ко мне попал занятный материал про кросс-культурные особенности в анализе и датавизе, делюсь:
https://datacalculus.com/en/knowledge-hub/data-analytics/data-visualization/cross-cultural-considerations-in-visualization
Про цвета, направление текстов и время я обычно помню, а вот всякие культурно-когнитивные особенности я часто забываю))
Forwarded from Data Secrets
Нашли тут для вас готовый ноутбук для файнтюна gpt-oss

Внутри все end-to-end, от скачивания модели и подготовки данных до обучения и инференса.

Еще и мощно оптимизировано, кстати. Моделька на 20В вмещается в 14GB видеопамяти. То есть теоретически запустится даже на бесплатных ресурсах колаба.

Ноутбук для 20В (его же можно использовать для 120В)

А вот тут лежат все текстовые пояснения к коду и «теория»:про то, как работает формат Harmony и почему он необходим, например. В общем все, чтобы запускать код не в слепую (хотя так тоже можно), а с достаточно глубоким пониманием.

Занятие на выходные что надо
Ко мне неделю назад пришел Chris Dalla Riva и пишет такой: "я тут книжку написал, в ней есть графики, не хочешь посмотреть и написать про это?". А я конечно же хочу, когда еще и внижку дают посмотреть))

Chris супер дата аналитик и музыкант, проекты у него тоже музыкальные. Не помню, как я его нашла, но работы его очень люблю -- каждый пост полноценный анализ, например, когда умер рок-н-ролл? У него еще были коллабы с the pudding: 500 величайших альбомов всех времен или про женщин копмозиторов.

🎧 В итоге, Chris написал книгу Uncharted Territory с анализом музыкальных хитов, я повытаскивала оттуда графики и собрала в формате советов, что у него интересного можно подсмотреть:
- дизайн аннотаций
- графки в чб
- джанк чарты и многое еще внутри
Forwarded from Data Memes
😁2
Forwarded from Yandex DataLens
Media is too big
VIEW IN TELEGRAM
⚡️ Параметризация источника в датасете

Встречайте функциональность, выводящую работу с вашими датасетами на новый уровень!

Параметризация позволит:
- Подменять таблицу в запросах
- Передавать в SQL, определяющий датасет, параметр как часть запроса

Смотрите видео и читайте подробности в документации!
👍1
Media is too big
VIEW IN TELEGRAM
Небольшие приятные фичи за прошлый месяц.

Мой фаворит - ввод из буфера значений в параметр =)

А как вам в целом лучше было бы узнавать о новых фичах в BI-продукте?
- Попапами в продукте?
- Текстовыми анонсами в канале / чатике?
- Видосиками?
Forwarded from Refat Talks: Tech & AI
This media is not supported in your browser
VIEW IN TELEGRAM
🤩 Как новенький LangExtract от Google может помочь в AI работе с доками, RAG и не только

Неделю назад Google тихо выпустил библиотеку, которая решает боль production LLM систем: как гарантировать, что извлеченные данные действительно есть в источнике, а не выдуманы моделью. Ты задаешь примеры что хочешь извлечь из текста (например, даты и суммы из контракта), LangExtract находит все такие элементы и показывает где именно каждый находится в документе, гарантируя что ничего не выдумано. Мне как раз надо было что-то подобное, я полез изучать, потом залез в исходники и залип.

Ключевая инновация - Source Grounding
Каждое извлечение привязано к точным координатам в тексте. Парсите контракт на 50 страниц? Система не просто скажет "срок оплаты 30 дней", но и покажет exact char positions где это написано. Под капотом - умный fuzzy matching алгоритм, который находит источник даже если LLM слегка перефразировал. То есть да, это как NER только без обучения, и как structured outputs, но с точным и надежным определением координат цитаты.

А еще на основе моих тестов эта штука поразительно хорошо и быстро работает с длинными документами.

Ботанский кусок (разверните кому интересно):
Покопался в исходниках, рассказываю суть.

По сути LangExtract = Few-shot Information Extraction + Structured Outputs + Automatic Source Grounding.

В отличие от простого использования structured outputs, автоматически находит точное местоположение типа {"startpos": 41, "endpos": 57}.

Общий принцип:

Документ → [Chunking] → [LLM + Schema] → [alignment phase] → Результат с позициями

Трехуровневый alignment (exact → case-insensitive → fuzzy) покрывает все основные кейсы, результаты потом валидируются.

Поддерживает extraction_passes - это механизм множественных независимых проходов извлечения по документу для повышения recall (полноты). LLM могут "пропускать" некоторые сущности при первом проходе, особенно в длинных текстах, поэтому повторные проходы помогают найти больше информации.

На входе использует example-driven подход - вместо написания промптов вы предоставляете несколько примеров того, что хотите извлечь. Из этих примеров автоматически генерируется JSON schema для structured output и создается few-shot промпт. Поддержка разных LLM провайдеров (Gemini, OpenAI, Ollama) с оптимизациями под каждый.

А с длинными доками хорошо работает за счет трех элегантных решений:
- Intelligent chunking с сохранением границ предложений (не тупое разбиение по токенам)
- Multi-pass extraction - несколько независимых проходов, каждый может найти что-то новое, результаты консолидируются
- Массивная параллелизация - десятки чанков обрабатываются одновременно

Есть встроенная HTML-визуализация с подсветкой найденных элементов прямо в исходном тексте (показана на видео).

Некоторые альтернативы: Instructor/Marvin/Outlines.


Use кейсы для вдохновления:
- Контракты на 100+ страниц - находит все суммы и сроки с точной ссылкой на цитату, можно легко интегрировать в UI "подсветку" фактов
- Медкарты с записями - извлекаем дозировки лекарств с гарантией и визуальным указанием источника
- Data Science стал еще доступнее: на вход тысячи не структурированный документов, на выход - CSV с нужными колонками и точными координатами откуда взял
- Извлекаете из корпоративной wiki, email, Slack: люди, проекты, технологии, их связи. Строим графы знаний - Profit!

Главное: LangExtract не просто надежно извлекает, но еще и доказывает откуда взял каждый факт.
Двигаемся еще ближе от "LLM как магический черный ящик" к "LLM как надежный production инструмент".

Блогпост | Репа

🔥🔁
2025/10/21 09:20:17
Back to Top
HTML Embed Code: