Forwarded from Делаю BI
Всем привет= )
У нас в Core BI Авито открылась новая ставка и мы ищем крутого спеца senior - lead уровня, который ишвец и жнец и всем пиз и в датавиз и в инженерию и в построение BI процессов.
Цель амбициозная - строить вместе с нами крутую BI функцию во всем Авито с достаточно низкого старта.
Непосредственно тимлидом буду я, команда работает в прямом подчинении head of bi (@alexbarakov)
Задачи на любой вкус:
1) Можно заниматься построением высокоуровнего репортинга для всего Авито или C-level пользователей
2) Можно писать много SQL и выстраивать архитектуру витрин
3) Можно лидировать проекты развития всей фукнции BI (как пример: продумать и внедрить процессы сертификации отчетности, разработать концепцию и внедрить аналитические рабочие места для разных ролей не-аналитиков, разработать стандары репортинга BI)
Пропорции этих типов задач будут примерно 30/20/50
Автономность - высокая, свобода выбора интересных проектов - еще выше. Комьюнити BI ламповое и вовлеченное.
Опыт работы в кор командах BI или выстраивании BI процессов - весомый плюс. Опыт участия в таких проектах - желателен и почти обязателен
За подробностями - велкам в лс @astigo
У нас в Core BI Авито открылась новая ставка и мы ищем крутого спеца senior - lead уровня, который и
Цель амбициозная - строить вместе с нами крутую BI функцию во всем Авито с достаточно низкого старта.
Непосредственно тимлидом буду я, команда работает в прямом подчинении head of bi (@alexbarakov)
Задачи на любой вкус:
1) Можно заниматься построением высокоуровнего репортинга для всего Авито или C-level пользователей
2) Можно писать много SQL и выстраивать архитектуру витрин
3) Можно лидировать проекты развития всей фукнции BI (как пример: продумать и внедрить процессы сертификации отчетности, разработать концепцию и внедрить аналитические рабочие места для разных ролей не-аналитиков, разработать стандары репортинга BI)
Пропорции этих типов задач будут примерно 30/20/50
Автономность - высокая, свобода выбора интересных проектов - еще выше. Комьюнити BI ламповое и вовлеченное.
Опыт работы в кор командах BI или выстраивании BI процессов - весомый плюс. Опыт участия в таких проектах - желателен и почти обязателен
За подробностями - велкам в лс @astigo
Forwarded from Лаборатория данных (Таня Мисютина)
В советах добралась до самой увлекательной, на мой взгляд, части. Разбираю конструирование каркасов и визуализаций в подходе алгоритма Δλ.
https://bureau.ru/soviet/20250806/
https://bureau.ru/soviet/20250806/
Бюро Горбунова
Конструируем каркасы. Часть 1
В следующих заметках я покажу, как комбинируя способы упорядочивания объектов на осях из предыдущего совета, сконструировать самые полезные и часто используемые форматы визуализации — столбиковую диаграмму, линейный график, хитмап, график разброса и карту.…
Forwarded from Дашбордец
Котятки🐱,
Сегодня при подготовке к одному из демо, ко мне попал занятный материал про кросс-культурные особенности в анализе и датавизе, делюсь:
https://datacalculus.com/en/knowledge-hub/data-analytics/data-visualization/cross-cultural-considerations-in-visualization
Про цвета, направление текстов и время я обычно помню, а вот всякие культурно-когнитивные особенности я часто забываю))
Сегодня при подготовке к одному из демо, ко мне попал занятный материал про кросс-культурные особенности в анализе и датавизе, делюсь:
https://datacalculus.com/en/knowledge-hub/data-analytics/data-visualization/cross-cultural-considerations-in-visualization
Про цвета, направление текстов и время я обычно помню, а вот всякие культурно-когнитивные особенности я часто забываю))
DataCalculus
Cross-Cultural Considerations in Data Visualization
Learn essential cross-cultural considerations in data visualization to improve clarity and engagement in global audiences.
Forwarded from Data Secrets
Нашли тут для вас готовый ноутбук для файнтюна gpt-oss
Внутри все end-to-end, от скачивания модели и подготовки данных до обучения и инференса.
Еще и мощно оптимизировано, кстати. Моделька на 20В вмещается в 14GB видеопамяти. То есть теоретически запустится даже на бесплатных ресурсах колаба.
Ноутбук для 20В (его же можно использовать для 120В)
А вот тут лежат все текстовые пояснения к коду и «теория»:про то, как работает формат Harmony и почему он необходим, например. В общем все, чтобы запускать код не в слепую (хотя так тоже можно), а с достаточно глубоким пониманием.
Занятие на выходные что надо
Внутри все end-to-end, от скачивания модели и подготовки данных до обучения и инференса.
Еще и мощно оптимизировано, кстати. Моделька на 20В вмещается в 14GB видеопамяти. То есть теоретически запустится даже на бесплатных ресурсах колаба.
Ноутбук для 20В (его же можно использовать для 120В)
А вот тут лежат все текстовые пояснения к коду и «теория»:про то, как работает формат Harmony и почему он необходим, например. В общем все, чтобы запускать код не в слепую (хотя так тоже можно), а с достаточно глубоким пониманием.
Занятие на выходные что надо
Forwarded from настенька и графики
Ко мне неделю назад пришел Chris Dalla Riva и пишет такой: "я тут книжку написал, в ней есть графики, не хочешь посмотреть и написать про это?". А я конечно же хочу, когда еще и внижку дают посмотреть))
Chris супер дата аналитик и музыкант, проекты у него тоже музыкальные. Не помню, как я его нашла, но работы его очень люблю -- каждый пост полноценный анализ, например, когда умер рок-н-ролл? У него еще были коллабы с the pudding: 500 величайших альбомов всех времен или про женщин копмозиторов.
🎧 В итоге, Chris написал книгу Uncharted Territory с анализом музыкальных хитов, я повытаскивала оттуда графики и собрала в формате советов, что у него интересного можно подсмотреть:
- дизайн аннотаций
- графки в чб
- джанк чарты и многое еще внутри
Chris супер дата аналитик и музыкант, проекты у него тоже музыкальные. Не помню, как я его нашла, но работы его очень люблю -- каждый пост полноценный анализ, например, когда умер рок-н-ролл? У него еще были коллабы с the pudding: 500 величайших альбомов всех времен или про женщин копмозиторов.
🎧 В итоге, Chris написал книгу Uncharted Territory с анализом музыкальных хитов, я повытаскивала оттуда графики и собрала в формате советов, что у него интересного можно подсмотреть:
- дизайн аннотаций
- графки в чб
- джанк чарты и многое еще внутри
Forwarded from Yandex DataLens
Media is too big
VIEW IN TELEGRAM
⚡️ Параметризация источника в датасете
Встречайте функциональность, выводящую работу с вашими датасетами на новый уровень!
Параметризация позволит:
- Подменять таблицу в запросах
- Передавать в SQL, определяющий датасет, параметр как часть запроса
Смотрите видео и читайте подробности в документации!
Встречайте функциональность, выводящую работу с вашими датасетами на новый уровень!
Параметризация позволит:
- Подменять таблицу в запросах
- Передавать в SQL, определяющий датасет, параметр как часть запроса
Смотрите видео и читайте подробности в документации!
👍1
Forwarded from Через тернии к Визам
Media is too big
VIEW IN TELEGRAM
Небольшие приятные фичи за прошлый месяц.
Мой фаворит - ввод из буфера значений в параметр =)
А как вам в целом лучше было бы узнавать о новых фичах в BI-продукте?
- Попапами в продукте?
- Текстовыми анонсами в канале / чатике?
- Видосиками?
Мой фаворит - ввод из буфера значений в параметр =)
А как вам в целом лучше было бы узнавать о новых фичах в BI-продукте?
- Попапами в продукте?
- Текстовыми анонсами в канале / чатике?
- Видосиками?
Forwarded from Refat Talks: Tech & AI
This media is not supported in your browser
VIEW IN TELEGRAM
🤩 Как новенький LangExtract от Google может помочь в AI работе с доками, RAG и не только
Неделю назад Google тихо выпустил библиотеку, которая решает боль production LLM систем: как гарантировать, что извлеченные данные действительно есть в источнике, а не выдуманы моделью. Ты задаешь примеры что хочешь извлечь из текста (например, даты и суммы из контракта), LangExtract находит все такие элементы и показывает где именно каждый находится в документе, гарантируя что ничего не выдумано. Мне как раз надо было что-то подобное, я полез изучать, потом залез в исходники и залип.
Ключевая инновация - Source Grounding
Каждое извлечение привязано к точным координатам в тексте. Парсите контракт на 50 страниц? Система не просто скажет "срок оплаты 30 дней", но и покажет exact char positions где это написано. Под капотом - умный fuzzy matching алгоритм, который находит источник даже если LLM слегка перефразировал. То есть да, это как NER только без обучения, и как structured outputs, но с точным и надежным определением координат цитаты.
А еще на основе моих тестов эта штука поразительно хорошо и быстро работает с длинными документами.
Ботанский кусок (разверните кому интересно):
Use кейсы для вдохновления:
- Контракты на 100+ страниц - находит все суммы и сроки с точной ссылкой на цитату, можно легко интегрировать в UI "подсветку" фактов
- Медкарты с записями - извлекаем дозировки лекарств с гарантией и визуальным указанием источника
- Data Science стал еще доступнее: на вход тысячи не структурированный документов, на выход - CSV с нужными колонками и точными координатами откуда взял
- Извлекаете из корпоративной wiki, email, Slack: люди, проекты, технологии, их связи. Строим графы знаний - Profit!
Главное: LangExtract не просто надежно извлекает, но еще и доказывает откуда взял каждый факт.
Двигаемся еще ближе от "LLM как магический черный ящик" к "LLM как надежный production инструмент".
Блогпост | Репа
🔥➕🔁
Неделю назад Google тихо выпустил библиотеку, которая решает боль production LLM систем: как гарантировать, что извлеченные данные действительно есть в источнике, а не выдуманы моделью. Ты задаешь примеры что хочешь извлечь из текста (например, даты и суммы из контракта), LangExtract находит все такие элементы и показывает где именно каждый находится в документе, гарантируя что ничего не выдумано. Мне как раз надо было что-то подобное, я полез изучать, потом залез в исходники и залип.
Ключевая инновация - Source Grounding
Каждое извлечение привязано к точным координатам в тексте. Парсите контракт на 50 страниц? Система не просто скажет "срок оплаты 30 дней", но и покажет exact char positions где это написано. Под капотом - умный fuzzy matching алгоритм, который находит источник даже если LLM слегка перефразировал. То есть да, это как NER только без обучения, и как structured outputs, но с точным и надежным определением координат цитаты.
А еще на основе моих тестов эта штука поразительно хорошо и быстро работает с длинными документами.
Ботанский кусок (разверните кому интересно):
Покопался в исходниках, рассказываю суть.
По сути LangExtract = Few-shot Information Extraction + Structured Outputs + Automatic Source Grounding.
В отличие от простого использования structured outputs, автоматически находит точное местоположение типа {"startpos": 41, "endpos": 57}.
Общий принцип:
Документ → [Chunking] → [LLM + Schema] → [alignment phase] → Результат с позициями
Трехуровневый alignment (exact → case-insensitive → fuzzy) покрывает все основные кейсы, результаты потом валидируются.
Поддерживает extraction_passes - это механизм множественных независимых проходов извлечения по документу для повышения recall (полноты). LLM могут "пропускать" некоторые сущности при первом проходе, особенно в длинных текстах, поэтому повторные проходы помогают найти больше информации.
На входе использует example-driven подход - вместо написания промптов вы предоставляете несколько примеров того, что хотите извлечь. Из этих примеров автоматически генерируется JSON schema для structured output и создается few-shot промпт. Поддержка разных LLM провайдеров (Gemini, OpenAI, Ollama) с оптимизациями под каждый.
А с длинными доками хорошо работает за счет трех элегантных решений:
- Intelligent chunking с сохранением границ предложений (не тупое разбиение по токенам)
- Multi-pass extraction - несколько независимых проходов, каждый может найти что-то новое, результаты консолидируются
- Массивная параллелизация - десятки чанков обрабатываются одновременно
Есть встроенная HTML-визуализация с подсветкой найденных элементов прямо в исходном тексте (показана на видео).
Некоторые альтернативы: Instructor/Marvin/Outlines.
Use кейсы для вдохновления:
- Контракты на 100+ страниц - находит все суммы и сроки с точной ссылкой на цитату, можно легко интегрировать в UI "подсветку" фактов
- Медкарты с записями - извлекаем дозировки лекарств с гарантией и визуальным указанием источника
- Data Science стал еще доступнее: на вход тысячи не структурированный документов, на выход - CSV с нужными колонками и точными координатами откуда взял
- Извлекаете из корпоративной wiki, email, Slack: люди, проекты, технологии, их связи. Строим графы знаний - Profit!
Главное: LangExtract не просто надежно извлекает, но еще и доказывает откуда взял каждый факт.
Двигаемся еще ближе от "LLM как магический черный ящик" к "LLM как надежный production инструмент".
Блогпост | Репа
🔥➕🔁
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Мы как-то пропустили, но оказывается Hugging Face недавно тихо выпустили так называемые AI sheets
Это ни много ни мало мечта ML-инженера: инструмент позволяет интерактивно и очень быстро создавать и размечать датасеты почти под любую задачу.
Для этого надо просто выбрать доступную открытую модель (а вообще проект опенсорс, так что можно и закрытую, и свою собственную прикрутить при желании), задать текстовый промпт и получить готовый датасет. Затем его можно еще и отредактировать.
Ну и, конечно, можно загружать уже готовые датасеты, расширять их или менять. С мультимодальностью все тоже работает.
Легко запускается локально, инструкция лежит у них на гите.
github.com/huggingface/aisheets
Это ни много ни мало мечта ML-инженера: инструмент позволяет интерактивно и очень быстро создавать и размечать датасеты почти под любую задачу.
Для этого надо просто выбрать доступную открытую модель (а вообще проект опенсорс, так что можно и закрытую, и свою собственную прикрутить при желании), задать текстовый промпт и получить готовый датасет. Затем его можно еще и отредактировать.
Ну и, конечно, можно загружать уже готовые датасеты, расширять их или менять. С мультимодальностью все тоже работает.
Легко запускается локально, инструкция лежит у них на гите.
github.com/huggingface/aisheets
👍1
Forwarded from [29/100] Витя Тарнавский
Где искать кейсы по GenAI
Кейс-библиотеки у OpenAI и других вендоров абсолютно ужасны. Типичный кейс – это расплывчатая задача, ноль техдеталей и восхваление соответствующего вендора. Можете сами посмотреть: OpenAI, AWS, Google.
Классные кейс-библиотеки
– Evidently AI - удобная табличка-агрегатор с 652 кейсами с ссылками
– GenAI & LLM System Design - мощная библиотека кейсов с тех деталями на базе Evidently AI, расширенная и выложенная на гитхаб
– ZenML LLMOps Database - 800+ кейсов от разных компаний, собранных ZenML
– LangChain Case Studies - вендорская небольшая библиотека кейсов про LangChain: хорошие, с подробностями
Не кейсошные, но тоже классно
– Awesome LLM Apps - куча простых LLM-приложений с кодом
– Deloitte AI Dossier / PDF - хороший список GenAI идей. Если хотите открыть новый бизнес в GenAI – есть где вдохновиться
Российские
– Yandex Cloud: неплохая библиотека кейсов от Яндекса, есть детали. Нет фильтра по YandexGPT – фильтруем глазами
– Generation AI: хорошая небольшая кейсошная от JustAI
– Gigachat Cases: довольно слабая кейсошная от Сбера
Кидайте в комментах что ещё знаете!
Кейс-библиотеки у OpenAI и других вендоров абсолютно ужасны. Типичный кейс – это расплывчатая задача, ноль техдеталей и восхваление соответствующего вендора. Можете сами посмотреть: OpenAI, AWS, Google.
Классные кейс-библиотеки
– Evidently AI - удобная табличка-агрегатор с 652 кейсами с ссылками
– GenAI & LLM System Design - мощная библиотека кейсов с тех деталями на базе Evidently AI, расширенная и выложенная на гитхаб
– ZenML LLMOps Database - 800+ кейсов от разных компаний, собранных ZenML
– LangChain Case Studies - вендорская небольшая библиотека кейсов про LangChain: хорошие, с подробностями
Не кейсошные, но тоже классно
– Awesome LLM Apps - куча простых LLM-приложений с кодом
– Deloitte AI Dossier / PDF - хороший список GenAI идей. Если хотите открыть новый бизнес в GenAI – есть где вдохновиться
Российские
– Yandex Cloud: неплохая библиотека кейсов от Яндекса, есть детали. Нет фильтра по YandexGPT – фильтруем глазами
– Generation AI: хорошая небольшая кейсошная от JustAI
– Gigachat Cases: довольно слабая кейсошная от Сбера
Кидайте в комментах что ещё знаете!
Forwarded from Пирожки и бары | про BI
This media is not supported in your browser
VIEW IN TELEGRAM
А вообще, если заказчик хочет выгрузить дашборд в эксель - это может быть признаком того, что с дашбордом неудобно работать, или нет доверия к данным.
Но иногда это просто признак того, что заказчик любит эксель😀
#bi_memes
Но иногда это просто признак того, что заказчик любит эксель
#bi_memes
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3
Forwarded from LLM под капотом
А вы знаете, что пост про демку бизнес-ассистента с SGR под капотом - это самый тщательно скрываемый секрет нашего коммьюнити?
Если верить статистике Telegram, этот пост люди пересылали в личке разы чаще, чем все остальные посты, но никто не шарил этот пост публично.
Правда секретом это будет оставаться не так долго. Следующий ERC (это наш формат соревнований) точно будет про Enterprise Reasoning Challenge, где командам нужно будет построить агента или мультиагентную систему, которые смогут использовать предоставленные им API, чтобы распутывать корпоративные задачки. Все как в SGR демке, только чуть масштабнее.
Событие планируется осенью/зимой. Точные сроки зависят от того, как быстро раскачаются отделы маркетинга в TimeToAct и IBM. Тестовый прогон будет точно этой осенью.
Формат проведения будет примерно аналогичен прошлому Enterprise RAG Challenge: команды со всего мира, небольшой призовой фонд, максимально открытые исходники и публичный сравнительный анализ результативности различных архитектур.
Возможно, все вместе сможем обнаружить новые паттерны в построении агентских систем для бизнеса.
Ваш, @llm_under_hood 🤗
Если верить статистике Telegram, этот пост люди пересылали в личке разы чаще, чем все остальные посты, но никто не шарил этот пост публично.
Правда секретом это будет оставаться не так долго. Следующий ERC (это наш формат соревнований) точно будет про Enterprise Reasoning Challenge, где командам нужно будет построить агента или мультиагентную систему, которые смогут использовать предоставленные им API, чтобы распутывать корпоративные задачки. Все как в SGR демке, только чуть масштабнее.
Событие планируется осенью/зимой. Точные сроки зависят от того, как быстро раскачаются отделы маркетинга в TimeToAct и IBM. Тестовый прогон будет точно этой осенью.
Формат проведения будет примерно аналогичен прошлому Enterprise RAG Challenge: команды со всего мира, небольшой призовой фонд, максимально открытые исходники и публичный сравнительный анализ результативности различных архитектур.
Возможно, все вместе сможем обнаружить новые паттерны в построении агентских систем для бизнеса.
Ваш, @llm_under_hood 🤗
👍1😁1
Forwarded from Data Bar | О data-проектах (Alexander Varlamov)
Generative Business Intelligence - тихая революция в BI
В классическом BI мы вручную пишем SQL, строим отчёты и визуализации. Но сегодня нейросети делают всё больше работы: сами пишут запросы, формируют дашборды и даже выдают инсайты. В прошлом посте рассказывал как мы сделали это на локальном компе. У этого направления уже есть название - Generative BI (GenBI).
В комментариях к моему посту в Linkedin Elena Goryainova (Sr Solution Architect, Snowflake) поделилась, что Snowflake предлагает Enterprise AI - безопасный доступ к топовым LLM внутри корпоративного контура.
Кроме них, в гонке уже:
- Salesforce
- Microsoft
- Tibco Spotfire
- Pyramid Analytics
и другие.
Компания WrenAI делает GenBI сервис и рассказывает в блоге о будущем BI.
Архитектура GenBI делится на 4 уровня (из статьи выше):
1. Уровень данных
2. Семантический уровень
3. Агентский уровень
4. Уровень представления
Главное отличие от классического BI - агентский уровень. Он отвечает за "человеческий" разговор с данными. На этом уровне нейросети преобразуют запросы пользователя в машинные запросы и алгоритмы. На семантическом уровне строятся связи с данными: что и откуда брать для запроса. Про семантический уровень буквально вчера был пост в канале "Работая в айтишечке". На уровне представления: дашборды, инсайты, эдхоки и интерфейс диалога с машиной (тоже новая штука).
Интересно, что в корпоративных решениях решаются 2 ключевые проблемы нейронок для BI:
1. Галлюцинации. Если LLM натравить только на подготовленные и структурированные данные с их описанием, то LLM практически не даёт неверных ответов. Это подтвердилось и в наших локальных экспериментах с нейронками.
2. Безопасность данных. Большие вендоры предоставляют доступ до передовых LLM только внутри компании, наружу данные не уходят.
Итого: GenBI - устойчивое понятие, подразумевающее генерацию инсайтов и инструментов для принятия решений на основе данных. Лидеры рынка идут в этом направлении. BI-системы эволюционируют, и если их не перестраивать сегодня - завтра можно остаться в хвосте рынка.
В классическом BI мы вручную пишем SQL, строим отчёты и визуализации. Но сегодня нейросети делают всё больше работы: сами пишут запросы, формируют дашборды и даже выдают инсайты. В прошлом посте рассказывал как мы сделали это на локальном компе. У этого направления уже есть название - Generative BI (GenBI).
В комментариях к моему посту в Linkedin Elena Goryainova (Sr Solution Architect, Snowflake) поделилась, что Snowflake предлагает Enterprise AI - безопасный доступ к топовым LLM внутри корпоративного контура.
Кроме них, в гонке уже:
- Salesforce
- Microsoft
- Tibco Spotfire
- Pyramid Analytics
и другие.
Компания WrenAI делает GenBI сервис и рассказывает в блоге о будущем BI.
Архитектура GenBI делится на 4 уровня (из статьи выше):
1. Уровень данных
2. Семантический уровень
3. Агентский уровень
4. Уровень представления
Главное отличие от классического BI - агентский уровень. Он отвечает за "человеческий" разговор с данными. На этом уровне нейросети преобразуют запросы пользователя в машинные запросы и алгоритмы. На семантическом уровне строятся связи с данными: что и откуда брать для запроса. Про семантический уровень буквально вчера был пост в канале "Работая в айтишечке". На уровне представления: дашборды, инсайты, эдхоки и интерфейс диалога с машиной (тоже новая штука).
Интересно, что в корпоративных решениях решаются 2 ключевые проблемы нейронок для BI:
1. Галлюцинации. Если LLM натравить только на подготовленные и структурированные данные с их описанием, то LLM практически не даёт неверных ответов. Это подтвердилось и в наших локальных экспериментах с нейронками.
2. Безопасность данных. Большие вендоры предоставляют доступ до передовых LLM только внутри компании, наружу данные не уходят.
Итого: GenBI - устойчивое понятие, подразумевающее генерацию инсайтов и инструментов для принятия решений на основе данных. Лидеры рынка идут в этом направлении. BI-системы эволюционируют, и если их не перестраивать сегодня - завтра можно остаться в хвосте рынка.
Forwarded from Data-comics
Подборка материалов по применению АИ в датавизе! 🍒
Добыла у Enrico Bertini, перевела описания для вас! Ух!
Что ж, тут разделение материалов по темам, когда Аи может реально быть полезен в сфере датавиза. Так что рекомендую практиков и теоретиков направления изучить материалы хотя бы бегло!)
Системы «от Промта к Графику»
LLM могут использоваться для того, чтобы попросить систему ИИ сгенерировать графики, решающие конкретную задачу. Это позволяет задавать визуализацию данных с помощью естественного языка, а не кода, специальных языков или интерфейсов.
LIDA: A Tool for Automatic Generation of Visualizations
ChartGPT: Leveraging LLMs to Generate Charts
Visualization Generation with Large Language Models
DynaVis: Dynamically Synthesized UI Widgets
Генерация изображений для визуализаций
Большинство решений для визуализации данных на основе LLM преобразуют запросы в код, который строит графики. Но генеративный ИИ может создавать изображения напрямую, без программирования. Некоторые исследования делают именно это.
Embedding Semantic Context into Chart
Prompt-driven stylized visualization generation
Challenges and opportunities for visualization in the age of GM
Нарративные последовательности
Создание серии графиков и текста — основа дата-сторителлинга. LLM могут помогать придумывать такие последовательности и реализовывать их: текст вводит и описывает каждый график.
Narrative Player: Reviving Data Narratives with Visuals
DataTales
DATAWEAVER: Authoring Data-Driven Narratives
Подписи и доступность
Описание графиков с точки зрения их структуры и содержания важно для понимания и доступности. Могут ли LLM поддержать эту задачу? И смогут ли пользователи с нарушениями зрения использовать генеративный ИИ, чтобы легче получать доступ к визуальной информации?
Authoring Semantically Aligned Text and Charts for Communication
VizAbility: Enhancing Chart Accessibility
MAIDR Meets AI: Exploring Multimodal Data Visualization Interpretation by and with Blind and Low-Vision Users
LLM как «читатели графиков»
Могут ли LLM выполнять часть работы, которую обычно делают люди при интерпретации графиков? Эти исследования оценивают способности моделей к пониманию и рассуждению на основе визуализаций.
Probing the visualization literacy of vision Language Models
How good (or bad) are LLMs at detecting misleading visualizations?
How aligned are human chart takeaways and LLM predictions?
Проверка результата пользователем
LLM часто ошибаются при работе с данными — в преобразованиях или в отображении. Поэтому нужны удобные интерфейсы, чтобы пользователь мог проверять и исправлять результат. Эти работы предлагают такие решения.
Urania: Visualizing Data Analysis pipelines for data exploration.
WaitGPT: Monitoring and steering conversational LLM agent
Оценка и эталонные тесты
Чтобы развивать новые системы визуализации на основе ИИ, нужно измерять их качество. Эти исследования предлагают способы тестирования и специальные наборы данных, которые позволяют объективно оценить работу моделей.
Automated Data Visualization from Natural Language
VisEval: A Benchmark for Data Visualization
Natural Language Dataset Generation Framework for Visualizations
Понимание реального использования
Чтобы понять ценность LLM для визуализации, важно смотреть на практику. Эти исследования показывают, как люди реально применяют модели в задачах с данными: с какими проблемами сталкиваются, какие возможности открываются и какие стратегии помогают.
An Interview Study on Human-AI Collaboration in Data Storytelling
Data has Entered the Chat
📊❤️ 🤖
Добыла у Enrico Bertini, перевела описания для вас! Ух!
Что ж, тут разделение материалов по темам, когда Аи может реально быть полезен в сфере датавиза. Так что рекомендую практиков и теоретиков направления изучить материалы хотя бы бегло!)
Системы «от Промта к Графику»
LLM могут использоваться для того, чтобы попросить систему ИИ сгенерировать графики, решающие конкретную задачу. Это позволяет задавать визуализацию данных с помощью естественного языка, а не кода, специальных языков или интерфейсов.
LIDA: A Tool for Automatic Generation of Visualizations
ChartGPT: Leveraging LLMs to Generate Charts
Visualization Generation with Large Language Models
DynaVis: Dynamically Synthesized UI Widgets
Генерация изображений для визуализаций
Большинство решений для визуализации данных на основе LLM преобразуют запросы в код, который строит графики. Но генеративный ИИ может создавать изображения напрямую, без программирования. Некоторые исследования делают именно это.
Embedding Semantic Context into Chart
Prompt-driven stylized visualization generation
Challenges and opportunities for visualization in the age of GM
Нарративные последовательности
Создание серии графиков и текста — основа дата-сторителлинга. LLM могут помогать придумывать такие последовательности и реализовывать их: текст вводит и описывает каждый график.
Narrative Player: Reviving Data Narratives with Visuals
DataTales
DATAWEAVER: Authoring Data-Driven Narratives
Подписи и доступность
Описание графиков с точки зрения их структуры и содержания важно для понимания и доступности. Могут ли LLM поддержать эту задачу? И смогут ли пользователи с нарушениями зрения использовать генеративный ИИ, чтобы легче получать доступ к визуальной информации?
Authoring Semantically Aligned Text and Charts for Communication
VizAbility: Enhancing Chart Accessibility
MAIDR Meets AI: Exploring Multimodal Data Visualization Interpretation by and with Blind and Low-Vision Users
LLM как «читатели графиков»
Могут ли LLM выполнять часть работы, которую обычно делают люди при интерпретации графиков? Эти исследования оценивают способности моделей к пониманию и рассуждению на основе визуализаций.
Probing the visualization literacy of vision Language Models
How good (or bad) are LLMs at detecting misleading visualizations?
How aligned are human chart takeaways and LLM predictions?
Проверка результата пользователем
LLM часто ошибаются при работе с данными — в преобразованиях или в отображении. Поэтому нужны удобные интерфейсы, чтобы пользователь мог проверять и исправлять результат. Эти работы предлагают такие решения.
Urania: Visualizing Data Analysis pipelines for data exploration.
WaitGPT: Monitoring and steering conversational LLM agent
Оценка и эталонные тесты
Чтобы развивать новые системы визуализации на основе ИИ, нужно измерять их качество. Эти исследования предлагают способы тестирования и специальные наборы данных, которые позволяют объективно оценить работу моделей.
Automated Data Visualization from Natural Language
VisEval: A Benchmark for Data Visualization
Natural Language Dataset Generation Framework for Visualizations
Понимание реального использования
Чтобы понять ценность LLM для визуализации, важно смотреть на практику. Эти исследования показывают, как люди реально применяют модели в задачах с данными: с какими проблемами сталкиваются, какие возможности открываются и какие стратегии помогают.
An Interview Study on Human-AI Collaboration in Data Storytelling
Data has Entered the Chat
📊
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
