Telegram Web Link
Что объединяет аналитиков, продактов, CPO, CDO и ML-разработчиков?
Aha!25 — конференция про то, как решать продуктовые задачи с помощью ML, аналитики и data-driven подхода.

2 дня, 16 тематических потоков, более 1200 участников и доклады от практиков из Яндекса, Авито, OZON, Т-Банка, Альфа-Банка, а также исследователей из ИТМО, РЭШ, МФТИ и других научных центров. На Aha!25 обсудят актуальные вопросы, над которыми многие задумываются, но не все находят ответ.

• Что делать, когда A/B-тест дает противоречивые результаты?
• Как проводить эксперименты и трактовать результаты?
• Как встраивать ML и ИИ в продукты с пользой для дела — а как это делать точно не надо?
• Как поведенческая экономика помогает принимать решения и развивать продукт?

👀 Программа доступна по ссылке. Знакомьтесь, и если увидите что-то интересное — регистрируйтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
От запроса до результата: как работает SQL-движок
SQL-движок — это логический уровень между пользователем и данными в базе, который отвечает за обработку запроса и формирование результата. Но как он это делает?

Один из авторов проекта Dolt (как его описывают сами разработчики — БД, которая работает, как репозиторий на GitHub) написал целую статью про опыт работы с их движком go-mysql-server. Хотя акцент именно на этот движок, он также рассказывает про разные подходы и принципы работы SQL-движков в целом.

Если кратко:
🔵Выполнение запроса можно разделить на 7 шагов — парсинг, привязка к данным в БД, упрощение плана выполнения, оптимизация порядка выполнения джойнов, оценка эффективности плана, выполнение, вывод результатов.
🔵Сначала движок проверяет корректность запроса. Он формирует абстрактное синтаксическое дерево на этапе парсинга, а затем сопоставляет его с данными в базе.
🔵Если запрос был составлен правильно, то движок начинает формировать оптимальный план работы — наиболее быстрый и требующий минимально необходимое количество ресурсов, с учетом всех функций, джойнов и агрегаций. Для этого он старается как можно скорее «отбросить» все строки и колонки, которые не нужны в запросе, а также просчитывает разные варианты выполнения и выбирает самый быстрый.
🔵В конце концов, движок конвертирует выбранный план в исполняемый формат и выдает юзеру долгожданный результат.

Автор каждый пункт разбирает подробно — как движок парсит запрос, с какими сущностями в БД сопоставляет на стадии привязки и как подбирает оптимальный способ выполнения запроса, еще и с картинками. В общем, почитать любопытно, даже если с Dolt работать не планируете.
Please open Telegram to view this post
VIEW IN TELEGRAM
DataLens открывает галерею дашбордов и не только
Любите иногда позалипать повдохновляться на Tableau Public? Да, мы тоже — а кто не любит?

Теперь то же самое можно будет сделать, но с дашбордами на Yandex DataLens — сервис запускает DataLens Gallery. Это галерея с готовыми примерами дашбордов и чартов. Можно будет как добавить свою работу, так и посмотреть чужие, еще и с разбивкой по отраслям. Особенно понравившиеся даже можно будет развернуть у себя — если автор дал разрешение.

Кроме того, DataLens запускает:
🔵Editor JavaScript-редактор для кастомизации графиков и таблиц с поддержкой интеграции данных из разных источников, включая внешние API. Он нацелен на опытных аналитиков, но в будущем планируется внедрение LLM-помощника для генерации визуализаций по текстовому описанию.
🔵Экспорт/импорт и перенос воркбуков между окружениями. Переносить объекты между инсталляциями станет намного проще, где бы они ни находились. Уже доступно в Yandex Cloud и open-source, а скоро обещают и в on-premise.
🔵Программу сертификации для специалистов по работе с сервисом. Чтобы получить сертификат и с гордостью написать в резюме, что вы владеете DataLens, нужно будет сдать экзамен: там проверят умение работать с чартами, датасетами, датасорсами и дашбордами. Вообще это будет стоить 5000 рублей, но до конца августа — всего 2500₽.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
"Нашу маму и там, и тут показывают" — LEFT JOIN на Aha!25

Пусть в этом году команда LEFT JOIN не смогла присоединиться к конференции физически, мы все равно не могли это пропустить.

Передаем привет и желаем послушать как можно больше крутых выступлений — а перерывах поймать наше видео на экранах в фойе "Ломоносова"!
Быстрее, выше, сильнее: что нового у dbt
28 мая dbt провела Launch Showcase, где представила сразу несколько крупных изменений.
🔵dbt Fusion — новый движок, который будет в 30 раз быстрее старого. Он сможет проверять правильность SQL-запроса и выдавать подсказки с учетом контекста, а также на 10% (а то и больше!) снизить расходы на хранение данных.
🔵Расширение dbt VS Code — чтобы все новые фичи dbt стали доступны и в VS Code.
🔵dbt MCP Server — инструмент для интеграции LLM в проекты в dbt.
🔵dbt Canvas, dbt Insights и dbt Catalog (бывший dbt Explorer) — инструменты для аналитиков, которые сделают удобнее и проще работу с данными. В Canvas можно будет простым drag-and-drop строить и редактировать модели. С помощью Insights (который понимает как SQL, так и запросы на естественном языке) — исследовать данные, искать инсайты и проверять гипотезы. В обновленном Catalog пользователи смогут просматривать таблицы и представления в Snowflake. Поддержку остальных хранилищ тоже обещают подвезти, но попозже.

Как вам такие новости?
👀 Впечатлены?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Неуверенный калькулятор
Было бы здорово, если бы все в этом мире было точно и однозначно, особенно, когда речь идет о цифрах. Например, когда вы планируете переезд в другой город или хотите прикинуть доход от инвестиций.

Но так бывает не всегда, и нам регулярно приходится иметь дело с неопределенностью, когда в уравнении слишком много переменных. Вместо точных цифр — размытое «зарплата от 50 до 150к», «ремонт будет стоить то ли 10 000, то ли 100 000 и займет где-то от недели до полугода» и все в таком духе.

И как быть?

🔜 Вечный вопрос, на который у нас наконец-то есть ответ — использовать неуверенный калькулятор. Суть проста: вы вносите в него не точные цифры, а диапазон от минимального возможного значения до максимального. Таких диапазонов в расчетах может быть несколько, и в ответе он тоже выдаст диапазон — от минимального результата, который вы можете получить с вашими вводными, до максимального.

Калькулятор не рассчитывает никакие вероятности, ковариантности и прочее, но помогает хотя бы обрисовать границы, на что вы можете рассчитывать.

🔜 Автор пишет, что вариантов использования у его разработки множество — от расчета эффективности маркетинговой кампании до вычисления количества инопланетных цивилизаций, с которыми человечество может вступить в контакт.
Please open Telegram to view this post
VIEW IN TELEGRAM
Как работают data-специалисты в 2025?
Инженеры, аналитики, дата-сайентисты, ML-специалисты — как у вас дела? Как работа? Чем вы занимаетесь и какие инструменты используете?

А хотите не только про себя рассказать, но и узнать, как дела у коллег?
🔵Узнать про тренды в индустрии и набирающие популярность инструменты.
🔵Увидеть, как обстоят дела на рынке труда и сколько работодатели готовы специалистам вашего профиля.
🔵Подсмотреть, как устроены рабочие процессы в других компаниях и перенять лучший опыт.

Тогда пройдите опрос от команды DevCrowd. Он займет 15 минут и поможет составить честную и объективную картину data-рынка в 2025 году. Результаты выложат в открытый доступ в августе.

🔜 Пройти опрос

P.S. А тут можно посмотреть результаты за прошлый год 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from 🔋 Труба данных (Simon Osipov)
Редкое явление для нашего острова!
Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
Forwarded from 🔋 Труба данных (Simon Osipov)
LEFT JOIN
Редкое явление для нашего острова! Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
Максимальное спасибо @valiotti и @cyprusdata за организацию этого эвента!

Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP
А вы видели топ книжных бестселлеров мая?
«Причем здесь аналитика и книжные бестселлеры?» — спросите вы.

А при том, что в этот топ попала книга Николая Валиотти «Аналитика для руководителей»! 🔥

Мы про нее уже много раз рассказывали на этом канале, поэтому не будем повторяться — ну почти. Просто напомним про лендинг c ссылками на все магазины, где вы можете ее купить, если еще этого не сделали.
Please open Telegram to view this post
VIEW IN TELEGRAM
Про превосходство таблиц над пончиками
Пайчарты и их разновидности (вроде «пончиков» из заголовка, которые те же пайчарты, по сути, просто с дыркой в центре) — парадоксальный способ визуализации данных.

🔜 С одной стороны, это один из самых популярных чартов, которые хотя бы иногда используют все: от аналитиков и спецов по датавизу до школьников и студентов, которые готовят презентации для уроков. Это очевидный и интуитивный способ показать соотношение долей.

🔜 С другой стороны, многие их не любят, считая неудобными и неинформативными: якобы все, что можно изобразить на пайчарте, можно намного эффективнее и понятнее показать на каком-нибудь другом графике.

Если вы подумали, что сейчас мы этот тезис опровергнем и выступим в защиту пайчартов, то нет. Наоборот — принесли очередной пруф, что иногда ту же самую информацию намного полезнее будет изобразить в виде таблицы.

Пример из блога Datawrapper, куда иногда пользователи присылают свои графики с просьбой отредактировать их. На этот раз прислали визуализацию с несколькими пайчартами, на которых показано состояние мостов в разных штатах — сколько среди них аварийных, надежных и «ну, пойдет» в процентном соотношении. Казалось бы, идеальный сценарий именно для пайчарта, но все равно выглядит график так себе. Неудобно, скучно и непонятно.

🔜 Первая же правка, которую предложил специалист Datawrapper — отказаться от пайчартов в пользу старой доброй таблицы. Было-стало прикрепили к посту, ну а по ссылке вы можете более подробно почитать про остальные изменения и логику, которая за ними стоит.

Как вам результат? Стало лучше или можно было предложить другой вариант?
👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Онлайн-магистратура по дата-аналитике: набор открыт!
Онлайн-курсам часто не хватает фундаментальной вузовской базы, а многие университетские программы не успевают за развитием индустрии и не дают актуальные знания.

Институт искусственного интеллекта и анализа больших данных BASAND.AI ТГУ совместно с Академией Дата-Дайвинг разработали онлайн-магистратуру, которая решает обе эти проблемы. Программа «Дата-аналитика для бизнеса» создана, чтобы готовить специалистов, которые умеют не просто строить графики, а решать реальные бизнес-задачи с помощью данных по трем направлениям:
🔵продуктовая аналитика,
🔵маркетинговая аналитика,
🔵BI-аналитика.

Студенты учатся онлайн, но со всеми плюсами очного образования, включая студенческие льготы и отсрочки от армии. Их наставниками будут как преподаватели ТГУ, так и практики из Авито, Газпромнефти, Ситимобил и других компаний, которые у всех на слуху.

В результате выпускники изучат современные инструменты и технологии анализа данных и получат сразу два диплома: магистратура ТГУ и профпереподготовка от Академии Дата-Дайвинг. Они поучаствуют в проектах с реальными бизнес-кейсами, в том числе — у генерального партнера Wildberries & Russ.

Программа подойдет:
🔵студентам старших курсов и выпускникам бакалавриата,
🔵специалистам из смежных областей, готовым к смене профессии,
🔵аналитикам, желающим расти до уровня тимлидов или менеджеров.

Старт обучения — 18 сентября 2025 года. Длительность программы — 2 года.

🔜 Узнайте подробнее и оставьте заявку на сайте.

Количество мест ограничено.
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему разговаривать с компьютерами — плохая идея
Но не всегда.

Скорое наступление эры умных компьютеров, с которыми можно говорить, как с человеком, предсказывают еще с момента появления голосовых ассистентов вроде Siri. Потом были умные колонки вроде Alexa, а вот теперь — ИИ-помощники и чат-боты с LLM под капотом, которых добавляют во все сервисы и приложения подряд.

Но теперь давайте честно — сколько людей на самом деле пользуются этими ИИ-ассистентами? Если что, вопрос не риторический, пишите ответы в комментах.

Каждая новая технология оказывается на деле не такой прорывной, как на словах, и все ждут следующую итерацию, которая точно изменит мир.

👀 Но может быть на самом деле нам это не нужно?

Естественный язык, которому все так хотят обучить компьютеры, — это не идеальный способ передачи информации. В этом эссе автор приводит любопытные аргументы:
🔵Мы принимаем информацию намного быстрее, чем передаем — можно слушать подкаст на скорости х2, а вот записывать его таким образом уже не получится.
🔵При общении с людьми мы используем способы «компрессии» информации. Можно сказать: «Я с тобой согласен», а можно просто кивнуть — сжать информацию то есть.
🔵При «общении» с компьютером тоже есть способы ускорить обмен данными, и они удобнее, чем команды на естественном языке. Проще посмотреть на виджет с температурой за окном, чем спрашивать: «Окей, Гугл, какая сегодня погода?» Кликнуть мышкой, нажать на кнопку, открыть приложение в большинстве случаев будет быстрее и удобнее, чем писать или проговаривать указания для ИИ.

Получается, что хотя технологии и становятся лучше, но наши встроенные человеческие ограничения никуда не деваются. Но это не значит, что учить компьютеры говорить на естественном языке не надо!

🔜 Ценность ИИ-помощников можно найти не в скорости, а в том, что с ними обсудить задачу и поискать решение вместе. ИИ нужен не для того, чтобы заменить людей, привычные рабочие инструменты или процессы, а для того, чтобы дополнить их. Speech-to-text не замена клавиатуре с мышкой, а альтернатива для случаев, когда неудобно печатать.

А что вы думаете — начнем мы когда-нибудь общаться с компьютерами, как с людьми?
Please open Telegram to view this post
VIEW IN TELEGRAM
У аналитиков свои марафоны
С приходом тепла все парки (и соцсети заодно) захватывают любители бега, хвастаются медалями и преодоленными километрами. А на выходных еще и дороги перекрывают для очередного городского марафона.

У нас тоже есть свой марафон — только особенный, специально для тех, кто бегать не хочет и дороги перекрывать не собирается.

🔜 Это, конечно, «Марафон данных» — бесплатный курс по SQL и Python, разработанный нашей командой.

Курс рассчитан на людей, которые начинают знакомство с аналитикой — для студентов, джунов и тех, кто только задумывается о работе в этой сфере.

«Марафон данных» не просто дает теорию по SQL и Python, но и помогает получше узнать, что из себя представляет профессия аналитика на практике: какие задачи надо решать и что из себя представляют реальные данные.

Курс состоит из 18 уроков с задачами и тестами, а на прохождение понадобится около 10 часов.

🔜 Пройти курс
Please open Telegram to view this post
VIEW IN TELEGRAM
Где хранить данные?
Локально или в облаке? SSD или HDD?

Облако может упасть, диски подвержены ошибкам и сбоям, которые могут повредить данные, зато рукописи, как известно, не горят. Разные способы кодирования позволяют довольно плотно упаковать данные на листе бумаги, а некоторые потом (теоретически) даже можно прочитать и декодировать самостоятельно без сканера или камеры.

🔵Первый же скрин в этом посте — программа, закодированная по стандарту Base64. Этот метод называется OCR (optical character recognition, оптическое распознавание символов). У автора скрина, в зависимости от размера шрифта и стандарта кодирования, получалось «упаковать» до 17 килобайт на листе А4. Правда, чем убористее текст, тем сложнее потом с ним работать.
🔵 Другой метод — черно-белые QR-коды. В один код помещается до 2953 байт — немного, но ведь и на листе можно разместить несколько кодов. Количество зависит только от качества печати. Тот же автор смог уместить на листе 24 читабельных QR или 71 килобайт, скрин в статье тоже есть. Но тут уже самостоятельно информацию не прочитать, нужен специальный софт.
🔵Более красивый способ — шифрование цветными точками. Выглядит намного эффектнее, чем скучные одноцветные QR, емкость данных выше, но нужен не просто очень хороший принтер, но еще и цветной. Иначе толку от этой красоты не будет.

Как вам такие способы хранить данные? Готовы сделать бекап базы на бумаге?
Please open Telegram to view this post
VIEW IN TELEGRAM
Каким облачным хранилищем вы пользуетесь?
Если Skype (RIP) — лучший файлообменник, то Youtube — лучшее облачное хранилище.

Да, мы продолжаем тему любопытных способов хранения данных. Если печатать их на бумаге не с руки, то как насчет зашифровать в видео и залить на YouTube?

Алгоритм такой:
🔵Упаковать все данные в архив.
🔵Прогнать архив через специальный софт отсюда.
🔵Впечатлиться размером получившегося видео, которое, скорее всего, будет больше исходного архива. Визуалом впечатлиться вряд ли получится, потому что видео выглядят на первый взгляд, как черно-белые помехи на экране.
🔵Залить видео на Youtube. Желательно ограничить доступ, если не хотите делиться своими данными со всем интернетом.
🔵При необходимости видео можно скачать и распаковать обратно.

Как это работает?
Каждый байт можно представить в виде числа от 0 до 255. Визуально зашифровать последовательность байтов можно бинарным методом и RGB-методом.
🔵В этом проекте используется бинарный шифрования, где каждый белый пиксель — это 1, а каждый темный — это 0. Из этих нулей и единиц складываются байты, а из байтов, соответственно, ваши данные.
🔵 RGB-метод был бы изящнее и компактнее, потому что в каждой точке могло быть зашифровано сразу три байта: по одному на каждый из трех оттенков. Но для этого метода крайне важно точно сохранить цвет каждого пикселя — если он при сжатии видео изменится, то «разжать» его вы уже не сможете. Так как Youtube сжимает свои видео совершенно безжалостно, автор проекта этот метод забраковал.

Остается только один вопрос — зачем это все надо?
Теоретически таким способом действительно можно хранить данные — по крайней мере, пока Youtube это не надоест. А надоесть может, потому что если захотеть, то в загрузке таких видео можно усмотреть нарушение правил пользования площадкой.

Да и просто интересный проект же получился.

А что вы скажете?
Please open Telegram to view this post
VIEW IN TELEGRAM
DataChain: AI-хранилище для текстов, картинок, видео и не только
Так совпало, что эта неделя у нас оказалась посвящена разным способам хранения данных. Не будет отходить от темы и закончим на DataChain — AI-хранилище для преобразования и анализа неструктурированных данных.

🔵DataChain интегрируется с внешним хранилищем вроде S3, где у вас лежат ваши тексты, картинки, видео и прочие данные. Он создает свой внутренний датасет, где собирает информацию обо всех этих объектах и дополняет мета-данными, которые генерирует с помощью ИИ.
🔵Затем вы с этими данными можете делать почти что угодно — трансформировать, фильтровать, группировать, искать файлы по заданным критериям (например, выбрать только все фотографии с котиками).
🔵Поддерживает мультимодальное версионирование без копирования, дублирования и перемещения данных и эффективные процессы обработки. Он может обработать только новые файлы или перепроверить те, которые выдавали ошибки, не тратя время на то, чтобы пройтись по всему датасету.

Вот так от печати на бумаге, перешли к AI с мультимодальным версионированием. 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/27 16:24:02
Back to Top
HTML Embed Code: