TechWeek London 24
Хочу поделиться не большим отзывом о посещении TechWeek London 24.
В целом мероприятие было посвящено инновациям в целом, без сильной фокусировки на каких-то отдельных областях бизнеса или технологиях. Масштаб мероприятия далек от того же WebSummit, а основная экспозиция состояла из стендов стран, поэтому можно сказать что это было прям выставка стран, а не компаний. Каждая страна рекламировала свою приверженность инновациям, инвестиционный климат и, кажется, ставила своей задачей привлечение как стартапов и компаний в свою локацию, так и инвесторов. На каждом стенде страны присутствовал сет местных стартапов. Самый масштабный стенд был у Дубай, так же очень большой стенд и интересные стартапы были привезены Турцией. Так же были представлены Кипр, МАльта, Палестина (внезапно), Пакистан и тд.
Если говорить о технологических трендах и инновациях, то я бы сказал, что 80% информационной повестки и выступлений спикеров были посвящено Искусственному Интеллекту и проблеме использования корпоративных данных большими языковыми моделями. NatWest (один из крупных банков UK) показал своего нового чат бота, который использует RAG от IBM и стал сильно умнее. “Умность” они при этом измеряют количеством сообщений между пользователем и ботом до получения окончательного ответа.
Из “прорывных” тем присутствовал космос и так же я послушал секцию про квантовые технологии. Квантовые технологии остается перспективой, хотя и много-обещающей. В ходе выступления спикеров у меня возник вопрос: интересно, а что для чего более важно - ИИ для квантового компьютера, который может ускорить исследования и разработки, или квантовый компьютер для ИИ, который будет его быстрее и лучше обучать? Но вопрос задать не удалось :(
Не очень много повестки было про вопросы этики и приватности, которым раньше уделялось большое внимание. Но был интересный FireChat с создателем Wikipedia на тему использования LLM для дезинформации и пропаганды. Мы явно недооцениваем тут угрозы.
IBM, которая ранее не была отмечена в числе создателей каких-то мощных LLM, рассказывала про важность Open-source (как и все, кто не имеет своей собственной модели :))) ) - но доля разумных аргументов тут явно присутствует (см слайд).
Из интересным спикеров я бы отметил:
⁃ Wayne - Alex Kendall
⁃ DeepMind - Lila Ibrahim
⁃ DeepL - Jarek Kutylowski
⁃ Writer - May Habib
⁃ Wikipedia - Jimmy Wales
Хочу поделиться не большим отзывом о посещении TechWeek London 24.
В целом мероприятие было посвящено инновациям в целом, без сильной фокусировки на каких-то отдельных областях бизнеса или технологиях. Масштаб мероприятия далек от того же WebSummit, а основная экспозиция состояла из стендов стран, поэтому можно сказать что это было прям выставка стран, а не компаний. Каждая страна рекламировала свою приверженность инновациям, инвестиционный климат и, кажется, ставила своей задачей привлечение как стартапов и компаний в свою локацию, так и инвесторов. На каждом стенде страны присутствовал сет местных стартапов. Самый масштабный стенд был у Дубай, так же очень большой стенд и интересные стартапы были привезены Турцией. Так же были представлены Кипр, МАльта, Палестина (внезапно), Пакистан и тд.
Если говорить о технологических трендах и инновациях, то я бы сказал, что 80% информационной повестки и выступлений спикеров были посвящено Искусственному Интеллекту и проблеме использования корпоративных данных большими языковыми моделями. NatWest (один из крупных банков UK) показал своего нового чат бота, который использует RAG от IBM и стал сильно умнее. “Умность” они при этом измеряют количеством сообщений между пользователем и ботом до получения окончательного ответа.
Из “прорывных” тем присутствовал космос и так же я послушал секцию про квантовые технологии. Квантовые технологии остается перспективой, хотя и много-обещающей. В ходе выступления спикеров у меня возник вопрос: интересно, а что для чего более важно - ИИ для квантового компьютера, который может ускорить исследования и разработки, или квантовый компьютер для ИИ, который будет его быстрее и лучше обучать? Но вопрос задать не удалось :(
Не очень много повестки было про вопросы этики и приватности, которым раньше уделялось большое внимание. Но был интересный FireChat с создателем Wikipedia на тему использования LLM для дезинформации и пропаганды. Мы явно недооцениваем тут угрозы.
IBM, которая ранее не была отмечена в числе создателей каких-то мощных LLM, рассказывала про важность Open-source (как и все, кто не имеет своей собственной модели :))) ) - но доля разумных аргументов тут явно присутствует (см слайд).
Из интересным спикеров я бы отметил:
⁃ Wayne - Alex Kendall
⁃ DeepMind - Lila Ibrahim
⁃ DeepL - Jarek Kutylowski
⁃ Writer - May Habib
⁃ Wikipedia - Jimmy Wales
Дайджест статей
Data Quality Score: The next chapter of data quality at Airbnb
https://medium.com/airbnb-engineering/data-quality-score-the-next-chapter-of-data-quality-at-airbnb-851dccda19c3
Relational Databases to Data Lakehouses: A Brief History of Data Management
https://lukianovihor.medium.com/a-brief-history-of-data-management-from-relational-databases-to-data-lakehouses-b76edcafe866
Why Is dbt So Popular?dbt + RisingWave: The Ultimate Real-Time Data Warehouse Combination
https://towardsdev.com/why-dbt-is-so-popular-8f957c945106
How Retrieval Augment Generation (RAG) makes LLMs smarter than before
https://www.datasciencecentral.com/how-retrieval-augment-generation-rag-makes-llms-smarter-than-before/
Миграция витрины данных с СУБД Teradata в СУБД Greenplum
https://habr.com/ru/companies/oleg-bunin/articles/821045/
Качество данных и роботы: как мы высвободили 5 рабочих часов в день сотрудника DQ
https://habr.com/ru/companies/tele2/articles/820991/
Открытые инструменты визуализации данных
https://habr.com/ru/companies/mws/articles/820959/
Машинное обучение в ЦОД: Можно ли доверить ИИ управление инфраструктурой?
https://habr.com/ru/companies/jetinfosystems/articles/820951/
Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство
https://habr.com/ru/articles/821547/
Как сделать дашборд в FineBI за 15 минут? Инструкция по созданию визуализаций
https://habr.com/ru/articles/821893/
Бизнес-сериал: формируем BI-систему в строительстве почти в прямом эфире. Часть I
https://habr.com/ru/companies/sminex_developer/articles/821807/
Простая документация с dbt: Упрощение документирования хранилищ данных
https://habr.com/ru/articles/821503/
Data Quality Score: The next chapter of data quality at Airbnb
https://medium.com/airbnb-engineering/data-quality-score-the-next-chapter-of-data-quality-at-airbnb-851dccda19c3
Relational Databases to Data Lakehouses: A Brief History of Data Management
https://lukianovihor.medium.com/a-brief-history-of-data-management-from-relational-databases-to-data-lakehouses-b76edcafe866
Why Is dbt So Popular?dbt + RisingWave: The Ultimate Real-Time Data Warehouse Combination
https://towardsdev.com/why-dbt-is-so-popular-8f957c945106
How Retrieval Augment Generation (RAG) makes LLMs smarter than before
https://www.datasciencecentral.com/how-retrieval-augment-generation-rag-makes-llms-smarter-than-before/
Миграция витрины данных с СУБД Teradata в СУБД Greenplum
https://habr.com/ru/companies/oleg-bunin/articles/821045/
Качество данных и роботы: как мы высвободили 5 рабочих часов в день сотрудника DQ
https://habr.com/ru/companies/tele2/articles/820991/
Открытые инструменты визуализации данных
https://habr.com/ru/companies/mws/articles/820959/
Машинное обучение в ЦОД: Можно ли доверить ИИ управление инфраструктурой?
https://habr.com/ru/companies/jetinfosystems/articles/820951/
Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство
https://habr.com/ru/articles/821547/
Как сделать дашборд в FineBI за 15 минут? Инструкция по созданию визуализаций
https://habr.com/ru/articles/821893/
Бизнес-сериал: формируем BI-систему в строительстве почти в прямом эфире. Часть I
https://habr.com/ru/companies/sminex_developer/articles/821807/
Простая документация с dbt: Упрощение документирования хранилищ данных
https://habr.com/ru/articles/821503/
Medium
Data Quality Score: The next chapter of data quality at Airbnb
In this blog post, we share our innovative approach to scoring data quality, Airbnb’s Data Quality Score (“DQ Score”).
Forwarded from Аналитика данных / Data Study
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Исследуем данные с помощью
Сегодня расскажу про инструмент, который вы можете использовать для первичного анализа данных (EDA) и оценки их качества (Data Quality Check) - это библиотека
Этот инструмент позволяет в считанные минуты получить полный отчёт о ваших данных, исследовать их основные характеристики и выявить потенциальные проблемы до глубокого погружения в анализ.
Основные возможности
1. Генерация отчётов
С помощью библиотеки можно быстро подготовить отчет , который включает в себя статистику по каждой переменной, распределения, корреляций, пропущенных значений и многое другое.
2. Оценка качества данных
Этот же отчет поможет обратить внимание на проблемы в ваших данных, такие как пропущенные значения, дубликаты или неоднозначные форматы, что позволит оперативно перейти к очистке данных.
3. Интерактивные визуализации
Можно визуально посмотреть на распределения и корреляции благодаря встроенным графикам и интерактивным элементам.
Как начать работу?
Для начала работы с
После установки загрузите ваш DataFrame и сгенерируйте отчёт в несколько строк кода:
И на выходе вы получаете отчет, который можно просматривать прямо в Юпитер ноутбуках, либо сохранить например в html и
открыть просто в браузере и даже поделиться с коллегами)
🔗 Официальная документация ydata-profiling
ydata-profiling
Сегодня расскажу про инструмент, который вы можете использовать для первичного анализа данных (EDA) и оценки их качества (Data Quality Check) - это библиотека
ydata-profiling
.Этот инструмент позволяет в считанные минуты получить полный отчёт о ваших данных, исследовать их основные характеристики и выявить потенциальные проблемы до глубокого погружения в анализ.
Основные возможности
ydata-profiling
:1. Генерация отчётов
С помощью библиотеки можно быстро подготовить отчет , который включает в себя статистику по каждой переменной, распределения, корреляций, пропущенных значений и многое другое.
2. Оценка качества данных
Этот же отчет поможет обратить внимание на проблемы в ваших данных, такие как пропущенные значения, дубликаты или неоднозначные форматы, что позволит оперативно перейти к очистке данных.
3. Интерактивные визуализации
Можно визуально посмотреть на распределения и корреляции благодаря встроенным графикам и интерактивным элементам.
Как начать работу?
Для начала работы с
ydata-profiling
нужно установить библиотеку, например с помощью pip
:pip install ydata-profiling
После установки загрузите ваш DataFrame и сгенерируйте отчёт в несколько строк кода:
import pandas as pd
from ydata_profiling import ProfileReport
df = pd.read_csv('data.csv')
profile = ProfileReport(df, title="Profiling Report")
И на выходе вы получаете отчет, который можно просматривать прямо в Юпитер ноутбуках, либо сохранить например в html и
открыть просто в браузере и даже поделиться с коллегами)
🔗 Официальная документация ydata-profiling
Страничка истории. На фото - оригинал IBM Quantum System One — первый в мире коммерческий квантовый компьютер на основе схем, представленный IBM в январе 2019 года. Он интегрирован в герметичный куб из боросиликатного стекла размером 2,7 метра с каждой стороны, который поддерживает контролируемую физическую среду. В центре куба находится разбавляющий холодильник с 20-кубитным транзмонным квантовым процессором.
Система разработана IBM Research при участии Map Project Office и Universal Design Studio. Она предназначена для научного и коммерческого использования, обеспечивая стабильные и предсказуемые кубиты благодаря криогенной инженерии и высокоточной электронике.
Система разработана IBM Research при участии Map Project Office и Universal Design Studio. Она предназначена для научного и коммерческого использования, обеспечивая стабильные и предсказуемые кубиты благодаря криогенной инженерии и высокоточной электронике.
Дайджест статей
Как эволюционировала платформа управления данными в Яндекс Go. Доклад Яндекса
https://habr.com/ru/companies/yandex/articles/822321/
Хранители данных: как устроена работа с DWH в Lamoda
https://habr.com/ru/companies/lamoda/articles/595811/
A Recap of the Data Engineering Open Forum at Netflix
https://netflixtechblog.com/a-recap-of-the-data-engineering-open-forum-at-netflix-6b4d4410b88f
Интеграция LLM в корпоративное хранилище данных
https://habr.com/ru/articles/822771/
Повышаем Data Quality: щепотка Soda для ваших данных
https://habr.com/ru/companies/banki/articles/822601/
Дата-центр ЦЕРН на 1 эксабайт: как хранят данные
https://habr.com/ru/companies/ruvds/articles/822681/
Открытые инструменты для бизнес-аналитики — когда нужно построить дашборды и работать с потоковыми данными
https://habr.com/ru/companies/mws/articles/822757/
Нужна ли нам Lakehouse архитектура?
https://habr.com/ru/companies/otus/articles/823336/
Миграция в облако глазами инженера: как мы строили гибрид для 144 виртуальных машин и 104 ТБ данных
https://habr.com/ru/companies/oxygendc/articles/822355/
Минутка истории: Откуда пришла идея централизации и единого источника актуальных данных
https://habr.com/ru/companies/rshb/articles/823558/
Он победил LLM RAG: реализуем BM25+ с самых азов
https://habr.com/ru/articles/823568/
Миграция Big Data на практике: как мы готовили напильники
https://habr.com/ru/companies/vtb/articles/816325/
Как эволюционировала платформа управления данными в Яндекс Go. Доклад Яндекса
https://habr.com/ru/companies/yandex/articles/822321/
Хранители данных: как устроена работа с DWH в Lamoda
https://habr.com/ru/companies/lamoda/articles/595811/
A Recap of the Data Engineering Open Forum at Netflix
https://netflixtechblog.com/a-recap-of-the-data-engineering-open-forum-at-netflix-6b4d4410b88f
Интеграция LLM в корпоративное хранилище данных
https://habr.com/ru/articles/822771/
Повышаем Data Quality: щепотка Soda для ваших данных
https://habr.com/ru/companies/banki/articles/822601/
Дата-центр ЦЕРН на 1 эксабайт: как хранят данные
https://habr.com/ru/companies/ruvds/articles/822681/
Открытые инструменты для бизнес-аналитики — когда нужно построить дашборды и работать с потоковыми данными
https://habr.com/ru/companies/mws/articles/822757/
Нужна ли нам Lakehouse архитектура?
https://habr.com/ru/companies/otus/articles/823336/
Миграция в облако глазами инженера: как мы строили гибрид для 144 виртуальных машин и 104 ТБ данных
https://habr.com/ru/companies/oxygendc/articles/822355/
Минутка истории: Откуда пришла идея централизации и единого источника актуальных данных
https://habr.com/ru/companies/rshb/articles/823558/
Он победил LLM RAG: реализуем BM25+ с самых азов
https://habr.com/ru/articles/823568/
Миграция Big Data на практике: как мы готовили напильники
https://habr.com/ru/companies/vtb/articles/816325/
Хабр
Как эволюционировала платформа управления данными в Яндекс Go. Доклад Яндекса
С 2017 года мы строим и постоянно адаптируем к меняющимся требованиям и внешним факторам платформу управления данными. Для нас это инфраструктура, которая живёт и переиспользуется...
Немного о квантовой механики
Я тут на выходные немного почитал про квантовую механику - неожиданно звезды так сложились, что мне попалось сразу несколько материалов, которые наконец-то немного позволили сделать шаг в перед в понимании того, что под этим термином понимают физики :)
Все знают, что этот раздел физики настолько контр-интуитивен, что вообще не понятно “где” оно все друг относительно друга, а область квантовой механики изобилует такими понятиями как “мультивселенные” (еще ими сейчас изобилуют фильмы про супергероев Марвел) и “теории струн” и вообще непонятно как эти все противоречащие друг-другу концепции продолжают иметь место быть :)
В общем если хотите немного разобраться - вот мои рекомендации:
По первых очень рекомендую книгу Джона Гриббина “Шесть невозможностей: Загадки квантового мира” - про шесть современных интерпретаций квантовой механики. Очень доступно и понятно. Книга очень небольшая, можно за пару дней освоить, но прям очень неплохо раскладывает все по полочкам.
- https://www.goodreads.com/book/show/59634283
По вторых серия статей на хабре от Диониса Диметора:
- https://habr.com/ru/users/dionisdimetor/publications/articles/
И в третьих, смотрите на YouTube материалы и лекции от Алексея Семихатова, например (имхо отличная лекция):
- https://www.youtube.com/watch?v=4iAkAT7mhnw
Я тут на выходные немного почитал про квантовую механику - неожиданно звезды так сложились, что мне попалось сразу несколько материалов, которые наконец-то немного позволили сделать шаг в перед в понимании того, что под этим термином понимают физики :)
Все знают, что этот раздел физики настолько контр-интуитивен, что вообще не понятно “где” оно все друг относительно друга, а область квантовой механики изобилует такими понятиями как “мультивселенные” (еще ими сейчас изобилуют фильмы про супергероев Марвел) и “теории струн” и вообще непонятно как эти все противоречащие друг-другу концепции продолжают иметь место быть :)
В общем если хотите немного разобраться - вот мои рекомендации:
По первых очень рекомендую книгу Джона Гриббина “Шесть невозможностей: Загадки квантового мира” - про шесть современных интерпретаций квантовой механики. Очень доступно и понятно. Книга очень небольшая, можно за пару дней освоить, но прям очень неплохо раскладывает все по полочкам.
- https://www.goodreads.com/book/show/59634283
По вторых серия статей на хабре от Диониса Диметора:
- https://habr.com/ru/users/dionisdimetor/publications/articles/
И в третьих, смотрите на YouTube материалы и лекции от Алексея Семихатова, например (имхо отличная лекция):
- https://www.youtube.com/watch?v=4iAkAT7mhnw
Goodreads
Шесть невозможностей: Загадки квантового мира
Квантовая физика — очень странная штука. Она утверждает…
Раз уж тут речь зашла про квантовые вычисления, коллеги из NoMLCommunity напомнили что у них недавно был вебинар на эту тему и поделились интересной подборкой материалов