TechWeek London 24
Хочу поделиться не большим отзывом о посещении TechWeek London 24.
В целом мероприятие было посвящено инновациям в целом, без сильной фокусировки на каких-то отдельных областях бизнеса или технологиях. Масштаб мероприятия далек от того же WebSummit, а основная экспозиция состояла из стендов стран, поэтому можно сказать что это было прям выставка стран, а не компаний. Каждая страна рекламировала свою приверженность инновациям, инвестиционный климат и, кажется, ставила своей задачей привлечение как стартапов и компаний в свою локацию, так и инвесторов. На каждом стенде страны присутствовал сет местных стартапов. Самый масштабный стенд был у Дубай, так же очень большой стенд и интересные стартапы были привезены Турцией. Так же были представлены Кипр, МАльта, Палестина (внезапно), Пакистан и тд.
Если говорить о технологических трендах и инновациях, то я бы сказал, что 80% информационной повестки и выступлений спикеров были посвящено Искусственному Интеллекту и проблеме использования корпоративных данных большими языковыми моделями. NatWest (один из крупных банков UK) показал своего нового чат бота, который использует RAG от IBM и стал сильно умнее. “Умность” они при этом измеряют количеством сообщений между пользователем и ботом до получения окончательного ответа.
Из “прорывных” тем присутствовал космос и так же я послушал секцию про квантовые технологии. Квантовые технологии остается перспективой, хотя и много-обещающей. В ходе выступления спикеров у меня возник вопрос: интересно, а что для чего более важно - ИИ для квантового компьютера, который может ускорить исследования и разработки, или квантовый компьютер для ИИ, который будет его быстрее и лучше обучать? Но вопрос задать не удалось :(
Не очень много повестки было про вопросы этики и приватности, которым раньше уделялось большое внимание. Но был интересный FireChat с создателем Wikipedia на тему использования LLM для дезинформации и пропаганды. Мы явно недооцениваем тут угрозы.
IBM, которая ранее не была отмечена в числе создателей каких-то мощных LLM, рассказывала про важность Open-source (как и все, кто не имеет своей собственной модели :))) ) - но доля разумных аргументов тут явно присутствует (см слайд).
Из интересным спикеров я бы отметил:
⁃ Wayne - Alex Kendall
⁃ DeepMind - Lila Ibrahim
⁃ DeepL - Jarek Kutylowski
⁃ Writer - May Habib
⁃ Wikipedia - Jimmy Wales
Хочу поделиться не большим отзывом о посещении TechWeek London 24.
В целом мероприятие было посвящено инновациям в целом, без сильной фокусировки на каких-то отдельных областях бизнеса или технологиях. Масштаб мероприятия далек от того же WebSummit, а основная экспозиция состояла из стендов стран, поэтому можно сказать что это было прям выставка стран, а не компаний. Каждая страна рекламировала свою приверженность инновациям, инвестиционный климат и, кажется, ставила своей задачей привлечение как стартапов и компаний в свою локацию, так и инвесторов. На каждом стенде страны присутствовал сет местных стартапов. Самый масштабный стенд был у Дубай, так же очень большой стенд и интересные стартапы были привезены Турцией. Так же были представлены Кипр, МАльта, Палестина (внезапно), Пакистан и тд.
Если говорить о технологических трендах и инновациях, то я бы сказал, что 80% информационной повестки и выступлений спикеров были посвящено Искусственному Интеллекту и проблеме использования корпоративных данных большими языковыми моделями. NatWest (один из крупных банков UK) показал своего нового чат бота, который использует RAG от IBM и стал сильно умнее. “Умность” они при этом измеряют количеством сообщений между пользователем и ботом до получения окончательного ответа.
Из “прорывных” тем присутствовал космос и так же я послушал секцию про квантовые технологии. Квантовые технологии остается перспективой, хотя и много-обещающей. В ходе выступления спикеров у меня возник вопрос: интересно, а что для чего более важно - ИИ для квантового компьютера, который может ускорить исследования и разработки, или квантовый компьютер для ИИ, который будет его быстрее и лучше обучать? Но вопрос задать не удалось :(
Не очень много повестки было про вопросы этики и приватности, которым раньше уделялось большое внимание. Но был интересный FireChat с создателем Wikipedia на тему использования LLM для дезинформации и пропаганды. Мы явно недооцениваем тут угрозы.
IBM, которая ранее не была отмечена в числе создателей каких-то мощных LLM, рассказывала про важность Open-source (как и все, кто не имеет своей собственной модели :))) ) - но доля разумных аргументов тут явно присутствует (см слайд).
Из интересным спикеров я бы отметил:
⁃ Wayne - Alex Kendall
⁃ DeepMind - Lila Ibrahim
⁃ DeepL - Jarek Kutylowski
⁃ Writer - May Habib
⁃ Wikipedia - Jimmy Wales
👍10
Дайджест статей
Data Quality Score: The next chapter of data quality at Airbnb
https://medium.com/airbnb-engineering/data-quality-score-the-next-chapter-of-data-quality-at-airbnb-851dccda19c3
Relational Databases to Data Lakehouses: A Brief History of Data Management
https://lukianovihor.medium.com/a-brief-history-of-data-management-from-relational-databases-to-data-lakehouses-b76edcafe866
Why Is dbt So Popular?dbt + RisingWave: The Ultimate Real-Time Data Warehouse Combination
https://towardsdev.com/why-dbt-is-so-popular-8f957c945106
How Retrieval Augment Generation (RAG) makes LLMs smarter than before
https://www.datasciencecentral.com/how-retrieval-augment-generation-rag-makes-llms-smarter-than-before/
Миграция витрины данных с СУБД Teradata в СУБД Greenplum
https://habr.com/ru/companies/oleg-bunin/articles/821045/
Качество данных и роботы: как мы высвободили 5 рабочих часов в день сотрудника DQ
https://habr.com/ru/companies/tele2/articles/820991/
Открытые инструменты визуализации данных
https://habr.com/ru/companies/mws/articles/820959/
Машинное обучение в ЦОД: Можно ли доверить ИИ управление инфраструктурой?
https://habr.com/ru/companies/jetinfosystems/articles/820951/
Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство
https://habr.com/ru/articles/821547/
Как сделать дашборд в FineBI за 15 минут? Инструкция по созданию визуализаций
https://habr.com/ru/articles/821893/
Бизнес-сериал: формируем BI-систему в строительстве почти в прямом эфире. Часть I
https://habr.com/ru/companies/sminex_developer/articles/821807/
Простая документация с dbt: Упрощение документирования хранилищ данных
https://habr.com/ru/articles/821503/
Data Quality Score: The next chapter of data quality at Airbnb
https://medium.com/airbnb-engineering/data-quality-score-the-next-chapter-of-data-quality-at-airbnb-851dccda19c3
Relational Databases to Data Lakehouses: A Brief History of Data Management
https://lukianovihor.medium.com/a-brief-history-of-data-management-from-relational-databases-to-data-lakehouses-b76edcafe866
Why Is dbt So Popular?dbt + RisingWave: The Ultimate Real-Time Data Warehouse Combination
https://towardsdev.com/why-dbt-is-so-popular-8f957c945106
How Retrieval Augment Generation (RAG) makes LLMs smarter than before
https://www.datasciencecentral.com/how-retrieval-augment-generation-rag-makes-llms-smarter-than-before/
Миграция витрины данных с СУБД Teradata в СУБД Greenplum
https://habr.com/ru/companies/oleg-bunin/articles/821045/
Качество данных и роботы: как мы высвободили 5 рабочих часов в день сотрудника DQ
https://habr.com/ru/companies/tele2/articles/820991/
Открытые инструменты визуализации данных
https://habr.com/ru/companies/mws/articles/820959/
Машинное обучение в ЦОД: Можно ли доверить ИИ управление инфраструктурой?
https://habr.com/ru/companies/jetinfosystems/articles/820951/
Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство
https://habr.com/ru/articles/821547/
Как сделать дашборд в FineBI за 15 минут? Инструкция по созданию визуализаций
https://habr.com/ru/articles/821893/
Бизнес-сериал: формируем BI-систему в строительстве почти в прямом эфире. Часть I
https://habr.com/ru/companies/sminex_developer/articles/821807/
Простая документация с dbt: Упрощение документирования хранилищ данных
https://habr.com/ru/articles/821503/
Medium
Data Quality Score: The next chapter of data quality at Airbnb
In this blog post, we share our innovative approach to scoring data quality, Airbnb’s Data Quality Score (“DQ Score”).
👍7
Forwarded from Аналитика данных / Data Study
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Исследуем данные с помощью
Сегодня расскажу про инструмент, который вы можете использовать для первичного анализа данных (EDA) и оценки их качества (Data Quality Check) - это библиотека
Этот инструмент позволяет в считанные минуты получить полный отчёт о ваших данных, исследовать их основные характеристики и выявить потенциальные проблемы до глубокого погружения в анализ.
Основные возможности
1. Генерация отчётов
С помощью библиотеки можно быстро подготовить отчет , который включает в себя статистику по каждой переменной, распределения, корреляций, пропущенных значений и многое другое.
2. Оценка качества данных
Этот же отчет поможет обратить внимание на проблемы в ваших данных, такие как пропущенные значения, дубликаты или неоднозначные форматы, что позволит оперативно перейти к очистке данных.
3. Интерактивные визуализации
Можно визуально посмотреть на распределения и корреляции благодаря встроенным графикам и интерактивным элементам.
Как начать работу?
Для начала работы с
После установки загрузите ваш DataFrame и сгенерируйте отчёт в несколько строк кода:
И на выходе вы получаете отчет, который можно просматривать прямо в Юпитер ноутбуках, либо сохранить например в html и
открыть просто в браузере и даже поделиться с коллегами)
🔗 Официальная документация ydata-profiling
ydata-profiling
Сегодня расскажу про инструмент, который вы можете использовать для первичного анализа данных (EDA) и оценки их качества (Data Quality Check) - это библиотека
ydata-profiling
.Этот инструмент позволяет в считанные минуты получить полный отчёт о ваших данных, исследовать их основные характеристики и выявить потенциальные проблемы до глубокого погружения в анализ.
Основные возможности
ydata-profiling
:1. Генерация отчётов
С помощью библиотеки можно быстро подготовить отчет , который включает в себя статистику по каждой переменной, распределения, корреляций, пропущенных значений и многое другое.
2. Оценка качества данных
Этот же отчет поможет обратить внимание на проблемы в ваших данных, такие как пропущенные значения, дубликаты или неоднозначные форматы, что позволит оперативно перейти к очистке данных.
3. Интерактивные визуализации
Можно визуально посмотреть на распределения и корреляции благодаря встроенным графикам и интерактивным элементам.
Как начать работу?
Для начала работы с
ydata-profiling
нужно установить библиотеку, например с помощью pip
:pip install ydata-profiling
После установки загрузите ваш DataFrame и сгенерируйте отчёт в несколько строк кода:
import pandas as pd
from ydata_profiling import ProfileReport
df = pd.read_csv('data.csv')
profile = ProfileReport(df, title="Profiling Report")
И на выходе вы получаете отчет, который можно просматривать прямо в Юпитер ноутбуках, либо сохранить например в html и
открыть просто в браузере и даже поделиться с коллегами)
🔗 Официальная документация ydata-profiling
❤5
Страничка истории. На фото - оригинал IBM Quantum System One — первый в мире коммерческий квантовый компьютер на основе схем, представленный IBM в январе 2019 года. Он интегрирован в герметичный куб из боросиликатного стекла размером 2,7 метра с каждой стороны, который поддерживает контролируемую физическую среду. В центре куба находится разбавляющий холодильник с 20-кубитным транзмонным квантовым процессором.
Система разработана IBM Research при участии Map Project Office и Universal Design Studio. Она предназначена для научного и коммерческого использования, обеспечивая стабильные и предсказуемые кубиты благодаря криогенной инженерии и высокоточной электронике.
Система разработана IBM Research при участии Map Project Office и Universal Design Studio. Она предназначена для научного и коммерческого использования, обеспечивая стабильные и предсказуемые кубиты благодаря криогенной инженерии и высокоточной электронике.
👍7🔥5❤1
Дайджест статей
Как эволюционировала платформа управления данными в Яндекс Go. Доклад Яндекса
https://habr.com/ru/companies/yandex/articles/822321/
Хранители данных: как устроена работа с DWH в Lamoda
https://habr.com/ru/companies/lamoda/articles/595811/
A Recap of the Data Engineering Open Forum at Netflix
https://netflixtechblog.com/a-recap-of-the-data-engineering-open-forum-at-netflix-6b4d4410b88f
Интеграция LLM в корпоративное хранилище данных
https://habr.com/ru/articles/822771/
Повышаем Data Quality: щепотка Soda для ваших данных
https://habr.com/ru/companies/banki/articles/822601/
Дата-центр ЦЕРН на 1 эксабайт: как хранят данные
https://habr.com/ru/companies/ruvds/articles/822681/
Открытые инструменты для бизнес-аналитики — когда нужно построить дашборды и работать с потоковыми данными
https://habr.com/ru/companies/mws/articles/822757/
Нужна ли нам Lakehouse архитектура?
https://habr.com/ru/companies/otus/articles/823336/
Миграция в облако глазами инженера: как мы строили гибрид для 144 виртуальных машин и 104 ТБ данных
https://habr.com/ru/companies/oxygendc/articles/822355/
Минутка истории: Откуда пришла идея централизации и единого источника актуальных данных
https://habr.com/ru/companies/rshb/articles/823558/
Он победил LLM RAG: реализуем BM25+ с самых азов
https://habr.com/ru/articles/823568/
Миграция Big Data на практике: как мы готовили напильники
https://habr.com/ru/companies/vtb/articles/816325/
Как эволюционировала платформа управления данными в Яндекс Go. Доклад Яндекса
https://habr.com/ru/companies/yandex/articles/822321/
Хранители данных: как устроена работа с DWH в Lamoda
https://habr.com/ru/companies/lamoda/articles/595811/
A Recap of the Data Engineering Open Forum at Netflix
https://netflixtechblog.com/a-recap-of-the-data-engineering-open-forum-at-netflix-6b4d4410b88f
Интеграция LLM в корпоративное хранилище данных
https://habr.com/ru/articles/822771/
Повышаем Data Quality: щепотка Soda для ваших данных
https://habr.com/ru/companies/banki/articles/822601/
Дата-центр ЦЕРН на 1 эксабайт: как хранят данные
https://habr.com/ru/companies/ruvds/articles/822681/
Открытые инструменты для бизнес-аналитики — когда нужно построить дашборды и работать с потоковыми данными
https://habr.com/ru/companies/mws/articles/822757/
Нужна ли нам Lakehouse архитектура?
https://habr.com/ru/companies/otus/articles/823336/
Миграция в облако глазами инженера: как мы строили гибрид для 144 виртуальных машин и 104 ТБ данных
https://habr.com/ru/companies/oxygendc/articles/822355/
Минутка истории: Откуда пришла идея централизации и единого источника актуальных данных
https://habr.com/ru/companies/rshb/articles/823558/
Он победил LLM RAG: реализуем BM25+ с самых азов
https://habr.com/ru/articles/823568/
Миграция Big Data на практике: как мы готовили напильники
https://habr.com/ru/companies/vtb/articles/816325/
Хабр
Как эволюционировала платформа управления данными в Яндекс Go. Доклад Яндекса
С 2017 года мы строим и постоянно адаптируем к меняющимся требованиям и внешним факторам платформу управления данными. Для нас это инфраструктура, которая живёт и переиспользуется...
👍9🍾2
Немного о квантовой механики
Я тут на выходные немного почитал про квантовую механику - неожиданно звезды так сложились, что мне попалось сразу несколько материалов, которые наконец-то немного позволили сделать шаг в перед в понимании того, что под этим термином понимают физики :)
Все знают, что этот раздел физики настолько контр-интуитивен, что вообще не понятно “где” оно все друг относительно друга, а область квантовой механики изобилует такими понятиями как “мультивселенные” (еще ими сейчас изобилуют фильмы про супергероев Марвел) и “теории струн” и вообще непонятно как эти все противоречащие друг-другу концепции продолжают иметь место быть :)
В общем если хотите немного разобраться - вот мои рекомендации:
По первых очень рекомендую книгу Джона Гриббина “Шесть невозможностей: Загадки квантового мира” - про шесть современных интерпретаций квантовой механики. Очень доступно и понятно. Книга очень небольшая, можно за пару дней освоить, но прям очень неплохо раскладывает все по полочкам.
- https://www.goodreads.com/book/show/59634283
По вторых серия статей на хабре от Диониса Диметора:
- https://habr.com/ru/users/dionisdimetor/publications/articles/
И в третьих, смотрите на YouTube материалы и лекции от Алексея Семихатова, например (имхо отличная лекция):
- https://www.youtube.com/watch?v=4iAkAT7mhnw
Я тут на выходные немного почитал про квантовую механику - неожиданно звезды так сложились, что мне попалось сразу несколько материалов, которые наконец-то немного позволили сделать шаг в перед в понимании того, что под этим термином понимают физики :)
Все знают, что этот раздел физики настолько контр-интуитивен, что вообще не понятно “где” оно все друг относительно друга, а область квантовой механики изобилует такими понятиями как “мультивселенные” (еще ими сейчас изобилуют фильмы про супергероев Марвел) и “теории струн” и вообще непонятно как эти все противоречащие друг-другу концепции продолжают иметь место быть :)
В общем если хотите немного разобраться - вот мои рекомендации:
По первых очень рекомендую книгу Джона Гриббина “Шесть невозможностей: Загадки квантового мира” - про шесть современных интерпретаций квантовой механики. Очень доступно и понятно. Книга очень небольшая, можно за пару дней освоить, но прям очень неплохо раскладывает все по полочкам.
- https://www.goodreads.com/book/show/59634283
По вторых серия статей на хабре от Диониса Диметора:
- https://habr.com/ru/users/dionisdimetor/publications/articles/
И в третьих, смотрите на YouTube материалы и лекции от Алексея Семихатова, например (имхо отличная лекция):
- https://www.youtube.com/watch?v=4iAkAT7mhnw
Goodreads
Шесть невозможностей: Загадки квантового мира
Квантовая физика — очень странная штука. Она утверждает…
👍11🔥3👎2