Telegram Web Link
🏆Сергей Золотарев, основатель и директор по стратегическому развитию Arenadata, состоит в экспертном совете Data Award с момента создания премии.
✔️Сергей рассказал, какой путь премия прошла за годы существования, а также поделился наблюдениями, как, на его взгляд, изменилась профессия CDO, и идеями о том, что ждет ее в будущем.
📖Читайте подробнее в интервью с Сергеем➡️ "CDO должен соблюдать баланс между технологиями и бизнесом"
Please open Telegram to view this post
VIEW IN TELEGRAM
Дайджест статей

CRUS: принципиально новая архитектура работы с данными
https://habr.com/ru/articles/863968/

Платформа данных в хранилище Магнит OMNI
https://habr.com/ru/companies/magnit/articles/864472/

О векторных базах данных простым языком
https://habr.com/ru/companies/ruvds/articles/863704/

Сколько стоит искусственный интеллект для малого бизнеса
https://habr.com/ru/articles/864882/

NLP: когда машины начинают понимать нас (Часть 1)
https://habr.com/ru/articles/864656/

NLP: когда машины начинают понимать нас (Часть 2)
https://habr.com/ru/articles/864778/

NLP: когда машины начинают понимать нас (Часть 3)
https://habr.com/ru/articles/864912/

Конкурентное преимущество: почему ИИ-агенты — ключ к успеху вашего бизнеса
https://habr.com/ru/articles/864618/

Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях
https://habr.com/ru/companies/wildberries/articles/861466/

Построение базы знаний компании и поиска документов на LLM и RAG
https://habr.com/ru/companies/raft/articles/863888/

Пора перестать в любой непонятной ситуации строить DWH для аналитики
https://habr.com/ru/articles/863308/
Forwarded from AI is all you need
Закон Бенфорда

Для начала проведём мысленный эксперимент. Предположим, что у нас есть прибор, который может измерить всё что угодно - массу любой планеты, скорость света, период полураспада частицы, население любого города, объём песка в пустыне, глубину моря и т.д.

Если мы заранее не знаем результата, то какова вероятность того, что первая цифра в измерении "1" (например, как заряд электрона, или населения Китая)?

А какая вероятность того, что первая цифра в измерении "9" (например, как у постоянной Фарадея)?

Теперь попробуйте ответить, изменится ли вероятность, если мы переключим наш прибор на другую единицу измерения - например, вместо метров будем использовать футы?

Интуитивно можно предположить, что вероятность увидеть единицу на первом месте в измерении такая же, как и девятку. На самом деле это не так.

В 1938 году физик Фрэнк Бенфорд проанализировал данные о площади бассейна сотен рек, удельной теплоёмкости и молекулярном весе тысяч химических соединений, номерах домов сотен улиц.

Он выявил, что единица является первой значащей цифрой с вероятностью не 1/9, как следовало ожидать, а около 1/3!

Закон первой цифры

Закон Бенфорда (или закон первой цифры) гласит, что в реальной жизни цифра 1 на первом месте встречается гораздо чаще, чем все остальные. Также, чем меньше эта цифра, тем выше вероятность.
То есть единица на первом месте встречается, приблизительно в 30% случаях, и примерно в 6 раз чаще, чем цифра 9.

Если быть более точным, то вероятность появления цифры d на первом месте равна log10(1 + 1/d).

Вы можете проверить это сами на простом примере. Составьте список файлов на вашем компьютере, а затем проанализируйте, на какую цифру начинается размер файла. Я лично проверил это на своих файлах - распределения первой цифры невероятно точно соответствуют закону Бенфорда.

И кстати, как вы можете уже догадаться, система измерения не влияет на закон. Не важно, проводим ли мы измерение в секундах или часах - вероятность первой цифры не меняется.
Обсуждали с коллегами сегодня алгоритм"vector clocks" и редакция решила и тут поделиться информацей и статьей о том что это такоею. Может быть кому то покажется интересным.

vector clocks:
- это такой метод установления seq num у сообщений, которыми обмениваются более 2-х компонентов работающих в распределенной среде с ненадежной средой передачи данных

- предназначен для того, что бы гарантировать обработку сообщений принимающими компонентами в том же порядке, в котором они были сгенерированы в источнике в случае если мы не может гаранировать того, что они дойдут до приемника в том же порядке, в котором бы отправлены источником

- приемник использует буфер, что бы накапливать приходящие сообщения и обрабатывать их по мере того, как востанавливается их порядок

то есть основная идея/задача алгоритма - гарантировать, что сообщения будут обработаны приемником в том же порядке, что их генерировали источники

краткое описание с примерами кода:

https://www.geeksforgeeks.org/vector-clocks-in-distributed-systems/
Коллеги подсказали интересную статью - краткий обзор состояния рынка конфиденциальных вычислений. Редакцию эта тема особенно интересует, но, к сожалению, времени на ее предметное и практическое изучение не очень много остается, поэтому продолжаем пока больше наблюдать, чем изменять происходящее 🙂

В целом интересно:

"Объем глобального рынка конфиденциальных вычислений по итогам 2024 г. будет находиться на уровне $824 млн (примерно 86 млрд руб.), прогнозируют в консалтинговой компании MarketsandMarkets. При этом на протяжении пяти лет, до 2029 г., темпы его ежегодного прироста будут составлять 11,4%, таким образом, к началу следующего десятилетия объемы мирового рынка MPC перевалят за $1,4 млрд."

"«Для эффективной работы с данными необходимо создавать экосистемы для их совместного использования. Коммерческие и государственные организации ищут возможности взаимодействовать друг с другом так, чтобы не нарушать регуляторные ограничения и не разглашать чувствительную информацию. И здесь конфиденциальные вычисления могут стать серьезным подспорьем»"

https://www.vedomosti.ru/technologies/trendsrub/articles/2024/12/03/1078864-konfidentsialno-i-tehnologichno
Дайджест статей

Каталог данных своими руками из PowerBi и небольшой БД
https://habr.com/ru/companies/vkusvill/articles/864998/

Корпоративная школа BI: от таблиц на коленке до дашбордов, которые реально работают
https://habr.com/ru/companies/leroy_merlin/articles/864328/

ML в промышленности: как построить систему управления процессом окомкования железорудных окатышей
https://habr.com/ru/companies/oleg-bunin/articles/865088/

Миграция с Tableau на опенсорс-версию DataLens: лёгкий путь с препятствиями
https://habr.com/ru/companies/yandex_cloud_and_infra/articles/865648/

Инфраструктура для Data-Engineer виртуальные окружения
https://habr.com/ru/articles/861412/

Как решения Data Access Governance и Data Centric Audit Protection помогают бороться с утечками данных
https://habr.com/ru/companies/solarsecurity/articles/866422/

Multi-Agent Conversation With AutoGen AI
https://dzone.com/articles/multi-agent-conversation-with-autogen-ai

LLMs may have a killer enterprise app: ‘digital labor’ — at least if Salesforce Agentforce is any indicator
https://techcrunch.com/2024/12/04/llms-may-have-a-killer-enterprise-app-digital-labor-at-least-if-salesforce-agentforce-is-any-indicator/

Data Architectures in the AI Era: Key Strategies and Insights
https://dzone.com/articles/data-architectures-in-the-ai-era

Apache Iceberg: The Open Table Format for Lakehouses and Data Streaming
https://dzone.com/articles/apache-iceberg-open-table-format-lakehouses-data-streaming

Unlocking Enterprise Data Potential with Retrieval Augmented Generation
https://www.smartdatacollective.com/unlocking-enterprise-data-potential-with-retrieval-augmented-generation/
The Art of Discoverability and Reverse Engineering User Happiness

На днях обсуждали с коллегой какие перспективные темы есть в области управления данными и редакция высказала мысль, что задача Data Catalog так до сих пор и не решена. Пару лет назад к ней было приковано много внимания, но потом появились LLM и все убежали смотреть на них, а каталоги так и не вышли на какой-то более менее зрелый уровень.

По итогам хотим поделиться статьей по теме Data Discoverability.

В чем основные тезисы материала:
⁃ Основная идея - создание глобальной meta-модели данных описывающей всех источники данных организации
⁃ Решаемая проблема: работа с данными требует создания отдельных источников данных под каждый паттерн работы с данными что порождает в компаниях большое количество разрозненных источников часто с дублирующейся информацией
⁃ Данные очень динамичны, поэтому платформа метаданных должна следить за их постоянным развитием и поддерживать свежие метаданные, чтобы не допустить расхождений и пробелов между необработанными данными и бизнес-пониманием.
⁃ Что такое глобальная meta-model: модель данных для метаданных, позволяющая пользователям исследовать взаимосвязи и определять лучшие наборы данных, относящиеся к их текущему запросу. Она объединяет множество активов данных, источников, сервисов, целей и пользователей, обеспечивая логические связи, придающие данным смысл. Она активирует неактивные данные, подключая их к обширной сети экосистемы данных, позволяя пользователям и машинам начать использовать огромные объемы данных, которые ранее были бессмысленны из-за отсутствия семантики.
⁃ Плюсы наличия такой модели очевидно - и бизнесу и технологам жить сильно легче и проще 🙂
⁃ Какие типы решений могут помочь в реализации: Catalogs, Data Hubs, Marketplaces

https://moderndata101.substack.com/p/the-art-of-discoverability-and-reverse?utm_source=post-email-title&publication_id=1170209&post_id=153015029&utm_campaign=email-post-title&isFreemail=true&r=15862q&triedRedirect=true&utm_medium=email
тихо и незаметно в ChatGPT выкатилося o1 без приставки preview
Benchmark For Analytical DBMS

Вы когда нибудь имели диску на тему какая BD быстрее? Тогда наверное знаете, что нет правильного ответа на этот вопрос и что выбор BD должен быть обоснован конкретным кейсом и даже такие вещи как “распределение различных значений” в типовом профиле нагрузке на BD - важно.

В мире есть довольно большое количество рейтингов и сравнений разных BD но хитрость в том, что всегда надо смотреть на то на каких данных делается это сравнение, потому что хитрые производители BD всегда используют именно такой дата-сет, на котором они показывают лучшие результаты.

Вот примеры разных сравнений сравнений:

ClickBench — a Benchmark For Analytical DBMS: https://benchmark.clickhouse.com/
Brown University Mgbench: https://github.com/andrewcrotty/mgbench
UC Berkeley AMPLab Big Data Benchmark: https://amplab.cs.berkeley.edu/benchmark/
Mark Litwinschik's NYC Taxi: https://tech.marksblogg.com/benchmarks.html
h2o.ai https://h2oai.github.io/db-benchmark/
TPC-H: https://www.tpc.org/tpch/
TPC-DS: https://www.tpc.org/tpcds/

А вот очень неплохая статья со ссылками на описания особенности разных BD и другие рейтинги: https://habr.com/ru/companies/ruvds/articles/851330/
Лучшие книги 2024

Сегодня вместо дайжеста статей (перенесем его на завтра, с вашего позволения) будет долгожданный многими пост со списком лучших из 100 прочитанных редакцией в этом году книг. Тем более что по давней традиции Новый год у редакции начинается именно сегодня, а тут как раз в целом и сотню удалось добить 🙂 Не будем долго философствовать:

Книга года: Мобилизованная нация. Германия 1939–1945 - Nicholas Stargardt - лучшее что прочитал, хотя Пикуль с “Барбаросса” прям шли нога в ногу, тем не менее отдаю первенство именно этому произведению. Must read.

Остальной ТОП в разрезе каждой традиционной категории:

Секция "Художественная литература"
1. Orbital - Samantha Harvey
2. A View from the Bridge - Arthur Miller
3. Увидимся в августе - Gabriel García Márquez
4. Dark Matter - Blake Crouch
5. Disclaimer - Renée Knight

Секция "Биографии, философия и история"
6. Барбаросса (все 3-х тома) - Valentin Pikul
7. Истинноверующий. Мысли о природе массовых движений - Eric Hoffer
8. Мировой порядок - Henry Kissinger
9. Сказать жизни ДА!: психолог в концлагере - Viktor E. Frankl

Секция "Научпоп и вокруг него"
10. Helgoland: Making Sense of the Quantum Revolution - Carlo Rovelli
11. Невозможное в науке: расследование загадочных артефактов - Александр Никонов
12. Дизайн всего: Как появляются вещи, о которых мы не задумываемся - Scott Berkun
13. Шесть невозможностей: Загадки квантового мира - John Gribbin
14. История Бога. 4000 лет исканий в иудаизме, христианстве и исламе - Karen Armstrong

Секция "Саморазвитие и менеджмент”
15. The Culture Map: Breaking Through the Invisible Boundaries of Global Business - Erin Meyer
16. The Diary of a CEO: The 33 Laws of Business and Life - Steven Bartlett
17. Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones - James Clear
18. The Hard Thing About Hard Things: Building a Business When There Are No Easy Answers - Ben Horowitz
19. Чиллософия: Опыты выхода из безвыходности - Ирина Хакамада
20. The Venture Mindset: How to Make Smarter Bets and Achieve Extraordinary Growth - Ilya Strebulaev
21. Лидер и племя. Пять уровней корпоративной культуры - Dave Logan
22. Кругом одни идиоты. Если вам так кажется, возможно, вам не кажется. - Thomas Erikson

Секция "Библия разработчика"
23. Повелители DOOM. Как два парня создали культовый шутер и раскачали индустрию видеоигр - David Kushner
24. Fundamentals of Software Architecture: An Engineering Approach - Mark Richards
25. Mars Rover Curiosity: An Inside Account from Curiosity's Chief Engineer - Rob Manning
Дайджест статей

Druid Deprecation and ClickHouse Adoption at Lyft
https://eng.lyft.com/druid-deprecation-and-clickhouse-adoption-at-lyft-120af37651fd

Dear IT Departments, Please Stop Trying To Build Your Own RAG
https://pub.towardsai.net/dear-it-departments-please-stop-trying-to-build-your-own-rag-4546b4638273

Какие сложности мы преодолели при внедрении RFM-сегментации клиентов в Авито Недвижимости
https://habr.com/ru/companies/avito/articles/863960/

Харденинг баз данных
https://habr.com/ru/companies/otus/articles/866810/

Какой тип разметки данных требуется для вашего проекта? Полный гид по аннотированию изображений
https://habr.com/ru/companies/data_light/articles/868464/

Что такое метаданные в BI и как ими управлять? Обзор инструмента OpenMetadata
https://habr.com/ru/articles/868336/

Ошибайся смело: жизненные уроки из мира machine learning
https://habr.com/ru/companies/ru_mts/articles/867710/

The Missing Piece to Data Democratization is More Actionable Than a Catalog
https://medium.com/conveyordata/the-missing-piece-to-data-democratization-is-more-actionable-than-a-catalog-add3b0583fa0

Генерация дашборда по DAX мере через AI DAX движок
https://habr.com/ru/articles/866534/

Data driven на практике: с чего начать, как избежать ошибок и эффективно применять
https://habr.com/ru/companies/beeline_cloud/articles/867292/

Плюсы и минусы Luxms BI: честный взгляд на платформу от вендора
https://habr.com/ru/companies/luxms_bi/articles/867262/
И немного о трендах. Тем более чем ближе конец года, тем больше статей о трендах на следующий 🙂

Коротко о сути: Apache доминирует, Iceberg наше все, Atlas похоже единственный достойный каталог в природе

UP: текст статьи в комментариях

https://medium.com/towards-data-engineering/data-engineering-2-0-trends-that-are-shaping-the-industrys-future-8d9415ddaa1d
А кто какие "обертки" над LLM использует? Редакция все больше любит Perplexia и потихоньку переползает на нее с нативного приложения ChatGPT. Мешает только то что при включенном VPN приложение не работает, только браузер 🙁

А у кого какие определились похожие любимые сервисы?
Кстати, вышел новый Альманах "Искусственный интеллект", я так понимаю что это обзор за 2023 год.

https://aireport.ru/ai_index_russia-2023
Немного космических новостей в нашем канале. 24 декабря 2024 года зонд Parker Solar Probe совершил исторический пролет, приблизившись к Солнцу на рекордное расстояние в 6,1 миллиона километров3. При этом аппарат развил феноменальную скорость около 700 000 километров в час. Подтверждение успешного маневра ожидается 27 декабря, когда зонд должен отправить сигнал на Землю (ждем пока еще).

Parker Solar Probe - это космический аппарат NASA, запущенный в 2018 году для революционного исследования Солнца и его атмосферы. Это самый быстрый объект, когда-либо созданный человеком.

Аппарат оснащен уникальной системой тепловой защиты, позволяющей ему выдерживать температуры до 1371°C а солнечные панели показывают меньшую деградацию, чем прогнозировалось, что обеспечивает более эффективную работу.

Ключевые задачи исследования:
- Изучение солнечного ветра и механизмов его образования
- Исследование солнечной короны и причин её аномально высокой температуры
- Анализ магнитных полей Солнца и, что самое инетресно, понятие причин их возникновения
- Изучение корональных выбросов массы

https://www.youtube.com/watch?v=JB64c2y_sqU&list=WL&index=1
AI Агенты

Что то тут решил разобраться что такое “AI Agent”, а то с одной стороны в голове вроде как есть какое то интуитивное понимание, но с другой нет четкого определения. Кроме этого постоянно вижу в разных канал всякие дискуссии на тему этого определения. Плюс, как любая новая и модная тема (вспоминаем термин Big Data) на это определение навешивают все, что только можно.

Итак, я бы дал такое определение: AI агент - программное обеспечение функционирующее с применением технологий ИИ, имеющее возможность активного взаимодействия с внешними системами и предназначенное для выполнение конкретной задачи.

Технологии ИИ - тут могут быть любые, от традиционного ML до нейросетей и, конечно, LLM

Активное взаимодействие - в теме агентов делается акцент на том, что система должна уметь выполнять какие то действия, а не просто многозначительно отвечать на вопросы

Конкретная задача - как показывает практика, что бы агент 007 мог выполнять какую то конкретную роль, надо немало постараться и сделать много всяких интеграций, запрограммировать правила, проверки и тд и тп. Поэтому чем более узкоспециализированный агент - тем лучше, а комплексные системы принято собирать из большого количества “мелких” агентов.

То есть по сути - обычный софт, но с LLM внутри, которую агент бомбит преднастроенными промпами 🙂

Является ли LLM тут необходимым элементом? ИМХО нет, но сейчас термин ИИ стал равен LLM, как когда то он был равен нейросетям, до этого ML и Байсовскому выводу, а когда то просто калькулятору.

Шаги для решения задачи могут быть организованы в виде цепочки, дерева или графа. Фреймворки задают структуру и организуют процесс рассуждений агента.

Для линейных задач подходит фреймворк Chain of Thought (CoT), где каждое действие следует за предыдущим. Этот фреймворк используется в OpenAI o1.
Для более сложных задач используются фреймворки Tree of Thought или Graph of Thought, которые учитывают несколько возможных вариантов развития событий.

Ну и по сути самая соль разработки агента это моделирование цепочки рассуждений/уточнений/действий и тд. которые задаются самыми различными методами и способами. По сути напоминает движение в сторону какого-то “вероятностного” программирования вместе детерминистического описания алгоритма, но тем не менее все равно это напоминает разработку алгоритма выполнения задачи только с гораздо более большим пространством вариантов действий.

https://youtu.be/KrRD7r7y7NY?si=USrlIMO0pN2IAJWU

https://blogs.epsilonmetrics.ru/ii-agenty-i-multiagentnye-sistemy/
В продолжении дискуссии в комментариях к посту про агентов
2025/07/04 04:31:20
Back to Top
HTML Embed Code: