Forwarded from Экономика данных. Как это делается - OSP
🏆Сергей Золотарев, основатель и директор по стратегическому развитию Arenadata, состоит в экспертном совете Data Award с момента создания премии.
✔️Сергей рассказал, какой путь премия прошла за годы существования, а также поделился наблюдениями, как, на его взгляд, изменилась профессия CDO, и идеями о том, что ждет ее в будущем.
📖Читайте подробнее в интервью с Сергеем➡️ "CDO должен соблюдать баланс между технологиями и бизнесом"
✔️Сергей рассказал, какой путь премия прошла за годы существования, а также поделился наблюдениями, как, на его взгляд, изменилась профессия CDO, и идеями о том, что ждет ее в будущем.
📖Читайте подробнее в интервью с Сергеем
Please open Telegram to view this post
VIEW IN TELEGRAM
Дайджест статей
CRUS: принципиально новая архитектура работы с данными
https://habr.com/ru/articles/863968/
Платформа данных в хранилище Магнит OMNI
https://habr.com/ru/companies/magnit/articles/864472/
О векторных базах данных простым языком
https://habr.com/ru/companies/ruvds/articles/863704/
Сколько стоит искусственный интеллект для малого бизнеса
https://habr.com/ru/articles/864882/
NLP: когда машины начинают понимать нас (Часть 1)
https://habr.com/ru/articles/864656/
NLP: когда машины начинают понимать нас (Часть 2)
https://habr.com/ru/articles/864778/
NLP: когда машины начинают понимать нас (Часть 3)
https://habr.com/ru/articles/864912/
Конкурентное преимущество: почему ИИ-агенты — ключ к успеху вашего бизнеса
https://habr.com/ru/articles/864618/
Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях
https://habr.com/ru/companies/wildberries/articles/861466/
Построение базы знаний компании и поиска документов на LLM и RAG
https://habr.com/ru/companies/raft/articles/863888/
Пора перестать в любой непонятной ситуации строить DWH для аналитики
https://habr.com/ru/articles/863308/
CRUS: принципиально новая архитектура работы с данными
https://habr.com/ru/articles/863968/
Платформа данных в хранилище Магнит OMNI
https://habr.com/ru/companies/magnit/articles/864472/
О векторных базах данных простым языком
https://habr.com/ru/companies/ruvds/articles/863704/
Сколько стоит искусственный интеллект для малого бизнеса
https://habr.com/ru/articles/864882/
NLP: когда машины начинают понимать нас (Часть 1)
https://habr.com/ru/articles/864656/
NLP: когда машины начинают понимать нас (Часть 2)
https://habr.com/ru/articles/864778/
NLP: когда машины начинают понимать нас (Часть 3)
https://habr.com/ru/articles/864912/
Конкурентное преимущество: почему ИИ-агенты — ключ к успеху вашего бизнеса
https://habr.com/ru/articles/864618/
Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях
https://habr.com/ru/companies/wildberries/articles/861466/
Построение базы знаний компании и поиска документов на LLM и RAG
https://habr.com/ru/companies/raft/articles/863888/
Пора перестать в любой непонятной ситуации строить DWH для аналитики
https://habr.com/ru/articles/863308/
Хабр
CRUS: принципиально новая архитектура работы с данными
Здравствуйте, меня зовут Дмитрий Карловский и я.. обычно пишу статьи с ответами, но на этот раз я, наоборот, буду задавать много вопросов, о которых вы даже не задумывались. Далее будет много и...
Forwarded from AI is all you need
Закон Бенфорда
Для начала проведём мысленный эксперимент. Предположим, что у нас есть прибор, который может измерить всё что угодно - массу любой планеты, скорость света, период полураспада частицы, население любого города, объём песка в пустыне, глубину моря и т.д.
Если мы заранее не знаем результата, то какова вероятность того, что первая цифра в измерении "1" (например, как заряд электрона, или населения Китая)?
А какая вероятность того, что первая цифра в измерении "9" (например, как у постоянной Фарадея)?
Теперь попробуйте ответить, изменится ли вероятность, если мы переключим наш прибор на другую единицу измерения - например, вместо метров будем использовать футы?
Интуитивно можно предположить, что вероятность увидеть единицу на первом месте в измерении такая же, как и девятку. На самом деле это не так.
В 1938 году физик Фрэнк Бенфорд проанализировал данные о площади бассейна сотен рек, удельной теплоёмкости и молекулярном весе тысяч химических соединений, номерах домов сотен улиц.
Он выявил, что единица является первой значащей цифрой с вероятностью не 1/9, как следовало ожидать, а около 1/3!
Закон первой цифры
Закон Бенфорда (или закон первой цифры) гласит, что в реальной жизни цифра 1 на первом месте встречается гораздо чаще, чем все остальные. Также, чем меньше эта цифра, тем выше вероятность.
То есть единица на первом месте встречается, приблизительно в 30% случаях, и примерно в 6 раз чаще, чем цифра 9.
Если быть более точным, то вероятность появления цифры d на первом месте равна
Вы можете проверить это сами на простом примере. Составьте список файлов на вашем компьютере, а затем проанализируйте, на какую цифру начинается размер файла. Я лично проверил это на своих файлах - распределения первой цифры невероятно точно соответствуют закону Бенфорда.
И кстати, как вы можете уже догадаться, система измерения не влияет на закон. Не важно, проводим ли мы измерение в секундах или часах - вероятность первой цифры не меняется.
Для начала проведём мысленный эксперимент. Предположим, что у нас есть прибор, который может измерить всё что угодно - массу любой планеты, скорость света, период полураспада частицы, население любого города, объём песка в пустыне, глубину моря и т.д.
Если мы заранее не знаем результата, то какова вероятность того, что первая цифра в измерении "1" (например, как заряд электрона, или населения Китая)?
А какая вероятность того, что первая цифра в измерении "9" (например, как у постоянной Фарадея)?
Теперь попробуйте ответить, изменится ли вероятность, если мы переключим наш прибор на другую единицу измерения - например, вместо метров будем использовать футы?
Интуитивно можно предположить, что вероятность увидеть единицу на первом месте в измерении такая же, как и девятку. На самом деле это не так.
В 1938 году физик Фрэнк Бенфорд проанализировал данные о площади бассейна сотен рек, удельной теплоёмкости и молекулярном весе тысяч химических соединений, номерах домов сотен улиц.
Он выявил, что единица является первой значащей цифрой с вероятностью не 1/9, как следовало ожидать, а около 1/3!
Закон первой цифры
Закон Бенфорда (или закон первой цифры) гласит, что в реальной жизни цифра 1 на первом месте встречается гораздо чаще, чем все остальные. Также, чем меньше эта цифра, тем выше вероятность.
То есть единица на первом месте встречается, приблизительно в 30% случаях, и примерно в 6 раз чаще, чем цифра 9.
Если быть более точным, то вероятность появления цифры d на первом месте равна
log10(1 + 1/d)
.Вы можете проверить это сами на простом примере. Составьте список файлов на вашем компьютере, а затем проанализируйте, на какую цифру начинается размер файла. Я лично проверил это на своих файлах - распределения первой цифры невероятно точно соответствуют закону Бенфорда.
И кстати, как вы можете уже догадаться, система измерения не влияет на закон. Не важно, проводим ли мы измерение в секундах или часах - вероятность первой цифры не меняется.
Обсуждали с коллегами сегодня алгоритм"vector clocks" и редакция решила и тут поделиться информацей и статьей о том что это такоею. Может быть кому то покажется интересным.
vector clocks:
- это такой метод установления seq num у сообщений, которыми обмениваются более 2-х компонентов работающих в распределенной среде с ненадежной средой передачи данных
- предназначен для того, что бы гарантировать обработку сообщений принимающими компонентами в том же порядке, в котором они были сгенерированы в источнике в случае если мы не может гаранировать того, что они дойдут до приемника в том же порядке, в котором бы отправлены источником
- приемник использует буфер, что бы накапливать приходящие сообщения и обрабатывать их по мере того, как востанавливается их порядок
то есть основная идея/задача алгоритма - гарантировать, что сообщения будут обработаны приемником в том же порядке, что их генерировали источники
краткое описание с примерами кода:
https://www.geeksforgeeks.org/vector-clocks-in-distributed-systems/
vector clocks:
- это такой метод установления seq num у сообщений, которыми обмениваются более 2-х компонентов работающих в распределенной среде с ненадежной средой передачи данных
- предназначен для того, что бы гарантировать обработку сообщений принимающими компонентами в том же порядке, в котором они были сгенерированы в источнике в случае если мы не может гаранировать того, что они дойдут до приемника в том же порядке, в котором бы отправлены источником
- приемник использует буфер, что бы накапливать приходящие сообщения и обрабатывать их по мере того, как востанавливается их порядок
то есть основная идея/задача алгоритма - гарантировать, что сообщения будут обработаны приемником в том же порядке, что их генерировали источники
краткое описание с примерами кода:
https://www.geeksforgeeks.org/vector-clocks-in-distributed-systems/
GeeksforGeeks
Vector Clocks in Distributed Systems - GeeksforGeeks
Your All-in-One Learning Portal: GeeksforGeeks is a comprehensive educational platform that empowers learners across domains-spanning computer science and programming, school education, upskilling, commerce, software tools, competitive exams, and more.
Коллеги подсказали интересную статью - краткий обзор состояния рынка конфиденциальных вычислений. Редакцию эта тема особенно интересует, но, к сожалению, времени на ее предметное и практическое изучение не очень много остается, поэтому продолжаем пока больше наблюдать, чем изменять происходящее 🙂
В целом интересно:
"Объем глобального рынка конфиденциальных вычислений по итогам 2024 г. будет находиться на уровне $824 млн (примерно 86 млрд руб.), прогнозируют в консалтинговой компании MarketsandMarkets. При этом на протяжении пяти лет, до 2029 г., темпы его ежегодного прироста будут составлять 11,4%, таким образом, к началу следующего десятилетия объемы мирового рынка MPC перевалят за $1,4 млрд."
"«Для эффективной работы с данными необходимо создавать экосистемы для их совместного использования. Коммерческие и государственные организации ищут возможности взаимодействовать друг с другом так, чтобы не нарушать регуляторные ограничения и не разглашать чувствительную информацию. И здесь конфиденциальные вычисления могут стать серьезным подспорьем»"
https://www.vedomosti.ru/technologies/trendsrub/articles/2024/12/03/1078864-konfidentsialno-i-tehnologichno
В целом интересно:
"Объем глобального рынка конфиденциальных вычислений по итогам 2024 г. будет находиться на уровне $824 млн (примерно 86 млрд руб.), прогнозируют в консалтинговой компании MarketsandMarkets. При этом на протяжении пяти лет, до 2029 г., темпы его ежегодного прироста будут составлять 11,4%, таким образом, к началу следующего десятилетия объемы мирового рынка MPC перевалят за $1,4 млрд."
"«Для эффективной работы с данными необходимо создавать экосистемы для их совместного использования. Коммерческие и государственные организации ищут возможности взаимодействовать друг с другом так, чтобы не нарушать регуляторные ограничения и не разглашать чувствительную информацию. И здесь конфиденциальные вычисления могут стать серьезным подспорьем»"
https://www.vedomosti.ru/technologies/trendsrub/articles/2024/12/03/1078864-konfidentsialno-i-tehnologichno
Ведомости
Конфиденциально и технологично
Как вопрос о миллионерах создал миллиардную индустрию
Дайджест статей
Каталог данных своими руками из PowerBi и небольшой БД
https://habr.com/ru/companies/vkusvill/articles/864998/
Корпоративная школа BI: от таблиц на коленке до дашбордов, которые реально работают
https://habr.com/ru/companies/leroy_merlin/articles/864328/
ML в промышленности: как построить систему управления процессом окомкования железорудных окатышей
https://habr.com/ru/companies/oleg-bunin/articles/865088/
Миграция с Tableau на опенсорс-версию DataLens: лёгкий путь с препятствиями
https://habr.com/ru/companies/yandex_cloud_and_infra/articles/865648/
Инфраструктура для Data-Engineer виртуальные окружения
https://habr.com/ru/articles/861412/
Как решения Data Access Governance и Data Centric Audit Protection помогают бороться с утечками данных
https://habr.com/ru/companies/solarsecurity/articles/866422/
Multi-Agent Conversation With AutoGen AI
https://dzone.com/articles/multi-agent-conversation-with-autogen-ai
LLMs may have a killer enterprise app: ‘digital labor’ — at least if Salesforce Agentforce is any indicator
https://techcrunch.com/2024/12/04/llms-may-have-a-killer-enterprise-app-digital-labor-at-least-if-salesforce-agentforce-is-any-indicator/
Data Architectures in the AI Era: Key Strategies and Insights
https://dzone.com/articles/data-architectures-in-the-ai-era
Apache Iceberg: The Open Table Format for Lakehouses and Data Streaming
https://dzone.com/articles/apache-iceberg-open-table-format-lakehouses-data-streaming
Unlocking Enterprise Data Potential with Retrieval Augmented Generation
https://www.smartdatacollective.com/unlocking-enterprise-data-potential-with-retrieval-augmented-generation/
Каталог данных своими руками из PowerBi и небольшой БД
https://habr.com/ru/companies/vkusvill/articles/864998/
Корпоративная школа BI: от таблиц на коленке до дашбордов, которые реально работают
https://habr.com/ru/companies/leroy_merlin/articles/864328/
ML в промышленности: как построить систему управления процессом окомкования железорудных окатышей
https://habr.com/ru/companies/oleg-bunin/articles/865088/
Миграция с Tableau на опенсорс-версию DataLens: лёгкий путь с препятствиями
https://habr.com/ru/companies/yandex_cloud_and_infra/articles/865648/
Инфраструктура для Data-Engineer виртуальные окружения
https://habr.com/ru/articles/861412/
Как решения Data Access Governance и Data Centric Audit Protection помогают бороться с утечками данных
https://habr.com/ru/companies/solarsecurity/articles/866422/
Multi-Agent Conversation With AutoGen AI
https://dzone.com/articles/multi-agent-conversation-with-autogen-ai
LLMs may have a killer enterprise app: ‘digital labor’ — at least if Salesforce Agentforce is any indicator
https://techcrunch.com/2024/12/04/llms-may-have-a-killer-enterprise-app-digital-labor-at-least-if-salesforce-agentforce-is-any-indicator/
Data Architectures in the AI Era: Key Strategies and Insights
https://dzone.com/articles/data-architectures-in-the-ai-era
Apache Iceberg: The Open Table Format for Lakehouses and Data Streaming
https://dzone.com/articles/apache-iceberg-open-table-format-lakehouses-data-streaming
Unlocking Enterprise Data Potential with Retrieval Augmented Generation
https://www.smartdatacollective.com/unlocking-enterprise-data-potential-with-retrieval-augmented-generation/
Хабр
Каталог данных своими руками из PowerBi и небольшой БД
Привет! Я Николай, аналитик во ВкусВилле, я запустил и поддерживаю проект по каталогу данных в ВВ. Поиск данных — нелегкая задача, особенно при большом объеме бизнеса. Много источников...
The Art of Discoverability and Reverse Engineering User Happiness
На днях обсуждали с коллегой какие перспективные темы есть в области управления данными и редакция высказала мысль, что задача Data Catalog так до сих пор и не решена. Пару лет назад к ней было приковано много внимания, но потом появились LLM и все убежали смотреть на них, а каталоги так и не вышли на какой-то более менее зрелый уровень.
По итогам хотим поделиться статьей по теме Data Discoverability.
В чем основные тезисы материала:
⁃ Основная идея - создание глобальной meta-модели данных описывающей всех источники данных организации
⁃ Решаемая проблема: работа с данными требует создания отдельных источников данных под каждый паттерн работы с данными что порождает в компаниях большое количество разрозненных источников часто с дублирующейся информацией
⁃ Данные очень динамичны, поэтому платформа метаданных должна следить за их постоянным развитием и поддерживать свежие метаданные, чтобы не допустить расхождений и пробелов между необработанными данными и бизнес-пониманием.
⁃ Что такое глобальная meta-model: модель данных для метаданных, позволяющая пользователям исследовать взаимосвязи и определять лучшие наборы данных, относящиеся к их текущему запросу. Она объединяет множество активов данных, источников, сервисов, целей и пользователей, обеспечивая логические связи, придающие данным смысл. Она активирует неактивные данные, подключая их к обширной сети экосистемы данных, позволяя пользователям и машинам начать использовать огромные объемы данных, которые ранее были бессмысленны из-за отсутствия семантики.
⁃ Плюсы наличия такой модели очевидно - и бизнесу и технологам жить сильно легче и проще 🙂
⁃ Какие типы решений могут помочь в реализации: Catalogs, Data Hubs, Marketplaces
https://moderndata101.substack.com/p/the-art-of-discoverability-and-reverse?utm_source=post-email-title&publication_id=1170209&post_id=153015029&utm_campaign=email-post-title&isFreemail=true&r=15862q&triedRedirect=true&utm_medium=email
На днях обсуждали с коллегой какие перспективные темы есть в области управления данными и редакция высказала мысль, что задача Data Catalog так до сих пор и не решена. Пару лет назад к ней было приковано много внимания, но потом появились LLM и все убежали смотреть на них, а каталоги так и не вышли на какой-то более менее зрелый уровень.
По итогам хотим поделиться статьей по теме Data Discoverability.
В чем основные тезисы материала:
⁃ Основная идея - создание глобальной meta-модели данных описывающей всех источники данных организации
⁃ Решаемая проблема: работа с данными требует создания отдельных источников данных под каждый паттерн работы с данными что порождает в компаниях большое количество разрозненных источников часто с дублирующейся информацией
⁃ Данные очень динамичны, поэтому платформа метаданных должна следить за их постоянным развитием и поддерживать свежие метаданные, чтобы не допустить расхождений и пробелов между необработанными данными и бизнес-пониманием.
⁃ Что такое глобальная meta-model: модель данных для метаданных, позволяющая пользователям исследовать взаимосвязи и определять лучшие наборы данных, относящиеся к их текущему запросу. Она объединяет множество активов данных, источников, сервисов, целей и пользователей, обеспечивая логические связи, придающие данным смысл. Она активирует неактивные данные, подключая их к обширной сети экосистемы данных, позволяя пользователям и машинам начать использовать огромные объемы данных, которые ранее были бессмысленны из-за отсутствия семантики.
⁃ Плюсы наличия такой модели очевидно - и бизнесу и технологам жить сильно легче и проще 🙂
⁃ Какие типы решений могут помочь в реализации: Catalogs, Data Hubs, Marketplaces
https://moderndata101.substack.com/p/the-art-of-discoverability-and-reverse?utm_source=post-email-title&publication_id=1170209&post_id=153015029&utm_campaign=email-post-title&isFreemail=true&r=15862q&triedRedirect=true&utm_medium=email
Substack
The Art of Discoverability and Reverse Engineering User Happiness
Core Challenges, Range of Discoverability Solutions, User Motivations, Metadata Fundamentals, and Infrastructures that Back This!
Benchmark For Analytical DBMS
Вы когда нибудь имели диску на тему какая BD быстрее? Тогда наверное знаете, что нет правильного ответа на этот вопрос и что выбор BD должен быть обоснован конкретным кейсом и даже такие вещи как “распределение различных значений” в типовом профиле нагрузке на BD - важно.
В мире есть довольно большое количество рейтингов и сравнений разных BD но хитрость в том, что всегда надо смотреть на то на каких данных делается это сравнение, потому что хитрые производители BD всегда используют именно такой дата-сет, на котором они показывают лучшие результаты.
Вот примеры разных сравнений сравнений:
ClickBench — a Benchmark For Analytical DBMS: https://benchmark.clickhouse.com/
Brown University Mgbench: https://github.com/andrewcrotty/mgbench
UC Berkeley AMPLab Big Data Benchmark: https://amplab.cs.berkeley.edu/benchmark/
Mark Litwinschik's NYC Taxi: https://tech.marksblogg.com/benchmarks.html
h2o.ai https://h2oai.github.io/db-benchmark/
TPC-H: https://www.tpc.org/tpch/
TPC-DS: https://www.tpc.org/tpcds/
А вот очень неплохая статья со ссылками на описания особенности разных BD и другие рейтинги: https://habr.com/ru/companies/ruvds/articles/851330/
Вы когда нибудь имели диску на тему какая BD быстрее? Тогда наверное знаете, что нет правильного ответа на этот вопрос и что выбор BD должен быть обоснован конкретным кейсом и даже такие вещи как “распределение различных значений” в типовом профиле нагрузке на BD - важно.
В мире есть довольно большое количество рейтингов и сравнений разных BD но хитрость в том, что всегда надо смотреть на то на каких данных делается это сравнение, потому что хитрые производители BD всегда используют именно такой дата-сет, на котором они показывают лучшие результаты.
Вот примеры разных сравнений сравнений:
ClickBench — a Benchmark For Analytical DBMS: https://benchmark.clickhouse.com/
Brown University Mgbench: https://github.com/andrewcrotty/mgbench
UC Berkeley AMPLab Big Data Benchmark: https://amplab.cs.berkeley.edu/benchmark/
Mark Litwinschik's NYC Taxi: https://tech.marksblogg.com/benchmarks.html
h2o.ai https://h2oai.github.io/db-benchmark/
TPC-H: https://www.tpc.org/tpch/
TPC-DS: https://www.tpc.org/tpcds/
А вот очень неплохая статья со ссылками на описания особенности разных BD и другие рейтинги: https://habr.com/ru/companies/ruvds/articles/851330/
GitHub
GitHub - andrewcrotty/mgbench
Contribute to andrewcrotty/mgbench development by creating an account on GitHub.
Лучшие книги 2024
Сегодня вместо дайжеста статей (перенесем его на завтра, с вашего позволения) будет долгожданный многими пост со списком лучших из 100 прочитанных редакцией в этом году книг. Тем более что по давней традиции Новый год у редакции начинается именно сегодня, а тут как раз в целом и сотню удалось добить 🙂 Не будем долго философствовать:
Книга года: Мобилизованная нация. Германия 1939–1945 - Nicholas Stargardt - лучшее что прочитал, хотя Пикуль с “Барбаросса” прям шли нога в ногу, тем не менее отдаю первенство именно этому произведению. Must read.
Остальной ТОП в разрезе каждой традиционной категории:
Секция "Художественная литература"
1. Orbital - Samantha Harvey
2. A View from the Bridge - Arthur Miller
3. Увидимся в августе - Gabriel García Márquez
4. Dark Matter - Blake Crouch
5. Disclaimer - Renée Knight
Секция "Биографии, философия и история"
6. Барбаросса (все 3-х тома) - Valentin Pikul
7. Истинноверующий. Мысли о природе массовых движений - Eric Hoffer
8. Мировой порядок - Henry Kissinger
9. Сказать жизни ДА!: психолог в концлагере - Viktor E. Frankl
Секция "Научпоп и вокруг него"
10. Helgoland: Making Sense of the Quantum Revolution - Carlo Rovelli
11. Невозможное в науке: расследование загадочных артефактов - Александр Никонов
12. Дизайн всего: Как появляются вещи, о которых мы не задумываемся - Scott Berkun
13. Шесть невозможностей: Загадки квантового мира - John Gribbin
14. История Бога. 4000 лет исканий в иудаизме, христианстве и исламе - Karen Armstrong
Секция "Саморазвитие и менеджмент”
15. The Culture Map: Breaking Through the Invisible Boundaries of Global Business - Erin Meyer
16. The Diary of a CEO: The 33 Laws of Business and Life - Steven Bartlett
17. Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones - James Clear
18. The Hard Thing About Hard Things: Building a Business When There Are No Easy Answers - Ben Horowitz
19. Чиллософия: Опыты выхода из безвыходности - Ирина Хакамада
20. The Venture Mindset: How to Make Smarter Bets and Achieve Extraordinary Growth - Ilya Strebulaev
21. Лидер и племя. Пять уровней корпоративной культуры - Dave Logan
22. Кругом одни идиоты. Если вам так кажется, возможно, вам не кажется. - Thomas Erikson
Секция "Библия разработчика"
23. Повелители DOOM. Как два парня создали культовый шутер и раскачали индустрию видеоигр - David Kushner
24. Fundamentals of Software Architecture: An Engineering Approach - Mark Richards
25. Mars Rover Curiosity: An Inside Account from Curiosity's Chief Engineer - Rob Manning
Сегодня вместо дайжеста статей (перенесем его на завтра, с вашего позволения) будет долгожданный многими пост со списком лучших из 100 прочитанных редакцией в этом году книг. Тем более что по давней традиции Новый год у редакции начинается именно сегодня, а тут как раз в целом и сотню удалось добить 🙂 Не будем долго философствовать:
Книга года: Мобилизованная нация. Германия 1939–1945 - Nicholas Stargardt - лучшее что прочитал, хотя Пикуль с “Барбаросса” прям шли нога в ногу, тем не менее отдаю первенство именно этому произведению. Must read.
Остальной ТОП в разрезе каждой традиционной категории:
Секция "Художественная литература"
1. Orbital - Samantha Harvey
2. A View from the Bridge - Arthur Miller
3. Увидимся в августе - Gabriel García Márquez
4. Dark Matter - Blake Crouch
5. Disclaimer - Renée Knight
Секция "Биографии, философия и история"
6. Барбаросса (все 3-х тома) - Valentin Pikul
7. Истинноверующий. Мысли о природе массовых движений - Eric Hoffer
8. Мировой порядок - Henry Kissinger
9. Сказать жизни ДА!: психолог в концлагере - Viktor E. Frankl
Секция "Научпоп и вокруг него"
10. Helgoland: Making Sense of the Quantum Revolution - Carlo Rovelli
11. Невозможное в науке: расследование загадочных артефактов - Александр Никонов
12. Дизайн всего: Как появляются вещи, о которых мы не задумываемся - Scott Berkun
13. Шесть невозможностей: Загадки квантового мира - John Gribbin
14. История Бога. 4000 лет исканий в иудаизме, христианстве и исламе - Karen Armstrong
Секция "Саморазвитие и менеджмент”
15. The Culture Map: Breaking Through the Invisible Boundaries of Global Business - Erin Meyer
16. The Diary of a CEO: The 33 Laws of Business and Life - Steven Bartlett
17. Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones - James Clear
18. The Hard Thing About Hard Things: Building a Business When There Are No Easy Answers - Ben Horowitz
19. Чиллософия: Опыты выхода из безвыходности - Ирина Хакамада
20. The Venture Mindset: How to Make Smarter Bets and Achieve Extraordinary Growth - Ilya Strebulaev
21. Лидер и племя. Пять уровней корпоративной культуры - Dave Logan
22. Кругом одни идиоты. Если вам так кажется, возможно, вам не кажется. - Thomas Erikson
Секция "Библия разработчика"
23. Повелители DOOM. Как два парня создали культовый шутер и раскачали индустрию видеоигр - David Kushner
24. Fundamentals of Software Architecture: An Engineering Approach - Mark Richards
25. Mars Rover Curiosity: An Inside Account from Curiosity's Chief Engineer - Rob Manning
Дайджест статей
Druid Deprecation and ClickHouse Adoption at Lyft
https://eng.lyft.com/druid-deprecation-and-clickhouse-adoption-at-lyft-120af37651fd
Dear IT Departments, Please Stop Trying To Build Your Own RAG
https://pub.towardsai.net/dear-it-departments-please-stop-trying-to-build-your-own-rag-4546b4638273
Какие сложности мы преодолели при внедрении RFM-сегментации клиентов в Авито Недвижимости
https://habr.com/ru/companies/avito/articles/863960/
Харденинг баз данных
https://habr.com/ru/companies/otus/articles/866810/
Какой тип разметки данных требуется для вашего проекта? Полный гид по аннотированию изображений
https://habr.com/ru/companies/data_light/articles/868464/
Что такое метаданные в BI и как ими управлять? Обзор инструмента OpenMetadata
https://habr.com/ru/articles/868336/
Ошибайся смело: жизненные уроки из мира machine learning
https://habr.com/ru/companies/ru_mts/articles/867710/
The Missing Piece to Data Democratization is More Actionable Than a Catalog
https://medium.com/conveyordata/the-missing-piece-to-data-democratization-is-more-actionable-than-a-catalog-add3b0583fa0
Генерация дашборда по DAX мере через AI DAX движок
https://habr.com/ru/articles/866534/
Data driven на практике: с чего начать, как избежать ошибок и эффективно применять
https://habr.com/ru/companies/beeline_cloud/articles/867292/
Плюсы и минусы Luxms BI: честный взгляд на платформу от вендора
https://habr.com/ru/companies/luxms_bi/articles/867262/
Druid Deprecation and ClickHouse Adoption at Lyft
https://eng.lyft.com/druid-deprecation-and-clickhouse-adoption-at-lyft-120af37651fd
Dear IT Departments, Please Stop Trying To Build Your Own RAG
https://pub.towardsai.net/dear-it-departments-please-stop-trying-to-build-your-own-rag-4546b4638273
Какие сложности мы преодолели при внедрении RFM-сегментации клиентов в Авито Недвижимости
https://habr.com/ru/companies/avito/articles/863960/
Харденинг баз данных
https://habr.com/ru/companies/otus/articles/866810/
Какой тип разметки данных требуется для вашего проекта? Полный гид по аннотированию изображений
https://habr.com/ru/companies/data_light/articles/868464/
Что такое метаданные в BI и как ими управлять? Обзор инструмента OpenMetadata
https://habr.com/ru/articles/868336/
Ошибайся смело: жизненные уроки из мира machine learning
https://habr.com/ru/companies/ru_mts/articles/867710/
The Missing Piece to Data Democratization is More Actionable Than a Catalog
https://medium.com/conveyordata/the-missing-piece-to-data-democratization-is-more-actionable-than-a-catalog-add3b0583fa0
Генерация дашборда по DAX мере через AI DAX движок
https://habr.com/ru/articles/866534/
Data driven на практике: с чего начать, как избежать ошибок и эффективно применять
https://habr.com/ru/companies/beeline_cloud/articles/867292/
Плюсы и минусы Luxms BI: честный взгляд на платформу от вендора
https://habr.com/ru/companies/luxms_bi/articles/867262/
Medium
Druid Deprecation and ClickHouse Adoption at Lyft
Written by Ritesh Varyani and Jeana Choi at Lyft.
И немного о трендах. Тем более чем ближе конец года, тем больше статей о трендах на следующий 🙂
Коротко о сути: Apache доминирует, Iceberg наше все, Atlas похоже единственный достойный каталог в природе
UP: текст статьи в комментариях
https://medium.com/towards-data-engineering/data-engineering-2-0-trends-that-are-shaping-the-industrys-future-8d9415ddaa1d
Коротко о сути: Apache доминирует, Iceberg наше все, Atlas похоже единственный достойный каталог в природе
UP: текст статьи в комментариях
https://medium.com/towards-data-engineering/data-engineering-2-0-trends-that-are-shaping-the-industrys-future-8d9415ddaa1d
Medium
Data Engineering 2.0: Trends That Are Shaping the Industry’s Future
Stay ahead of the curve with insights into cutting-edge data engineering trends and technologies
О, Telegram вышел на точку безубыточности вдруг. Не зря Павел сидел :)))
https://www.perplexity.ai/page/telegram-turns-profit-CPOhpyd1SdSHzHryuaHLIw
https://www.perplexity.ai/page/telegram-turns-profit-CPOhpyd1SdSHzHryuaHLIw
Perplexity AI
Telegram Turns Profit
According to Telegram's founder Pavel Durov, the messaging app achieved profitability for the first time in 2024, generating revenue exceeding $1 billion and...
А кто какие "обертки" над LLM использует? Редакция все больше любит Perplexia и потихоньку переползает на нее с нативного приложения ChatGPT. Мешает только то что при включенном VPN приложение не работает, только браузер 🙁
А у кого какие определились похожие любимые сервисы?
А у кого какие определились похожие любимые сервисы?
Кстати, вышел новый Альманах "Искусственный интеллект", я так понимаю что это обзор за 2023 год.
https://aireport.ru/ai_index_russia-2023
https://aireport.ru/ai_index_russia-2023
aireport.ru
AI Report - Индекс ИИ 2023
Альманах Искусственный Интеллект №13, Индекс ИИ 2023
Немного космических новостей в нашем канале. 24 декабря 2024 года зонд Parker Solar Probe совершил исторический пролет, приблизившись к Солнцу на рекордное расстояние в 6,1 миллиона километров3. При этом аппарат развил феноменальную скорость около 700 000 километров в час. Подтверждение успешного маневра ожидается 27 декабря, когда зонд должен отправить сигнал на Землю (ждем пока еще).
Parker Solar Probe - это космический аппарат NASA, запущенный в 2018 году для революционного исследования Солнца и его атмосферы. Это самый быстрый объект, когда-либо созданный человеком.
Аппарат оснащен уникальной системой тепловой защиты, позволяющей ему выдерживать температуры до 1371°C а солнечные панели показывают меньшую деградацию, чем прогнозировалось, что обеспечивает более эффективную работу.
Ключевые задачи исследования:
- Изучение солнечного ветра и механизмов его образования
- Исследование солнечной короны и причин её аномально высокой температуры
- Анализ магнитных полей Солнца и, что самое инетресно, понятие причин их возникновения
- Изучение корональных выбросов массы
https://www.youtube.com/watch?v=JB64c2y_sqU&list=WL&index=1
Parker Solar Probe - это космический аппарат NASA, запущенный в 2018 году для революционного исследования Солнца и его атмосферы. Это самый быстрый объект, когда-либо созданный человеком.
Аппарат оснащен уникальной системой тепловой защиты, позволяющей ему выдерживать температуры до 1371°C а солнечные панели показывают меньшую деградацию, чем прогнозировалось, что обеспечивает более эффективную работу.
Ключевые задачи исследования:
- Изучение солнечного ветра и механизмов его образования
- Исследование солнечной короны и причин её аномально высокой температуры
- Анализ магнитных полей Солнца и, что самое инетресно, понятие причин их возникновения
- Изучение корональных выбросов массы
https://www.youtube.com/watch?v=JB64c2y_sqU&list=WL&index=1
YouTube
Nasa spacecraft attempts closest-ever approach to Sun | BBC News
A Nasa spacecraft is attempting to make history with the closest-ever approach to the Sun.
The Parker Solar Probe is plunging into our star's outer atmosphere to try and help us better understand how the Sun works.
It is out of communication for several…
The Parker Solar Probe is plunging into our star's outer atmosphere to try and help us better understand how the Sun works.
It is out of communication for several…
AI Агенты
Что то тут решил разобраться что такое “AI Agent”, а то с одной стороны в голове вроде как есть какое то интуитивное понимание, но с другой нет четкого определения. Кроме этого постоянно вижу в разных канал всякие дискуссии на тему этого определения. Плюс, как любая новая и модная тема (вспоминаем термин Big Data) на это определение навешивают все, что только можно.
Итак, я бы дал такое определение: AI агент - программное обеспечение функционирующее с применением технологий ИИ, имеющее возможность активного взаимодействия с внешними системами и предназначенное для выполнение конкретной задачи.
Технологии ИИ - тут могут быть любые, от традиционного ML до нейросетей и, конечно, LLM
Активное взаимодействие - в теме агентов делается акцент на том, что система должна уметь выполнять какие то действия, а не просто многозначительно отвечать на вопросы
Конкретная задача - как показывает практика, что бы агент 007 мог выполнять какую то конкретную роль, надо немало постараться и сделать много всяких интеграций, запрограммировать правила, проверки и тд и тп. Поэтому чем более узкоспециализированный агент - тем лучше, а комплексные системы принято собирать из большого количества “мелких” агентов.
То есть по сути - обычный софт, но с LLM внутри, которую агент бомбит преднастроенными промпами 🙂
Является ли LLM тут необходимым элементом? ИМХО нет, но сейчас термин ИИ стал равен LLM, как когда то он был равен нейросетям, до этого ML и Байсовскому выводу, а когда то просто калькулятору.
Шаги для решения задачи могут быть организованы в виде цепочки, дерева или графа. Фреймворки задают структуру и организуют процесс рассуждений агента.
Для линейных задач подходит фреймворк Chain of Thought (CoT), где каждое действие следует за предыдущим. Этот фреймворк используется в OpenAI o1.
Для более сложных задач используются фреймворки Tree of Thought или Graph of Thought, которые учитывают несколько возможных вариантов развития событий.
Ну и по сути самая соль разработки агента это моделирование цепочки рассуждений/уточнений/действий и тд. которые задаются самыми различными методами и способами. По сути напоминает движение в сторону какого-то “вероятностного” программирования вместе детерминистического описания алгоритма, но тем не менее все равно это напоминает разработку алгоритма выполнения задачи только с гораздо более большим пространством вариантов действий.
https://youtu.be/KrRD7r7y7NY?si=USrlIMO0pN2IAJWU
https://blogs.epsilonmetrics.ru/ii-agenty-i-multiagentnye-sistemy/
Что то тут решил разобраться что такое “AI Agent”, а то с одной стороны в голове вроде как есть какое то интуитивное понимание, но с другой нет четкого определения. Кроме этого постоянно вижу в разных канал всякие дискуссии на тему этого определения. Плюс, как любая новая и модная тема (вспоминаем термин Big Data) на это определение навешивают все, что только можно.
Итак, я бы дал такое определение: AI агент - программное обеспечение функционирующее с применением технологий ИИ, имеющее возможность активного взаимодействия с внешними системами и предназначенное для выполнение конкретной задачи.
Технологии ИИ - тут могут быть любые, от традиционного ML до нейросетей и, конечно, LLM
Активное взаимодействие - в теме агентов делается акцент на том, что система должна уметь выполнять какие то действия, а не просто многозначительно отвечать на вопросы
Конкретная задача - как показывает практика, что бы агент 007 мог выполнять какую то конкретную роль, надо немало постараться и сделать много всяких интеграций, запрограммировать правила, проверки и тд и тп. Поэтому чем более узкоспециализированный агент - тем лучше, а комплексные системы принято собирать из большого количества “мелких” агентов.
То есть по сути - обычный софт, но с LLM внутри, которую агент бомбит преднастроенными промпами 🙂
Является ли LLM тут необходимым элементом? ИМХО нет, но сейчас термин ИИ стал равен LLM, как когда то он был равен нейросетям, до этого ML и Байсовскому выводу, а когда то просто калькулятору.
Шаги для решения задачи могут быть организованы в виде цепочки, дерева или графа. Фреймворки задают структуру и организуют процесс рассуждений агента.
Для линейных задач подходит фреймворк Chain of Thought (CoT), где каждое действие следует за предыдущим. Этот фреймворк используется в OpenAI o1.
Для более сложных задач используются фреймворки Tree of Thought или Graph of Thought, которые учитывают несколько возможных вариантов развития событий.
Ну и по сути самая соль разработки агента это моделирование цепочки рассуждений/уточнений/действий и тд. которые задаются самыми различными методами и способами. По сути напоминает движение в сторону какого-то “вероятностного” программирования вместе детерминистического описания алгоритма, но тем не менее все равно это напоминает разработку алгоритма выполнения задачи только с гораздо более большим пространством вариантов действий.
https://youtu.be/KrRD7r7y7NY?si=USrlIMO0pN2IAJWU
https://blogs.epsilonmetrics.ru/ii-agenty-i-multiagentnye-sistemy/
YouTube
Andrew Ng Explores The Rise Of AI Agents And Agentic Reasoning | BUILD 2024 Keynote
In recent years, the spotlight in AI has primarily been on large language models (LLMs) and emerging large multi-modal models (LMMs). Now, building on these tools, a new paradigm is emerging with the rise of AI agents and agentic reasoning, which are proving…
Forwarded from Егор Еремеев
Крутейший выпуск научных итогов года с большим блоком о космических достижениях:
https://youtu.be/B0CZfE5Qhlo?si=z3AAkJz3LwsWzpoH
https://youtu.be/B0CZfE5Qhlo?si=z3AAkJz3LwsWzpoH
YouTube
Этот год войдёт в историю науки | Пушка #88
Читайте подробнее об инклюзивных фичах Яндекса – https://clck.ru/3FMQQW
Новое приложение Алиса - решайте разные задачи буквально на ходу: пишите тексты, придумывайте идеи и разбирайтесь в сложном. Попробуйте! https://clck.ru/3ExhML
Сегодня в ролике:
00:00…
Новое приложение Алиса - решайте разные задачи буквально на ходу: пишите тексты, придумывайте идеи и разбирайтесь в сложном. Попробуйте! https://clck.ru/3ExhML
Сегодня в ролике:
00:00…