Telegram Web Link
Основные принципы разработки (SOLID, KISS и т. д.)

Статья, что бы освежить (или ознакомиться) с основными принципами проектирования ПО, систем, архитектур, орг структур и тд :)

Тут хороший свод и особенно он хорош примерами. Если вы только знакомитесь с этими принципами - обратите внимание на примеры. Такие утверждения, как:Принцип подстановки Барбары Лисков (LSP) - это принцип объектно-ориентированного программирования, введенный Барбарой Лисков в 1987 году. Он утверждает, что объекты в программе должны быть заменяемыми на экземпляры их подтипов без изменения правильности выполнения программы.Просто из определения понять очень сложно. Но в статье приводится очень понятные и наглядные примеры, которые сразу все проясняют.

https://habr.com/ru/articles/810941/
👍7😁1
How does Uber build real-time infrastructure to handle petabytes of data every day?

В 2023 году 137 миллионов человек пользовались Uber или Uber Eats хотя бы раз в месяц. Также в 2023 году водители Uber завершили 9,44 миллиарда поездок. Для поддержки бизнеса Uber агрессивно использует аналитику данных и модели машинного обучения для операций.

Uber строит большую часть стека аналитики в реальном времени на компонентах с открытым исходным кодом. Однако этосталкивается с некоторыми проблемами:

- По их опыту, большинство технологий с открытым исходным кодом были созданы для конкретных целей.
- Uber пришлось проделать много работы, чтобы адаптировать решения с открытым исходным кодом для широкого спектра использования и языков программирования.

Основные компоненты архитектурного стека Uber:

- Apache Kafka - это, вероятно, самая важная часть всей платформы обработки данных, с огромной инсталляцией.

- Apache Helix для управления кластером uReplicator

- Apache Flink - Uber использует Apache Flink для построения платформы обработки потоков, которая обрабатывает все данные в реальном времени из Kafka. Flink предоставляет распределенную платформу обработки потоков с высокой пропускной способностью и низкой задержкой.

- Flink SQL - Uber добавляет слой поверх Flink, называемый Flink SQL. Он может преобразовывать входные данные Apache Calcite SQL в задания Flink. Процессор компилирует запрос в распределенное приложение Flink и управляет его жизненным циклом, позволяя пользователям сосредоточиться на логике процесса.

- Apache Pinot - это распределенная система OLAP с открытым исходным кодом для выполнения аналитических запросов с низкой задержкой. Она была создана в LinkedIn "после того, как инженеры определили, что нет готовых решений, которые соответствовали бы требованиям социальной сети". Pinot имеет лямбда-архитектуру, которая представляет единое представление между онлайн (в реальном времени) и офлайн (историческими) данными.

- Presto - распределенный движок запросов с открытым исходным кодом, разработанный в Facebook. Он был создан для быстрых аналитических запросов к крупномасштабным наборам данных, используя движок массового параллелизма (MPP) и выполняя все вычисления в памяти, тем самым избегая записи промежуточных результатов на диск.

Инфраструктура: HDFS, Amazon S3 или Google Cloud Storage (GCS)

https://blog.det.life/how-does-uber-build-real-time-infrastructure-to-handle-petabytes-of-data-every-day-ddf5fe9b5d2c
👍5
Дайджест статей

Data сontract: давайте попробуем договориться
https://habr.com/ru/articles/812149/

Data Governance: Key takeaways from the Gartner Data & Analytics Summit
https://medium.com/selectstar/data-governance-key-takeaways-from-the-gartner-data-analytics-summit-41572285a7d9

Roadmap to Learn AI in 2024
https://medium.com/bitgrit-data-science-publication/a-roadmap-to-learn-ai-in-2024-cc30c6aa6e16

Как LLM учат понимать синтаксис
https://habr.com/ru/companies/ntr/articles/812107/

Как стать BI-аналитиком? Онлайн и офлайн, теория и практика
https://habr.com/ru/companies/visiology/articles/811955/

Фундамент AI: обратное распространение ошибки простыми словами
https://habr.com/ru/companies/raft/articles/811371/

Real-time data processing using Change Data Capture and event-driven architecture
https://medium.com/macquarie-engineering-blog/real-time-data-processing-using-change-data-capture-and-event-driven-architecture-006cf30cc449

Data Engineer : What is DataMart
https://premvishnoi.medium.com/data-engineer-what-is-datamart-1745ede1c070

Aspects of Data Architecture
https://medium.com/@josephreeves1990/aspects-of-data-architecture-b204a4b12ff8
3👍3🔥1
Немного про ChatGTP-5

Если вы интересуетесь перспективами ChatGPT, но у вас нет времени изучать всё, что появляется в информационном пространстве по поводу грядущей версии ChatGPT-5 - вот статья для вас на выходные, где автор собрал и проанализировал всё, что так или иначе касается перспектив и информации по этой версии LLM.

Статья интересная, но супердлинная - её объем составляет 14 000 слов. Поэтому я сделал анализ анализа и ниже привожу краткое изложение некоторых моментов, которые показались интересными мне. В комментариях в посту я размещу её текст с моими пометками - потому что сама статья закрыта за paywall - не считайте это нарушением авторских прав, автору большой респект, работа проделана колоссальная, поэтому давайте считать, что делюсь только с узкой аудиторией этого канала.

Самые важные выводы из материала:

⁃ Разработка лучших в своем классе больших языковых моделей (LLM) уровня ChatGPT 4 - решенная на данный момент индустрией проблема.
⁃ ChatGPT-5 скорее будет коллаборацией GPT и Q* архитектур, нежели их слиянием, плюс мощный MoE.
⁃ Не ожидается, что ChatGPT-5 будет иметь возможности агента, но тем не менее будет иметь мощные возможности для рассуждения.

Об общем положении OpenAI сейчас:

⁃ Они находятся под сильным давлением, и на рынке очень высокие ожидания от ChatGPT-5.
⁃ OpenAI в своё время обогнала индустрию минимум на 1-2 года, но несмотря на год преимущества в работе над моделью по сравнению с конкурентами, простыми методами увеличения размера и объёма данных сейчас уже не обойтись, нужны новые архитектуры сети. Такие архитектуры уже сейчас появляются в конкурирующих моделях, в частности Q*, перспективы которой лежат не столько в области решения математических задач, что является демонстрацией от Meta, сколько в способности имитировать рассуждения и делать логические выводы.
⁃ Также надо отметить, что скорость, с которой конкуренты получают модели, близкие к ChatGPT-4, все возрастает и возрастает.
⁃ При этом ещё важно понимать, что OpenAI - коммерческая компания, и от неё ожидают одновременно и качественную новую модель и экономический успех - что сложно сделать просто увеличивая объём модели, бюджет на GPU и данные - так что тут вдвойне у них сложная задача.

Что мы можем предположить о модели ChatGPT-5:

⁃ Самое основное ожидаемое отличие GPT5 - способность к рассуждению и логическому выводу.
⁃ Интересно, что само название GPT - название архитектуры модели. С учётом того, что новая модель может быть не совсем GPT класса, не факт, что они назовут её ChatGPT-5 - тем не менее с другой стороны, это очень сильный бренд, от которого сложно отказаться. Так что тут OpenAI находится в некоторой ловушке.
⁃ Относительно качества модели, то тут можно поделиться ожиданиями Сэма Альтмана:
⁃ “GPT2 was very bad. GPT3 was pretty bad. GPT4 was pretty bad. But GPT5 will be good.”
⁃ “I expect that the delta between 5 and 4 will be the same as between 4 and 3.”
⁃ Размер модели: ChatGPT-5 может иметь 2-5T параметров (против 1.8T у ChatGPT-4).
⁃ Данные для обучения: для увеличения объёма данных для обучения предполагается, что OpenAI делает большую ставку на синтетические данные + данные, полученные от модели Whisper - распознанные диалоги и ролики с YouTube.
⁃ Архитектура:
⁃ Основной модели остаётся модель GPT.
⁃ Следует ожидать, что это будет ансамбль Mixture of Experts (MoE), а не просто большая плотная модель - при этом есть цифра 200, которую можно отнести к количеству “экспертов” (тут надо отметить, что мы опять переизобретаем ансамбль моделей, который стал промывным для известного кекса Netflix Prize).
⁃ Ожидается активное применение архитектуры Q* с применением RL для обучения рассуждениям.
⁃ OpenAI ещё не готова сделать окончательный прыжок к ИИ-агентам со своим самым большим релизом. Предстоит проделать ещё много работы. TPA, несмотря на то, что на данный момент являются единственным потенциальным решением, сами по себе не будут достаточными для достижения искомых агентских возможностей таким образом, чтобы люди рассматривали их использование для серьёзных проектов.
👍8👏21
Про цели OpenAI и GAI:

Для реального прорыва в области ИИ модели должны иметь возможность быть агентами. Для достижения человеческого уровня необходимо понимание социально-экономических структур мира и применения этих знаний в неопределённых ситуациях с множеством вариантных деталей. Такая прикладная способность к обобщению выходит за рамки того, что можно описать в любом тексте. Нужно понимание негласных знаний (ноу-хау), которому можно научиться только на практике и непосредственно у тех, кто уже знает, как это делается. Ни один ИИ не может быть полезным агентом и достигать целей в мире без способности приобретать ноу-хау/тактильные знания, каким бы великим он ни был в чистом рассуждении.
Чтобы приобрести ноу-хау, люди “делают вещи” - живут и получают опыт. Поэтому ИИ должен стать полноценным “агентом” - должен иметь возможность планировать и выполнять действия и использовать это для обучения.

Но надо отметить, что основные исследователи в OpenAI продолжают верить в то, что TPA сможет обладать эмерджентными свойствами для дедукции “негласных знаний” из текста.

Когда выйдет модель:

⁃ С учетом всех слухов и намеков автор предполагает очень 24 года (октябрь-ноябрь).
⁃ При этом автор считает, что сама модель уже готова, и обучение было завершено в ноябре прошлого года, и сейчас идет “упаковка, тюнинг и написание обвязки”.

https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know
👍51
Forwarded from Data Nature 🕊 (Alexandr Barakov)
Фрейморки, борды, темплейты, сколько можно 😵‍💫

За год я произвел какое-то количество тулов для data/bi менеджеров.
Поток этого "творчества" не унять, это побочный продукт основной работы. Но нужно хотя бы структурировать. Вот последние:
- Data & Analytics Maturity Canvas
- BI Adoption guide и темплейт, PDF версия
- Data & Analytics Strategy & Tactics Guide 2.0
- Борд - Почему Data Catalogs не взлетают?
- BI Leader Ramble
- Info Design Songbooks (вместе с Настей)
- Some Dashboards Roasting (вместе с Ромой)

Удачные из них останутся, остальные переродятся во что то другое. Все надо касдевить в этой жизни - напишите в коментах кто чем пользовался.

Не только вам, но и мне требуется усилие, чтобы переварить эти борды, подружить с новыми мыслями и c задачами в работе, убедиться что они реально помогают решать
проблемы. Сложно не скатываться в итоге в инфо-продукты формата so-what и спасибо-кэп.

В том числе для этого я использую свой курс по BI стратегии. Кстати логичнее его переназвать в Разработка Data&Analytics стратегии и тактики, чтоб соответствовало содержанию.
Старт 15 мая, можем взять еще 2-3 человека, кому интересно, пишите. Если коротко - это 3-недельный марафон с длинными встречами по вечерам, "лекциями и домашками", tg-чатом и общением.

🤱Сейчас в работе есть еще несколько новых исследований - будущих Miro бордов, на разных стадиях:
- BI about BI: контент менеджмент гайд о том, что имеет смысл трекать в своей BI системе + примеры дашбордов
- Карта d&a болей: типология проблем разных дата и бизнес ролей + шаблон для воркшопа
- Коллекция шаблонов упражнений для воркшопа по дата/BI стратегии (полноценный экстеншн к этому гайду)
- Data Governance Program Guide 2.0 - сильно переосмысленный и дополненный
- Типология Оргструктур дата команд
- Tableau Report Optimization Guide
- ...

✍️Напишите в коменты, как думаете - в какие темы вложить больше усилий и продвинуть к готовности в первую очередь?
Часть добью и покажу на курсе в мае и потом выведу в паблик. Остальные будут созревать дальше.

#cамореклама
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Извините за оффтопик, но о наболевшем 🙂 Вот я всегда говорю, что главное в управлении проектом и компании это даже не столько понять что надо делать, а правильно определить что НЕ НАДО делать. Особенно это важно на ранних стадиях, когда ресурсов мало и каждый неверный шаг может вас направить по дороге в неудаче.

Существует очень хорошая методология для продуктов: HADI-циклы которые используются для того, что бы определить СТЕПЕНЬ УВЕРЕННОСТИ в необходимости реаилзации. Концепция очень простая: берете “фичу” и определяете для нее следующие параметры:

⁃ Hypothesis (постановка гипотезы). На этом этапе собираются все возникающие теории и определяются метрики, на которые влияет изменение. Например, новая версия заголовка может повысить конверсию на целевой странице компании.
⁃ Action. (проверка гипотезы) - ключевым моментом метода HADI является возможность проверить гипотезу. Как только принято решение проверить определенную гипотезу, это нужно сделать как можно быстрее.
⁃ Data. (сбор данных). На этом этапе собираются данные, необходимые для проверки гипотезы, чтобы подтвердить или опровергнуть ее.
⁃ Insights. (заключение) На этом этапе оценивается, как была проверена гипотеза и достигнуты ли поставленные цели.

Посмотрите статью для деталей.

Если вы имеете мало опыта в той области, в которой делаете продукт/компанию (тут не важна степень масштаба, работает везде) - делайте физические эксперименты, если есть большой опыт - делайте хотя бы мысленные эксперименты.

https://productstar.ru/hadi-cycles

Правда для того, что бы проводить “мысленные” эксперименты, еще надо иметь достаточно мыслетоплива (https://habr.com/ru/companies/oleg-bunin/articles/348714/) - но это отдельная история
👍81
Дайджест статей

Data Governance: Key takeaways from the Gartner Data & Analytics Summit
https://medium.com/selectstar/data-governance-key-takeaways-from-the-gartner-data-analytics-summit-41572285a7d9

Data Engineer :Overview of Data Governance
https://premvishnoi.medium.com/data-engineer-overview-of-data-governance-769117297c1c

DBT in a Nutshell
https://blog.devgenius.io/dbt-data-build-tool-in-a-nutshell-29028bc4e164

5 Brilliant Lakehouse Architectures from Tencent, WeChat, and More
https://starrocks.medium.com/5-brilliant-lakehouse-architectures-from-tencent-wechat-and-more-dd069facf532

Как пользоваться Claude: знакомство с главным конкурентом ChatGPT и базовые правила его использования
https://habr.com/ru/companies/bothub/articles/812659/

Проблема «галлюцинирования» в больших языковых моделях на примере чат-ботов
https://habr.com/ru/companies/sberbank/articles/812775/

Выбираем инструмент проектирования интерфейсов для аналитика
https://habr.com/ru/articles/813037/

Обзор бесплатных чат-ботов ChatGPT в телеграме 2024
https://habr.com/ru/companies/bothub/articles/813193/

Зачем компаниям ML? Разбираемся на примере Netflix
https://habr.com/ru/companies/selectel/articles/811585/
6
Ну что, попробуем :)
👍6
📣Уже 16 мая станут известны лауреаты премии Data Award 2024.

🏆 Награды организациям и командам вручаются в номинациях:
За повышение эффективности бизнеса
За реализацию инновационной идеи
За обеспечение качества данных
За достижения в подготовке специалистов по управлению данными
За реализацию социально значимых инициатив на основе данных
За реализацию антикризисного проекта
За клиентоцентричность

Кроме того, учредители Data Award 2024 традиционно вручают специальную премию «За вклад в популяризацию профессии» номинанту, активно проявившему себя в продвижении роли директора по данным и в повышении значимости управления данными для бизнеса и общества в профессиональном медиапространстве, на профильных мероприятиях и в социальных сетях.

Приз лауреату в специальной номинации «Данные без границ» вручит премиум-партнер церемонии — компания «Сбер».
👍5
Доклад Александра Ермакова, технического директора и сооснователя компании Arenadata, на тему «Технологический цикл решений для обработки данных».

https://youtu.be/i_3_DdB4pk4?si=mU6IZhwFoDMPMNcL
👍8
Вопрос к аудитории - кто какие знает тулы для того, что бы сохранять статьи на "почитать" потом? Я очень долго пользовался Pocket - но что то он совсем плох стал последнее время и превращается из списка на прочтение в какой то агрегатор статей которые мне не нужны.

Я тут посмотрел быстро и нашел: https://raindrop.io/

Может быть у кого то есть рекомендации?
Andrew Ng вместе с crewAI выпустили новый бесплный курс Multi AI Agent System про агентские системы

Рекомендуется на выходные, а что еще делать?

https://learn.deeplearning.ai/courses/multi-ai-agent-systems-with-crewai/lesson/1/introduction
👍6
Дайджест статей

Data Management in 2024
https://dzone.com/articles/what-data-management-looks-like

The Data Mesh Strategy Behind Intuit’s Global Financial Technology Platform
https://medium.com/intuit-engineering/the-data-mesh-strategy-behind-intuits-global-financial-technology-platform-db862fd45e0b

Netflix Uses Metaflow to Manage Hundreds of AI/ML Applications at Scale
https://www.infoq.com/news/2024/03/netflix-metaflow/

Как пользоваться Claude: знакомство с главным конкурентом ChatGPT и базовые правила его использования
https://habr.com/ru/companies/bothub/articles/812659/

Миграции схемы данных YDB с Flyway и распределенные блокировки
https://habr.com/ru/companies/ydb/articles/815085/

CDC на примитивах
https://habr.com/ru/articles/812797/

10 признаков, что пора пересмотреть систему сбора и анализа данных
https://habr.com/ru/companies/click/articles/814319/

Apache Airflow: преимущества и недостатки
https://habr.com/ru/articles/811807/

Postgres Pro Shardman: горизонтальное масштабирование реляционных СУБД
https://habr.com/ru/companies/postgrespro/articles/811041/

Шардирование баз данных и проектирование систем
https://habr.com/ru/companies/piter/articles/813133/

Comparative Analysis of Two Top Big Data Transfer Services
https://www.smartdatacollective.com/comparative-analysis-of-two-top-big-data-transfer-services/
❤‍🔥5👍1
Воскресный шопинг
👍8🤝2🆒1
2025/07/08 23:14:39
Back to Top
HTML Embed Code: