Telegram Web Link
Дайджест статей

Modern Data Engineering in the LLM Era
https://medium.com/art-of-data-engineering/modern-data-engineering-in-the-llm-era-628489c87378

Mastering Data Ingestion: Essential Strategies for Data Engineers
https://blog.det.life/mastering-data-ingestion-essential-strategies-for-data-engineers-aa63283eed83

Современная Lakehouse-платформа данных Data Ocean Nova
https://habr.com/ru/articles/847770/

AI E-com Ассистент
https://habr.com/ru/articles/847478/

Контроль качества разметки на проекте: 4 секрета успеха
https://habr.com/ru/companies/data_light/articles/848234/

Mastering Architecture Diagrams and Technical Presentations: A Data Architect’s Guide
https://medium.com/art-of-data-engineering/mastering-architecture-diagrams-and-technical-presentations-a-data-architects-guide-eb410b49bc19

Top 10 Apache Airflow Best Practices for Data Engineers
https://medium.com/@Nelsonalfonso/top-10-apache-airflow-best-practices-for-data-engineers-f72de2b6175d
Ну что ж, нельзя обойти стороной такое событие, как присуждение Нобелевской премии по физике “отцам” искусственного интеллекта. Ниже ссылка на официальный пресс-релиз.

Меня, конечно, удивило, что премия именно по физике. Как указано в пресс-релизе:

“Два нобелевских лауреата по физике этого года использовали инструменты физики для разработки методов, лежащих в основе современного мощного машинного обучения. Джон Хопфилд создал ассоциативную память, способную хранить и восстанавливать изображения и другие типы паттернов данных. Джеффри Хинтон изобрел метод, который может автономно находить свойства данных и выполнять задачи, такие как идентификация элементов на фотографиях.”

Интересно, что премию присудили не за развитие самой физики или достижения в её области, а за “использование методов физики” фактически в других дисциплинах.

С другой стороны, математикам исторически не дают Нобелевскую премию, а Computer Science как дисциплины в этой организации вроде нет. Но пройти мимо ИИ нельзя, так что, возможно, физика — хороший компромисс?

https://www.nobelprize.org/prizes/physics/2024/press-release/
When Nanoseconds Matter

Редакция ознакомилась с интересным докладом и хотела бы поделиться некоторыми заметками и соображениями. В первую очередь стоит отметить, что разработка эффективных приложений уже не сводится только к C++ и каким-то секретным флагам компиляции и сборки. Это скорее про принципы разработки ПО, которые полезны и применимы не только в C++ разработке, но и в любых других задачах и дисциплинах, включая работу с данными, разработку систем управления данными и алгоритмов их обработки.

Я для себя выделил несколько “общих принципов”:

• Оптимизация — это искусство избавления от всего лишнего: лишних инструкций, шагов, обработчиков и т. д.
• Нужно отлично понимать свои данные: их порядок, структуру, профили обработки. Важно точно понимать, с чем вы работаете, чтобы разработать оптимальный алгоритм обработки. Всё необходимо измерять и оценивать.
• Чем более узкоспециализированный алгоритм вы пишете, тем быстрее он будет работать для вашей задачи.
• Важно понимать среду, в которой вы работаете, и что может вас замедлять: операционная система, диски, внешние зависимости и т. д. Ничто не работает в вакууме, всё требует комплексной оптимизации.
• Измерения и профилирование — нельзя оптимизировать то, что не измерено.
• Разделите задачу на две части: медленный warm-up период, в который вы подготавливаете всё необходимое (заполняете память, читаете данные, наполняете кэш и т. д.), и быстрый цикл основной работы. Хорошая подготовка — залог успеха.
• Используйте инструменты, максимально подходящие для вашей задачи.
• Чем проще решение — тем быстрее оно работает.
• Постоянно исследуйте вашу систему, измеряйте, находите узкие места и устраняйте их. Устранив одно узкое место, оно может переместиться в другое, и система продолжит требовать оптимизации.

Видео: https://www.youtube.com/watch?v=sX2nF1fW7kI
Вот тут опубликованы слайды: https://github.com/CppCon/CppCon2024/blob/main/Presentations/When_Nanoseconds_Matter.pdf

И вот эту книгу могу порекомендовать в дополнение к материалу: https://www.amazon.co.uk/gp/product/B0CW1JS83N/ref=ppx_yo_dt_b_d_asin_title_351_o08?ie=UTF8&psc=1
Коллеги, 24 октября в Loft Hall пройдет, DaTalks 2024 | Data Reality Show. Организатором выступает компания Navicon, а главным партнером - Arenadata.

Это событие каждый год собирает солидное data community для детального обсуждения практических вопросов и кейсов, связанных с data-ландшафтом и перспективами, которые ожидают CDO и CIO в ближайшем будущем. Подтвержденные спикеры - СБЕР, HOFF, X5, Т-Банк, Dostavista, Unilever и другие.

В этом году среди основных тем заявлены:
• best practice формирования data-ландшафта «с запасом»
• будущее Data
• современные платформы и модели данных
• обзор и функциональное сравнение актуальных для российского рынка BI-систем.
• промежуточные итоги и перспективы импортозамещения

Важное отличие этого года - трансляция онлайн вестись не будет. А поскольку площадка имеет ограниченную вместимость, всем заинтересованным стоит зарегистрироваться заранее.

По ссылке можно ознакомиться с программой, спикерами и основной концепцией форума.

Не забудьте потом поделиться впечатлениями!

https://datalks2024.ru/?utm_source=TG&utm_medium=cdoclub&utm_campaign=24_10_24_DaTalks
Сегодня небольшая историческая страничка. Несколько экспонатов из коллекции Британской библиотеки: оригинальные заметки Чарльза Бэббиджа, черновик статьи самого Алана Тьюринга, которая впоследствии стала знаменитой статьей “Игра в имитацию”, и письмо Алана Тьюринга с его собственноручной подписью.
Дайджест статей

Производительность СУБД — расчет метрики, временной анализ, параметрическая оптимизация
https://habr.com/ru/articles/850106/

Предварительная обработка данных в машинном обучении: инструкция, инструменты, полезные ресурсы для начинающих
https://habr.com/ru/companies/skillfactory/articles/848858/

ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum
https://habr.com/ru/articles/849062/

Предиктивная аналитика в промышленности: путь к повышению эффективности и снижению затрат
https://habr.com/ru/articles/849364/

BI для оценки полезности BI: огранка логов по методу АЛРОСА
https://habr.com/ru/companies/visiology/articles/849728/

Дата-Сторителлинг: для Бизнеса и СМИ
https://habr.com/ru/articles/848556/

История о том, как мы быстрое хранилище в 2022 году строили
https://habr.com/ru/companies/cloud4y/articles/848720/
Интересный доклад про организацию облака ClickHouse с довольно подробными деталями дизайна, а так же подробностями истории развития ClickHouse от закрытого решения до OpenSource и SaaS решения.

https://www.infoq.com/presentations/open-source-saas/
Посмотрите на эту красоту :)

Инженерам компании Илона Маска SpaceX впервые удалось «поймать» разгонную ступень ракеты-носителя «Старшип» Super Heavy, после разгонной фазы полета отсоединившуюся от корабля и опустившуюся на космодром. Такой подход, так же как способность ракеты выводить на орбиту сотни тонн груза, радикально снизит стоимость космических полетов.

https://www.youtube.com/watch?v=NpjLfUoiT_w
Коллеги, 7 и 8 ноября в Москве состоится большая конференция Матемаркетинг’24, посвященная маркетинговой и продуктовой аналитике

В этом году мероприятие пройдет уже в шестой раз и соберет на одной площадке более 2000 гостей — специалистов из сфер электронной коммерции, ритейла, телекоммуникаций, банкинга, онлайн-образования и многих других.
Программа обещает быть насыщенной: более 120 докладов, панельных дискуссий и экспертных сессий. Профессионалы рынка обсудят управление рекламными каналами и маркетинговыми воронками, запуск сложных продуктов, ML-моделирование и ряд других вопросов.

Вот основные темы этого года:
- Аналитическая инфраструктура в условиях импортозамещения;
- Корпоративные платформы для экспериментов;
- Управление рекламными каналами и оценка инкрементальных показателей;
- Персонализация и оптимизация цифрового клиентского опыта;
- Ускорение роста бизнеса через платный маркетинг.

Бонус для обладателей билетов — 6 месяцев доступа к закрытой платформе конференции. На ней собраны материалы более чем из 400 докладов прошлых лет с удобным поиском и категоризацией. Это позволит заранее подготовиться и задать экспертам наиболее интересные вопросы.

Программа и билеты уже доступны на сайте, а специально для наших подписчиков по промокоду CDOCLUB10 будет скидка 10% на все виды билетов.

https://matemarketing.ru/?utm_source=cdoclub&utm_medium=announce&utm_campaign=tlgmm2024
Попалась на глаза статья про то дата-брокеров. Хотя как то тема сбора и обмена данными ушла на второй план под натиском успехов AI, компании, которые работали в этой области продолжают работать как и раньше, а несмотря на всякие GDPR и прочие попытки регулировать сбор и использование цифровой информации о пользователях, уровень осведомленности самих пользователей о том, что происходит и может происходить с их данными - только падает.

Эксперты в области кибербезопасности оценивают, что брокеры данных собирают в среднем 1 000 параметров на каждого человека с присутствием в интернете.

«Их интерес состоит в том, чтобы собрать как можно больше информации о вас, потому что чем больше данных и чем они точнее, тем выше стоимость этих данных», — сказал Крис Хендерсон, старший директор по операциям с угрозами в компании Huntress, основанной бывшими сотрудниками Агентства национальной безопасности США.

Вот краткий обзор типов информации, которую брокеры данных обычно собирают, согласно мнению экспертов по конфиденциальности, опрошенных CNBC:

• Основные идентификаторы: Полное имя, адрес, номер телефона и электронная почта.
• Финансовые данные: Кредитные рейтинги и история платежей.
• История покупок: Что вы ищете в интернете, что и где покупаете, а также как часто приобретаете определенные товары.
• Медицинские данные: Ваши лекарства, медицинские состояния и взаимодействия с приложениями или сайтами, связанными со здоровьем.
• Поведенческие данные: Информация о ваших предпочтениях, интересах и типах рекламы, на которую вы, вероятно, кликнете.
• Данные о местоположении в реальном времени: GPS-данные из приложений, которые отслеживают ваш маршрут, места покупок и частоту посещений определенных локаций.
• Интерпретированные характеристики: На основе вашей интернет-активности и потребляемого контента — посещаемых сайтов, читаемых статей и просмотренных видео — брокеры данных делают выводы о вашем образе жизни, доходе, предпочтениях, религиозных или политических взглядах, увлечениях и даже вероятности того, что вы будете заниматься благотворительностью.
• Отношения с семьей, друзьями и коллегами: Анализируя вашу сеть друзей, подписчиков и контактов в соцсетях и мессенджерах, брокеры данных могут составить карту ваших связей и даже отслеживать, как часто вы взаимодействуете с определенными людьми, чтобы определить глубину ваших отношений.

Кто эти "брокеры"? В статье приходится список из the most of the major data brokers:

Experian
TransUnion
LexisNexis
Epsilon

БЕрегите свои данные :)

https://www.cnbc.com/2024/10/11/internet-data-brokers-online-privacy-personal-information.html
Forwarded from Бэкап
🤖 Применение федеративного машинного обучения для задач медицины

Яндекс вместе с Институтом системного программирования имени В. П. Иванникова РАН и Сеченовским Университетом первыми в России на практике применили федеративное машинное обучение для задач медицины.

Федеративное обучение – это подход, при котором организации-участники могут обучить нейросеть на нескольких независимых наборах данных и при этом не передавать их за пределы своей организации.

Метод федеративного машинного обучения в десятки раз ускоряет разработку технологий в проектах с большим количеством участников и создает максимально безопасную среду для работы с данными. Качество нейросети при этом повышается за счет доступа к ограниченным данным.

Эксперимент Yandex Cloud заключался в том, чтобы продемонстрировать, что метод работает на практике и подходит для проектов в медицине – задачей модели было распознавание патологий сердца на основе данных ЭКГ. В результате проекта удалось создать нейросеть, которая в 99% случаев верно определила патологию и в 95% не давала ложно-положительных оценок.

Разработка будет полезна в любых сферах, где приходится иметь дело с чувствительной информацией.
Коллеги, всем привет! Нашей редакции любезно подсказали, что опубликованы материалы конференции DataTalks 5.0 - конференция про работу с данными, которая прошла в сентябре. Спешим поделиться ссылкой со всеми!

https://datatalks.rt.ru/events/datatalks-5-0
T2 - Обмен данными по другим правилам

Ну и особенно надо отметить в докладах выше доклад коллег из Т2 и Ростелекома про их опыт построения платформы отмена данными. Ту, на самом деле, речь идет об обмене данными внутри холдинга - то есть это не какой-то коммерческий обмен, а больше, наверное, такой федеративный Data Mesh - с data-каталогом, проработанным governance и технологической частью интеграции.

https://rutube.ru/video/346c73dfeb22e2098ad48f73305dad9c/
Perplexity идет в Enterprise и добавляет новую функцию в свой продукт - поиск по внутренних корпоративным документам и базам знаний.

Наверное эту новость надо еще сопроводить комментарием, что деньги в GenAI по большей части находятся в Enterprise сегменте, что подтверждается всеми основными игроками рынка. В Perplexity м до этого времени такого активного движения не замечали, но может быть то просто было не так на поверхности, но вот сейчас они объявили что запускают 2 тарифа - Perplexity Pro and Enterprise Pro для того, что бы объединить поиск в интернете с поиском по собственным файлам.

Продукт Perplexity Spaces является центром совместной работы команд на базе искусственного интеллекта, где можно создать своего “командного” ИИ помощника и можно глубоко настроить его под конкретный случай использования и загрузить внутренние файлы. Spaces предоставляет полный контроль над тем, кто может получить доступ к данным, обеспечивая безопасность и конфиденциальность.

Для пользователей Enterprise Pro все файлы и поисковые запросы по умолчанию исключены из процесса обучения LLM. Пользователи Pro также могут отказаться от обучения LLM в настройках.

Данные загружаются в облако, но с точки зрения защиты и конфиденциальности заявляется целый набор механизмов:

⁃ Data Retention - Your queries stay private. Your files are deleted after 7 days.
⁃ SOC2 Certification - Our security policies and controls continuously meet the highest industry standards so that you can run your business with peace of mind.
⁃ Enhanced Security - manage threats and prevent data loss with real-time notifications of suspicious behavior or risky activities

Так же есть на сайте и описание on-prem тарифа: Self-Serve - Companies with fewer than 250 employees can access Enterprise Pro through a self-serve flow.

В будущем обещают добавлять 3rd party источники данных какие как Crunchbase и другие базы знаний.

https://www.perplexity.ai/hub/blog/introducing-internal-knowledge-search-and-spaces
Дайджест статей

Как Лента формирует эффективный ассортимент на основе данных
https://habr.com/ru/companies/lentatech/articles/851086/

Технология проектирования хранилищ данных Data Vault 2.0
https://habr.com/ru/articles/850280/

Инфраструктура для Data-Engineer Data Lake Apache Iceberg
https://habr.com/ru/articles/850674/

Как спрогнозировать вероятность увольнения сотрудника и получить ещё миллион инсайтов из одного графика
https://habr.com/ru/companies/yandex_praktikum/articles/850730/

Как обойти подводные камни FineBI для грамотной визуализации данных
https://habr.com/ru/articles/851710/

Плюсы и минусы различных DWH как источников данных для BI
https://habr.com/ru/companies/modusbi/articles/851718/
Forwarded from Innovation & Research
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/05 20:07:28
Back to Top
HTML Embed Code: