Telegram Web Link
Дайджест статей

How Meta Solves Data Lineage At Scale
https://blog.det.life/how-meta-solves-data-lineage-at-scale-690874d8d7ba

Open-source инструменты для визуализации данных
https://habr.com/ru/articles/891010/

Подробная карта OpenSource инструментов для создания AI агентов
https://habr.com/ru/articles/890774/

Современные требования к инфраструктуре для агентских AI-систем. Развертывание, поддержка и операционные расходы
https://habr.com/ru/articles/890836/

What I learned after one year of building a Data Platform from scratch
https://medium.com/@jeremysrgt/what-i-learned-after-one-year-of-building-a-data-platform-from-scratch-d7075629cab1

2025 Enterprise Data & AI Trends: Agents, Platforms, and Moonshots
https://sanjmo.medium.com/2025-enterprise-data-ai-trends-agents-platforms-and-moonshots-0010c8b4d1f3

Introducing Netflix’s TimeSeries Data Abstraction Layer
https://netflixtechblog.com/introducing-netflix-timeseries-data-abstraction-layer-31552f6326f8

Instacart Creates Real-Time Item Availability Architecture with ML and Event Processing
https://www.infoq.com/news/2024/02/instacart-item-availability/

Building an End-to-End Data Lakehouse with Medalion Architecture, Airflow, and DuckDB
https://medium.com/@sweetkobem/building-an-end-to-end-data-lakehouse-with-medalion-architecture-airflow-and-duckdb-67c6a4c5c2c4
Интересный сервис, еще не смотрел в деталях но он очень активно взлетел в новостях, все про него пишут. Надо изучить

https://manus.im/
Это очень мило :)
Самое милое, что было сейчас на конфе-робот Blue,созданный Disney+DeepMind+NVidia

Дженсен Хуанг заявил: «Пришло время роботов. Зачем? Чтобы решить проблему нехватки рабочей силы. Все, что движется, будет роботизировано».

Он давал этому мультяшному роботу команды на сцене в прямом эфире https://www.tg-me.com/alwebbci/3114
Немного инсайдерской информации про Apple от Bloomberg. Siri+ не будет 🙂

Интересно, что на фоне заметных шагов вперед у Alexa и Google, Siri продолжает буксовать и сейчас похоже уже можно говорить о том что Siri+ не будет до 2026 года. К сожалению в статье не описываются конкретные сложности, с которыми столкнулась команда, а было бы интересно узнать. Попробуем погыпытышить.

"Walker said the decision to delay the features was made because of quality issues and that the company has found the technology only works properly up to two-thirds to 80% of the time"

Особенно выделяется то, что Apple уже демонстрировала Siri+ на прошлой конференции для разработчиков, а они никогда не показывают на конференции то, в запуске чего не уверены. Это возможно первый раз когда они отходят от этого правила.

Но тем не менее они остаются привержены своей парадигме "But Apple wants to maintain a high bar and only deliver the features when they’re polished" и не стараются притянуть запуски к каким то памятным датам - остается достойной уважения такая позиция в части продуктовой разработки.

https://www.bloomberg.com/news/articles/2025-03-14/apple-s-siri-chief-calls-ai-delays-ugly-and-embarrassing-promises-fixes?accessToken=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzb3VyY2UiOiJTdWJzY3JpYmVyR2lmdGVkQXJ0aWNsZSIsImlhdCI6MTc0MjE1NTk3MSwiZXhwIjoxNzQyNzYwNzcxLCJhcnRpY2xlSWQiOiJTVDMxRE1EV1JHRzAwMCIsImJjb25uZWN0SWQiOiJFQTExNDNDNTM4NEE0RUY5QTg5RjJEN0IxMTg2MzcwOSJ9.NIVHf5K-5EZVbtJFJbkn_R9BqHrNdEJXTdo7m3SxsF4&utm_source=tldrnewsletter&leadSource=uverify%20wall
Кстати, на фоне новостей про LLM и развитие AI интересно взглянуть на график роста потребления энергии человечеством. Выводов не делаю, просто интересно посмотреть :)
Мои ИИ-стек инструментов

За последние два года я попробовал больше сотни разных ИИ-инструментов. Многие не оправдали своих ожиданий, но есть звездочки, которые не только доказали свою ценность, но и стали незаменимыми партнерами в ежедневной деятельности.

Так получился мой ИИ-стек, которым я пользуюсь практически ежедневно.

▶️Базовые LLM:

1. Claude - скоро будет год как для меня Claude - LLM #1. Долгое время я его использовал только через API в своих агентах, но с выходом 3.7 Sonnet и появлением интерактивного интерфейса, добавил подписку и на claude.ai.

2. ChatGPT - всегда рядом, на случай второго мнения. Использую только через API.

3. Deepseek - хорош, но на каждый день он слабее.

4. Google Gemini - открыл его для себя заново с появлением Gemini 2.0 Flash и расширением возможностей AI Studio, включая Realtime режим анализа стриминга с камеры (фильм "Она" все помним).

5. Grok - Deep Research с поиском в интернет и "думающий" режим, да еще и бесплатно (в одном из запросов модель пока размышляла, собрала 103 источника и сгенерировала 140 листов текста.... для выдачи ответа на 1 лист. не жалеет grok себя :) )

▶️ Для работы с информацией

6. NotebookLM - лучший бесплатный инструмент от Google для работы с документами. Загружаем до 50 источников (ссылки на youtube, pdf, видео файлы) и получаем интерактивный инструмент с поиском по документам. Практически все отчеты теперь читаю в нем.

7. Perplexity - отлично ищет информацию в интернет, но мне не нравится как он ее обрабатывает последние месяцы. Использую как инструмент через API в агентах.

▶️ Генерация изображений

8. Midjourney - 99% изображений создаю в нём. С настройкой собственных профилей (фактически файн-тюнинг по себя) всё чаще радует с первого раза.

9. DALL-E - для генерации изображений в своих агентах. (midjourney бы твой API)

10. Adobe - photoshop c ИИ хорош.

▶️ Видео и Аудио

11. Hailuo, Runway, Pika - как правило экспериментирую сразу с несколькими [1] [2]. Результат пока 50/50 - чаще не попадает в ожидания. Но сделать видео-поздравление по фотографиям - с этим инструменты справляются на ура.

12. Suno - лучший генератор песен и первый инструмент, у которого я сразу на год купил подписку. Песни-поздравления, треки для тренировок в нужном темпе, каверы в том стиле, в котором хочется. [1] [2] [3]

13. ElevenLabs - клонирование собственного голоса (настолько похоже, что сам пугаюсь). использую для своих аватаров и агентов. Ждем эмоции.

14. HeyGen - непосредственно создание цифровых аватаров. можно и через api.

▶️ Автоматизация и ИИ-агенты

- Интерфейс для работы с агентами - Телеграм или google таблицы - самые удобные для меня.

- Notion - обновление таблиц агентами, а Obsidian еще и как база данных для агента (через RAG).

- n8n - основной инструмент автоматизации. Есть несколько сценариев работающих на make, но они постепенно переписываются в n8n. В n8n очень удобная среда настройки агентов и добавление внешних инструментов. А скоро еще и MCP можно будет добавить... [1] [2] [3]

- IFTTT удобен для ряда сценариев, которые в n8n и make требуют кучу усилий или денег - например, выгрузка новостей из feedly в google таблицу.

- Для хранения данных нам нужна - классическая база данных (настройки и данные между процессами), быстрая база - ключ/значение (контекст и память) и векторная база в качестве RAG для агентов. Я пока остановился на Airtable, Xata и Pinecone.

- Ну и куда сегодня без вайб-кодинга. Использую Replit и Cursor. С выходом Claude 3.7 оба стали работать намного лучше. [1] [2]
А как прибавил сам Сlaude! - смотрим.

Универсальных решений нет, поэтому каждый собирает под себя свою удобную ИИ-команду!

Всех с пятницей! и нескучного погружения в мир ии-инструментов!

🅰️🅱️@ReymerDigital

Что из звездочек я пропустил? пишите в комментарии
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Дайджест статей

From Lakehouse architecture to data mesh
https://medium.com/adevinta-tech-blog/from-lakehouse-architecture-to-data-mesh-c532c91f7b61

Why Text-to-SQL is Failing for Agents and How to Fix It?
https://medium.com/madhukarkumar/why-text-to-sql-is-failing-for-agents-and-how-to-fix-it-6cb4065d40e9

Decoding Data Products: The Building Blocks of Modern Data Strategy
https://medium.com/tech-lingo-unpacked/decoding-data-products-the-building-blocks-of-modern-data-strategy-8e8d78019694

Выбор локальной LLM модели. Публикация на сайт с чатом
https://habr.com/ru/articles/892468/

Role of Data Annotation Services in AI-Powered Manufacturing
https://dzone.com/articles/data-annotation-in-ai-manufacturing

Парсинг с помощью LLM: зачем, как и сколько стоит?
https://habr.com/ru/articles/892954/

Зачем бизнесу LLM: стратегический взгляд
https://habr.com/ru/articles/892956/

Управление качеством данных
https://habr.com/ru/articles/893158/

Leveraging LLMs for Software Testing
https://dzone.com/articles/leveraging-llms-for-software-testing

Building a Distributed Multi-Language Data Science System
https://dzone.com/articles/distributed-multi-language-data-science-system

BI-Ассистент для создания аналитических дашбордов и автоматизированного анализа данных
https://habr.com/ru/articles/891420/
​​🔥🔥🔥 Исследование по AI агентам от CB Insights: каковы ключевые тренды?

Буквально месяц назад CB Insights выкатили мини-исследование на тему AI агентов. Посмотрим?

1/ AI агенты подняли $3.8B инвестиций в 2024 году, а конкретнее динамика выглядела так:
▪️2020: $24M, 8 сделок;
▪️2021: $166M, 16 сделок;
▪️2022: $235M, 24 сделки;
▪️2023: $1.3B, 106 сделок;
▪️2024: $3.8B, 162 сделки.
🔹2022->2023 рост в 5.5х по объему и в 4.4х по количеству, а 2023->2024 рост 2.9х по объему и в 1.5х по количеству

2/ 6 из 8 big tech + big AI tech предлагают тулы для AI агентов, 3 из 10 уже предлагают агентов и еще 6 из 10 разрабатывают.

3/ AI агенты от Big Tech доминируют в горизонтальном сегменте, а частные компании уже специализируются. Несмотря на это структура инвестиций в с 2020 в тулы выглядит так (%% по объему инвестиций и %% по количеству сделок):
〰️ Horizontal apps: 55% и 49%;
▫️ Infrastructure: 24% и 29%;
▪️ Vertical: 21% и 21%.
То есть, половина идет в горизонтальные сервисы пока что, вертикальные – только пятая часть.

4/ Очень любопытно, что по уровню развития бизнеса горизонтальные сервисы гораздо более продвинутые. На первых двух из 5 стадий (это emerging & validating) находятся:
〰️ 33% horizontal apps;
▫️40% vertical apps;
▫️ 52% Infrastructure.
🔹 Внезапно инфраструктура – самая неразвитая.

5/ А кто в лидерах среди Infrastructure Stack провайдеров?
▪️Google;
▪️AWS;
▪️Salesforce;
▪️OpenAI;
▪️Anthropic.

6/ Что мешает внедрять AI агентов?
🔻47% беспокоятся о безопасности и качестве (данных прежде всего);
🔻41% опасаются технических проблем во внедрении;
🔻35% говорят о недостатке качественных кадров в команде.

👉 Само исследование на 12 страниц можно скачать по ссылке: https://www.cbinsights.com/research/ai-agent-trends-to-watch-2025/

В продолжение темы интересно задавать вам два вопроса ниже – про использование AI агентов и про доминирование горизонтальных решений. Ответите на опросы?

@proVenture

#ai #research #trends
Writing Low-Latency C++ Applications

Написание приложений на C++ с низкой задержкой требует тщательного подхода, включающего эффективную обработку данных, эффективное управление параллелизмом и тщательную оптимизацию на системном уровне.

В этой статье приведен свод неплохих рекомендаций, многие из которых мы активно применяем в своих проектах. Я вот кратко зафиксировал для себя такой список:

1. Избегать динамической аллокации памяти и управлять ею самостоятельно и использовать структуры данных с пред-определенным размером
2. Избегайте использование heap, пишут что stack быстрее
3. Убедитесь, что структуры данных правильно выровнены со строками кэша CPU
4. Избегать копирование объектов, использовать доступ по ссылке
5. Предпочитать atomic operations и Lock-free Data Structures
6. Управлять аллокацией тредов и потоков по CPU в случае мультипоточных приложений и избегать выполнения разных поток на одном core что бы снизить их влияние на производительность друг друга
7. Реализуйте пул потоков для управления фиксированным количеством потоков, которые могут выполнять несколько задач
8. Соответствующим образом надо настраивать ОС для низкой задержки в выполнении приложения
9. Устанавливайте буферы сетевой подсистемы в как можно более маленький размер. Добавлю тут от себя - большие буферы увеличивают стабильность коммуникации но скрывают все возможной проблемы

https://medium.com/@AlexanderObregon/writing-low-latency-c-applications-f759c94f52f8
в копилочку
Команда ClickHouse наконец-то выпустила официальный коннектор к Tableau!

Проверено - работает! Правда не верьте тексту в официльном блоге (ниже), коннектор работает только с JDBC драйвером версии v0.4.6, а не с последней версией, как указано в инструкции ниже.

https://clickhouse.com/blog/announcing-clickhouse-connector-tableau#what-about-tableau-cloud
Магия черного хода, это сильно
Дайджест статей

My data governance framework
https://medium.com/zs-associates/my-data-governance-framework-c1879486bc09

What I Wish I Knew Before Becoming a Solutions Architect in Data
https://medium.com/data-science-collective/what-i-wish-i-knew-before-becoming-a-solutions-architect-in-data-9d97b8b53246

How to Build an AI Agent for Data Analytics Without Writing SQL
https://medium.com/data-science/how-to-build-an-ai-agent-for-data-analytics-without-writing-sql-eba811115c1f

Why the ArchiMate Model is Essential for Data Architects in Documenting Enterprise Architecture
https://medium.com/@armandovazquez/why-the-archimate-model-is-essential-for-data-architects-in-documenting-enterprise-architecture-d9fc9fb9fcae

The new wave of Composable Data Systems and the Interface to LLM agents
https://medium.com/wrenai/the-new-wave-of-composable-data-systems-and-the-interface-to-llm-agents-ec8f0a2e7141

Supercharge Your ETL Pipeline: Fixing Data Quality Issues with AI
https://medium.com/@fhuthmacher/supercharge-your-etl-pipeline-fixing-data-quality-issues-with-ai-37218493fbd9

Agentic AI for Data Engineering
https://ai.gopubby.com/agentic-ai-for-data-engineering-4412d5e70189

Как выбрать LLM-модель, которая заберет у вас работу
https://habr.com/ru/articles/893642/

Объектное хранилище S3: практическое руководство без лишних слов
https://habr.com/ru/companies/vktech/articles/892234/

Self-Service ETL vs Power Query: чем отличаются загрузчики Visiology и Power BI
https://habr.com/ru/articles/895264/

Уже через год мы будем общаться с базами данных по-русски
https://habr.com/ru/companies/postgrespro/articles/895436/

Self-Healing Data Pipelines: The Next Big Thing in Data Engineering?
https://dzone.com/articles/building-a-self-healing-data-pipeline-a-data-engin

Agentic AI and Generative AI: Revolutionizing Decision Making and Automation
https://dzone.com/articles/agentic-ai-and-generative-ai
2025/07/02 03:42:23
Back to Top
HTML Embed Code: