Telegram Web Link
Редакция грустит о закрытии сервиса Pocket, которым пользовалась много лет что бы готовить еженедельные дайджесты. Хотя еще в прошлом году перешел на raindrop.io, все равно жаль что хорошие сервисы закрываются.

Фишкой pocket была возможность скачивать контент в offline на устройство и читать в самолет и прочих метро. Ни в одном другом сервиса такого я так и не нашел :(
В копилку
Forwarded from Big Data AI
📊 Free LLM API Resources — бесплатные облачные модели для разработчиков. Для тех, кто хочет экспериментировать с LLM без затрат на API, появился исчерпывающий гайд по бесплатным ресурсам. В списке — десятки провайдеров с лимитами от 50 запросов в день до 1 млн токенов.

Из них можно выделить:
— Google AI Studio с Gemini 1.5 Flash (500 запросов/день)
— Mistral La Plateforme — доступ к Codestral и другим фирменным моделям
— Cloudflare Workers AI — 10k нейронов ежедневно для Llama 3 и Qwen

Есть и временные кредиты: $30 у Baseten, $10 у AI21 для Jamba. Главное правило не злоупотреблять, иначе бесплатные лимиты могут исчезнуть.

🤖 GitHub

@bigdatai
Дайджест статей

Uber Data Tech Stack
https://www.junaideffendi.com/p/uber-data-tech-stack?r=15862q&utm_medium=ios&triedRedirect=true&hide_intro_popup=true

The AI Wake-Up Call for Data Engineers: Why LLMs + MCP Matter Now
https://medium.com/data-engineering-space/the-ai-wake-up-call-for-data-engineers-why-llms-mcp-matter-now-af71faef36b8

Какую архитектуру данных мне выбрать? — Подход Data-инженера. Часть 1
https://habr.com/ru/companies/otus/articles/911874/

Let’s build a data platform like Spotify!
https://blog.det.life/lets-build-a-data-platform-like-spotify-f189288ad1ed

Enhancing Business Decision-Making Through Advanced Data Visualization Techniques
https://dzone.com/articles/advanced-data-visualization-techniques-for-business

Каталог данных: что за зверь и с чем его едят
https://habr.com/ru/companies/sportmaster_lab/articles/911880/

How to Build Real-Time BI Systems: Architecture, Code, and Best Practices
https://dzone.com/articles/how-to-build-real-time-bi-systems-architecture-cod

Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2
https://habr.com/ru/companies/X5Tech/articles/911716/

Китайская ИИ-революция и развитие BI: чему нам стоит поучиться
https://habr.com/ru/companies/glowbyte/articles/911310/

SRE в инженерии данных: профессия и ее перспективы
https://habr.com/ru/articles/911656/

10 советов для бизнеса о том, как пользоваться BI-инструментами
https://habr.com/ru/companies/bitrix/articles/910594/
Comparing Analytics Engines

Очень интересный материал и хорошим сравнением нескольких аналитических движков. Редакция активно использует ClickHouse, но интересно было почитать и о других решениях. Очевидно, что универсального подхода к выбору лучшего движка для аналитических задач не существует, поэтому всегда полезно расширить кругозор.

Авторы предлагаю следующую классификацию для OLAP DB: General Purpose Engines (Spark), Interactive SQL Engines (Presto, Trino), and Realtime OLAP Engines (ClickHouse, StarRocks)

Кстати, StarRocks имеет на удивление самый высокий metascore. Spark - самый старый и в целом уже с legacy концепцией работы поверх map reduce - раза в 3 меньше по рейтингу, хотя он наименее требовательный к дискам и у него самая лучшая поддержка различными библиотеками для работы и наиболее развитая экосистема. Presto - самый масштабируемый, а Concurrency лучше всех справляется с конкурентными запросами. Clickhouse, в свою очередь, имеет наилучшую коммерческую поддержку.

В статье содержится довольно подробное сравнение движком по каждому пункту выше и ссылки на хороше use cases.

https://www.onehouse.ai/blog/apache-spark-vs-clickhouse-vs-presto-vs-starrocks-vs-trino-comparing-analytics-engines
Простите за оффтоп, но идея свалить с этой планеты с каждым годом становится все более актуальной, так что приходится внимательно отслеживать прогресс в SpaceTech (как некотрые внимательные читатели нашего канала, наверное, успели заметить 🙂 )

https://www.wsj.com/science/space-astronomy/spacex-starship-mars-military-elon-musk-3240c18d
Arc

Редакция грустит о планируемом закрытии проекта Arc. Я уже привык в целом к этому браузеру, у меня много удобных spaces, закладочки, страницы и удобная навигация по табам слева. Но команда, как видно из этой статьи, не удовлетворена результатов и охватом пользователей.

Arc остался узкоспециализированным, но не массовым, инструментов для гиков. Слишком сложный в освоении и переходе.

Пара фактов:
⁃ Only 5.52% of DAUs use more than one Space regularly - а я вот это как раз люблю
⁃ Only 4.17% use Live Folders (я хрен знает что это вообще 🙂 )

В общем они все переключатся на Dia - некое абсолютно новое переосмысление браузера. Вообще кажется что они тут опять “опередят рынок и умрут раньше чем пользователи будут готовы изменить своей мышление”. Ну поглядим.

https://browsercompany.substack.com/p/letter-to-arc-members-2025
Прекрасную познавательную лекцию «Энигма искусственного интеллекта» с отличными интерактивными элементами провел сегодня Михаил Бурцев.
Data Platform Fundamentals eBook.pdf
4 MB
Небольшая брошюра Data Platform Fundamentals от Dagster
Редакции удалось побывать на лекции «Discourse: Digital intelligence vs biological intelligence» нобелевского лауреата Джефри Хинтона о будущем искусственного интеллекта.

Лекция проходила в историческом месте — Royal Institution в Лондоне, где вот уже более 200 лет выдающиеся учёные читают публичные лекции, формирующие облик современной науки.

Это было одновременно вдохновляюще и волнительно — услышать размышления одного из основоположников современной ИИ в том самом зале, где когда-то Майкл Фарадей демонстрировал свои опыты.

Сильное напоминание о том, что технологии развиваются, а дух научного поиска остаётся неизменным.

Мне удалось написать лекцию и сделать фото слайдов, если кому то интересно, можно попробовать сделать обзор.
Дайджест статей

От точечных решений к экосистеме: как «Национальная Лотерея» улучшает качество данных
https://habr.com/ru/companies/arenadata/articles/913478/?utm_source=habrahabr&utm_medium=rss&utm_campaign=913478

Как мы ИИ в B2B сегменте Ростелекома внедряли
https://habr.com/ru/companies/rostelecom/articles/913828/

ClickHouse как DWH: Производительность без боли и ловушки merge-таблиц
https://habr.com/ru/articles/912454/

Концепция построения централизованной аналитики
https://habr.com/ru/articles/908818/

Как консолидировать данные из разрозненных хранилищ с помощью Tarantool CDC
https://habr.com/ru/companies/vktech/articles/913352/

Объяснимый ИИ в ML и DL
https://habr.com/ru/articles/913772/

Философия защиты персональных данных: долгая дорога к безопасности
https://habr.com/ru/companies/infowatch/articles/913710/

Is Big Data Dying?
https://dzone.com/articles/is-big-data-dying
Для всех, кто интересуется или занимается разработкой рекомендательных систем — обратите внимание: Yandex опубликовал крупный открытый датасет для обучения таких моделей.

Yambda-5B — это масштабная открытая база данных, содержащая 4.79 миллиарда взаимодействий между пользователями и объектами, собранных от 1 миллиона пользователей и охватывающая 9.39 миллиона треков. В датасете представлены как неявные отклики (например, факты прослушивания), так и явные — в виде лайков и дизлайков. Кроме того, он содержит информацию о том, было ли взаимодействие органическим или вызванным рекомендацией, а также предварительно рассчитанные аудиоэмбеддинги, что позволяет использовать его для построения рекомендаций с учетом контента.

https://huggingface.co/datasets/yandex/yambda
Data Day 2025

Коллеги, обратите внимание на очень интересное мероприятие! Лидеры по работе с данными из Т-Банка, Сбера, Альфа-Банка, ГПБ, X5 Group, ПСБ, Ozon Банка, Яндекс Финтех, Ростелекома и др. компаний расскажут, как применять максимум внутренних и внешних данных для ускорения бизнеса в финтехе.

10 июля на форуме Fintech Data Day:

⁃ Тренды данных «из первых уст». На какие данные сейчас делают ставку лидеры рынка: необанки, топ классических банков, вендоры, БКИ и другие?
⁃ Инфраструктура данных. Как основные игроки выбирают фундамент технологий данных? Как строят процессы вокруг? Как выжимают максимум?
⁃ Ускорение процессов на данных в классических подходах. Гибкое управление стратегиями принятия решений.
⁃ Скорость, эксперименты и смелые подходы к работе с данными от необанков.
⁃ Круглый стол и открытая коллаборация с залом по теме совместного применения данных в финтехе (единая система скоринга, антифрода, реестра блэклистов и т.д.).

Выступают:

- Анна Казакова, Т-Банк, директор по рискам, вице-президент.
- Алексей Каширин, Альфа-Банк, Директор Центра продвинутой аналитики.
- Тигран Саркисов, X5 Group, директор по управлению данными.
- Игорь Вахламов, Газпромбанк, управляющий директор. Курирует DS/ML в Центре технологий ИИ в направлениях рисков, кредитного мошенничества и др.
- Николай Тиден, Сбер, Chief Data Scientist & Data Officer, Блок «Сеть продаж».
- Максим Травин, Т-Банк, директор по управлению данными.
- Дмитрий Рузанов, ПСБ, директор департамента продвинутой аналитики, моделирования и монетизации данных.
- Михаил Комаров, Ростелеком, Директор по развитию бизнеса Дата-кластера.
- Григорий Бокштейн, TData, Ведущий эксперт по управлению данными.
- Александр Волков, Ozon Fintech, начальник отдела моделирования банковских продуктов
и другие.

Программа и регистрация
2025/07/04 00:53:50
Back to Top
HTML Embed Code: