Telegram Web Link
❗️Дурову грозит 20лет. Его задержали за отказ от работы с правоохранительными органами Франции.

Это первое резонансное давление в виде ареста основателя соцсети/мессенджера.

Toncoin стремительно падает на бирже уже больше, чем на 5%.

За отсутствие модерации, сотрудничества с правоохранительными органами и инструменты, предлагаемые Telegram (одноразовые номера, криптовалюты и т.д.), делают его соучастником в торговле наркотиками, педокриминальных преступлениях и мошенничестве.

Дуров допустил ошибку, что прилетел во Францию, так как он был уже в розыске. Ему нельзя было лететь.

Что теперь?

Следователи ONAF поместили его под стражу. Он должен быть представлен следственному судье в субботу вечером перед возможным предъявлением обвинений в воскресенье по множеству правонарушений: терроризм, наркотики, соучастие, мошенничество, отмывание денег, укрывательство, педокриминальный контент.

Для следователей этот арест имеет международный характер и различные цели:

1. позволяет нанести удар по экосистеме,

2. они хотят оказать давление на европейские страны, чтобы усилить совместную работу по принуждению Telegram к сотрудничеству с правоохранительными органами.
Дайджест статей

AI assistant monitors teamwork to promote effective collaboration
https://news.mit.edu/2024/ai-assistant-monitors-teamwork-promote-effective-collaboration-0819

Improvements to data analysis in ChatGPT
https://openai.com/index/improvements-to-data-analysis-in-chatgpt/

Personal Data Classification
https://medium.com/airbnb-engineering/personal-data-classification-2d816d8ea516

LLM-Powered DevOps Assistant Clio Launches to Help Engineers Manage Cloud Infrastructure
https://www.infoq.com/news/2024/08/ai-devops-clio/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

Architectural Patterns for Enterprise Generative AI Apps: DSFT, RAG, RAFT, and GraphRAG
https://dzone.com/articles/architectural-patterns-for-genai-dsft-rag-raft-graphrag

The Role of Data Governance in Data Strategy: Part 1
https://dzone.com/articles/the-role-of-data-governance-in-data-strategy-part

The Role of Data Governance in Data Strategy: Part II
https://dzone.com/articles/the-role-of-data-governance-in-data-strategy-part-1

The Role of Data Governance in Data Strategy: Part 3
https://dzone.com/articles/the-role-of-data-governance-in-data-strategy-part-3

Инфраструктура для data engineer Kafka
https://habr.com/ru/articles/836302/

Как мы перенесли архив данных из Teradata в GreenPlum с помощью Hadoop и PXF
https://habr.com/ru/companies/sberbank/articles/836942/

Poisoned Data — отравление данных для LLM и создание «Спящего Агента»
https://habr.com/ru/articles/833106/

Гайд по работе языковых моделей для начинающих
https://habr.com/ru/companies/skillfactory/articles/837366/

Как DWH и BI-аналитика может помочь устранить до 80% ошибок при планировании отгрузок на маркетплейсы
https://habr.com/ru/articles/837578/

Распределенные транзакции для самых маленьких
https://habr.com/ru/companies/maxilect/articles/837816/

Как мы переехали с Greenplum на Delta Table
https://habr.com/ru/articles/838112/

Build Efficient Recommender Systems with Co-Visitation Matrices and RAPIDS cuDF
https://developer.nvidia.com/blog/build-efficient-recommender-systems-with-co-visitation-matrices-and-rapids-cudf/
Дайджест статей

Жизнь после SAP: импортозамещение платформы данных
https://habr.com/ru/companies/arenadata/articles/839516/

Data Architecture : A Brief Overview
https://medium.com/towards-data-engineering/data-architecture-a-brief-overview-a93286f3e1f7

When a Data Mesh Doesn’t Make Sense for Your Organization
https://barrmoses.medium.com/when-a-data-mesh-doesnt-make-sense-for-your-organization-20de8f3f48bd

Is Data Observability Critical to Successful Data Analytics?
https://sanjmo.medium.com/is-data-observability-critical-to-successful-data-analytics-d09b983b95c6

Best Practices for Data Lakehouse Ingestion
https://atwong.medium.com/best-practices-for-data-lakehouse-ingestion-201d72cf7d14

Maximizing Enterprise Data: Unleashing the Productive Power of AI With the Right Approach
https://dzone.com/articles/maximizing-enterprise-data-unleashing-the-producti-1

The rise of the data platform for hybrid cloud
https://www.technologyreview.com/2024/08/19/1096575/the-rise-of-the-data-platform-for-hybrid-cloud/

Personal Data Classification
https://medium.com/airbnb-engineering/personal-data-classification-2d816d8ea516

Poisoned Data — отравление данных для LLM и создание «Спящего Агента»
https://habr.com/ru/articles/833106/
Коллеги, всем кто осваивает FineBI - GlowByte вместе с DataYoga и FanRuan запускают онлайн-ретрит по работе с BI-инструментом FineBI! 10 дней теории, практики и вдохновения от ведущих российских компаний. Узнайте о возможностях анализа и визуализации данных в FineBI, а также получите практические советы по оптимизации BI-практики от GlowByte.

Программа подходит для всех, кто работает с данными, от разработчиков до руководителей.

Что вас ждет:
🧘‍♂️ Инсайты от таких компаний как Tele2, Уралсиб, Циан и других
🧘‍♂️ Практические задачки от экспертов GlowByte
🧘‍♂️ Общение в чате и ежедневные встречи в эфире

Стартуем 16 сентября!

⚡️Регистрируйтесь по ссылке⚡️
Цены на токены для LLM падают и это влияет на разработку ИИ-приложений

Эндрю Нг написал пост в своем блоге о том, как инновации в сфере оборудования, а также выпуск моделей с открытыми весами, таких как Llama 3.1 влияют на цену токенов для LLM.

Вот, на что обращает внимание Эндрю:

- OpenAI снизила цены на GPT-4: с $36 за миллион токенов при запуске в марте 2023 до $4 сейчас. Это~ 79% снижение цены в год.

Причины снижения цен:
- Выпуск моделей с открытыми весами (например, Llama 3.1).
- Конкуренция между провайдерами API (Anyscale, Fireworks, Together AI и др.).
- Инновации в аппаратном обеспечении от компаний: Groq, Samba Nova, Cerebras и других.

Какие он делает прогнозы:
- Ожидается дальнейшее быстрое снижение цен на токены.
- Это сделает экономически выгодными даже те ИИ-приложения, которые сейчас кажутся слишком дорогими.

Рекомендации для ИИ-компаний:

1. Фокусироваться на создании полезных приложений, а не на оптимизации затрат на LLM.

2. Рассмотреть возможность развертывания приложений, ожидая снижения цен в будущем.

3. Периодически пересматривать выбор модели, чтобы воспользоваться снижением цен или улучшенными возможностями.

Проблемы и возможности:
- Переход между провайдерами открытых моделей может быть относительно простым.
- Сложность проведения оценок (evals) при переходе на новые модели остается проблемой, но ситуация улучшается.
Коллеги, анонс о мероприятии от компании CleverDATA, не пропустите!

Приглашаем на крутой экспертный вебинар «Тренды персонализации»

Готовим для вас интересную и насыщенную программу. На встрече поделимся глобальными трендами, кейсами мировых компаний и, конечно же, расскажем о том, что можно делать при помощи ИИ в персонализации коммуникации с клиентами.

Когда:
17 сентября, в 11:00
Формат: онлайн

О чем будем рассказывать?
🟢 Глобальные тренды: погрузимся в ключевые тенденции, которые формируют настоящее и будущее персонализации в маркетинге.
🟢 Как персонализацию реализуют компании: ВкусВилл, NIKE, Amazon
🟢 Чего на самом деле хотят клиенты?
🟢 Яндекс.Волна: принципы работы алгоритмов отечественного музыкального стриминга
🟢 Психотипирование: что это и как применять для построения коммуникации с клиентами.

Обсудим технические тренды:
🟢 Применение LLM в маркетинге;
🟢 Графовые подходы: как графовые базы данных меняют анализ данных и взаимодействие с клиентами;
🟢 nlearning: новые методы обучения искусственного интеллекта;
🟢 Feedback loop: Использование обратной связи для улучшения маркетинговых стратегий.

Кому будет полезна наша встреча:
🙋🏻‍♀️Маркетологам
🙋🏻‍♂️Директорам по маркетингу
🙋🏼Digital-маркетологам
🙋🏻‍♀️CRM-специалистам и всем тем, кто отвечает в компании за коммуникацию с клиентами.

Наши спикеры - профессионалы с потрясающим опытом:
Анна Овчинникова, бизнес-консультант CleverData
Владислав Балаев, руководитель практики анализа данных в ЛАНИТ

🔥 Участие бесплатное 🔥

Подробная программа и регистрация по ссылке: https://my.mts-link.ru/j/90594345/1210068854?utm_source=post-v-tg-kanale-cleverdata

Обязательно регистрируйтесь и не пропустите нашу полезную и ценную встречу!

В комментариях к посту вы можете писать вопросы, мы постараемся на них ответить☺️
Дайджест статей

Lowe’s fine-tunes OpenAI’s models to improve ecommerce data quality
https://openai.com/index/lowes/

Principles of Modern Data Infrastructure
https://dzone.com/articles/principles-of-modern-data-infrastructure

Хранение данных в Postgresql
https://habr.com/ru/articles/841674/?utm_source=habrahabr&utm_medium=rss&utm_campaign=841674

Как наука о данных трансформирует здравоохранение
https://habr.com/ru/companies/sberbank/articles/841116/

Open Standards for Data Lineage: OpenLineage for Batch and Streaming
https://dzone.com/articles/open-standards-for-data-lineage-openlineage-for-ba

How To Conduct Effective Data Security Audits for Big Data Systems
https://dzone.com/articles/effective-data-security-audits-for-big-data-systems

Big Data в моде: как мы внедрили 1-to-1 персонализацию в каталоге и поиске
https://habr.com/ru/companies/lamoda/articles/840370/

Платформа данных 101: зачем она нужна и как ее построить
https://habr.com/ru/companies/arenadata/articles/840598/

Агрегация данных для аналитики продаж с помощью DataSphere Jobs и Airflow SDK
https://habr.com/ru/companies/yandex_cloud_and_infra/articles/839494/

Наш путь миграции on-prem аналитики в облако
https://habr.com/ru/companies/magnit/articles/837752/

Один за всех или каждый занят своим делом? Разбираемся в устройстве команд корпоративных хранилищ данных
https://habr.com/ru/companies/clevertec/articles/840328/
Коллеги, еще одно интересное мероприятие на горизонте! Онлайн-митап «Синергия данных сайта и мобильного приложения: от сбора данных до формирования отчетности»

На мероприятии эксперты из DataGo! и АЭРО рассмотрят, с какими сложностями сталкиваются проекты при формировании web-to-app отчётности и предложим способы их решений на примере реализованных кейсов.

• Как настроить cross-device?
• Как реклама в web влияет на конверсию в мобильном приложении?
• Как перераспределить бюджет на более эффективный источник?

Эти и другие важные вопросы обсудим в четверг, 10 сентября в 16:30. Мероприятие бесплатное, регистрация тут: https://event.datago.ru/meetup_web_to_app?utm_medium=telegram&utm_content=cdoclub
“AI Won't Replace Humans — But Humans With AI Will Replace Humans Without AI.” Harvard Business Review, 4 August, 2023

Эта фраза, по мнению нашей редакции, максимально точно отражает текущие возможности технологий искусственного интеллекта и их место в нашей жизни и работе. Конечно, с тех пор как ChatGPT стал доступен как B2C-приложение, мы начали активно использовать эту модель (как и многие другие) в своей работе.

Казалось бы, это прорывная технология: простая в использовании и доступная широкому кругу потребителей, что должно способствовать её активному применению. Но давайте обратим внимание на статистику — на данный момент у ChatGPT 180 миллионов пользователей по всему миру. Если считать это от общего населения планеты, то получается, что лишь около 2-2,5% людей хотя бы раз воспользовались этим инструментом. Добавлять пользователей других моделей, на мой взгляд, не стоит, поскольку с высокой вероятностью они пересекаются с аудиторией ChatGPT.

Это хорошо иллюстрирует уровень инертности людей и подтверждает тезис о том, что любые прорывные инновации требуют длительного периода адаптации, что важно учитывать при планировании экономики ваших стартапов

https://explodingtopics.com/blog/chatgpt-users
Forwarded from EDU (Bayram Annakov)
Кто круче галлюцинирует?

Полезный ресерч для тех, кто строит RAG (retrieval augmented generation) системы: сравнили уровень галлюцинаций на малых, средних и длинных документах у 22 моделей:
1) sonnet 3.5 всех уделал по точности, меньше всего придумывал
2) gemini flash норм отработала на всех доках, и на порядок дешевле
3) из open source неожиданно круто себя показала qwen. Надо будет попробовать

P.S. Если вы строите RAG систему и хотите проконсультироваться - welcome
В следующий четверг, 19 сентября в 18:00, состоится офлайн-митап «Данные в ритейле: уход зарубежных игроков, новые решения и тренды», который проводит АЭРО совместно с Ростелеком и DIS Group.

На мероприятии обсудят вопросы импортозамещения ПО, будущее работы с данными в ритейле, а также какие инструменты и процессы стоит внедрять для data-трансформации бизнеса в ближайшее время.

Что ждет гостей:
⁃ Welcome drink 🥂
⁃ Доклады от экспертов из АЭРО, Ростелеком и DIS Group
⁃ Фуршет и живое общение

🚀 Подробности и регистрация: https://clck.ru/3DB95j

Обратите внимание, что вход только по подтвержденным приглашениям
А вот и новая модель от OpenAI подъехала, пока еще не ChatGPT-5, но хоть что то новое.

Модель предназначена для «рассуждения» и логических выводов - как предполагалось ранее, данная способность должна стать существенной частью ChatGPT-5.


https://openai.com/index/introducing-openai-o1-preview/
Поддержка канала и бота Igor 💸

Канал и бот Игорь (@IgorVA_bot) работают без какой либо монетизации и все анонсы, контент и тд размещаются в канале бесплатно, без какой либо рекламы.

Но API OpenAI и инфраструктура AWS не бесплатна, поэтому редакция рассчитывает на вашу поддержку и донаты :)
Дайджест статей

ЧГК-GPT, или насколько хорош новый ChatGPT o1-preview в спортивном «Что? Где? Когда?»
https://habr.com/ru/articles/843278/

Open-Source Data Management Practices and Patterns
https://dzone.com/refcardz/open-source-data-management-practices-and-patterns

Leveraging Big Data and Analytics to Enhance Patient-Centered Care
https://www.smartdatacollective.com/leveraging-big-data-and-analytics-to-enhance-patient-centered-care/

Accelerate Your Journey to a Modern Data Platform Using Coalesce
https://dzone.com/articles/accelerate-your-journey-to-a-modern-data-platform

Optimizing Data Management for AI Success: Industry Insights and Best Practices
https://dzone.com/articles/optimizing-data-management-for-ai-success

Проблему розничных сетей решают готовые наборы дашбордов: BI для малых и средних компаний
https://habr.com/ru/articles/842440/

Введение в Feature Engineering для начинающих дата-сайентистов и ML-инженеров
https://habr.com/ru/companies/skillfactory/articles/842444/

ИИ-агенты на основе больших языковых моделей для разработки: обзор
https://habr.com/ru/companies/bothub/articles/842816/

Использование API в FineBI
https://habr.com/ru/companies/glowbyte/articles/842842/

Data Storage Formats for Big Data Analytics: Performance and Cost Implications of Parquet, Avro, and ORC
https://dzone.com/articles/performance-and-cost-implications-parquet-avro-orc

Как искусственный интеллект может преобразить здравоохранение
https://habr.com/ru/companies/otus/articles/843058/

Кто такой и чем занимается дата-инженер
https://habr.com/ru/companies/yandex_praktikum/articles/841402/

Создание data lineage в Apache Atlas из логических планов Spark (не без «костылей»)
https://habr.com/ru/articles/842718/
Клуб CDO pinned «Поддержка канала и бота Igor 💸 Канал и бот Игорь (@IgorVA_bot) работают без какой либо монетизации и все анонсы, контент и тд размещаются в канале бесплатно, без какой либо рекламы. Но API OpenAI и инфраструктура AWS не бесплатна, поэтому редакция рассчитывает…»
Клуб CDO via @subscribeappbot
Поддержка канала и бота Igor 💸 Канал и бот Игорь (@IgorVA_bot) работают без какой либо монетизации и все анонсы, контент и тд размещаются в канале бесплатно, без какой либо рекламы. Но API OpenAI и инфраструктура AWS не бесплатна, поэтому редакция рассчитывает…
Хорошая новость, бот переведен на модель gpt-4o-mini-2024-07-18! Пробуйте 🙂 Можно попровать перевести на o1-preview, но с учетом того что ее стоимость довольно высокая, надо подумать о подписке на нее. Дайте знать, если это интересно и не забывайте поддеживать сервис 🙂 Спасибо!
не могу пройти мимо и не поделиться 🙂
The_Root_Causes_of_Failure_for_AI_Projects_1726222049.pdf
193.3 KB
Основные причины неудач ИИ-проектов - свежий отчет от RAND

Основные причины неудач ИИ-проектов в индустрии:

- Проблемы со стороны руководства: Например, непонимание реальных потребностей бизнеса или слишком частая смена приоритетов.

- Проблемы с данными: Недостаточное качество или количество данных для обучения моделей.
- Фокус на технологии вместо решения реальных проблем.
- Недостаточные инвестиции в инфраструктуру.
- Применение ИИ к слишком сложным задачам, не соответствующим текущему уровню технологий.

Вот некоторые примеры конкретные ошибок:

1. Оптимизация неправильной метрики:
"Бизнес-лидеры могут сказать, что им нужен ML-алгоритм, который скажет им, какую цену установить на продукт — но на самом деле им нужна цена, которая дает наибольшую прибыль, а не цена, которая продает больше всего товаров."

2. Применение ИИ к простым задачам:
Один из опрошенных рассказал, что его команде иногда поручали применять методы ИИ к наборам данных с несколькими доминирующими характеристиками, которые можно было бы быстро охватить несколькими простыми правилами if-then.

3. Проблемы с качеством данных:
"80% ИИ — это грязная работа по инженерии данных. Вам нужны хорошие люди, выполняющие грязную работу — иначе их ошибки отравляют алгоритмы."

Остальные примеры в отчете.

4. Рекомендации для индустрии:

- Обеспечить понимание техническими специалистами целей проекта и бизнес-контекста.
- Выбирать долгосрочные проблемы для решения (минимум на год).
- Фокусироваться на решении проблем, а не на технологиях.
- Инвестировать в инфраструктуру.
- Понимать ограничения ИИ.

5. Особенности академической среды:

- Давление публиковать результаты может приводить к выбору менее рискованных, но менее значимых проектов.
- Проблемы с доступом к качественным наборам данных.

6. Рекомендации для академической среды:

- Развивать партнерства с государственными органами для доступа к данным.
- Расширять программы докторантуры по науке о данных для практиков.
2025/07/05 20:15:12
Back to Top
HTML Embed Code: