Дайджест статей
Modern Data Engineering in the LLM Era
https://medium.com/art-of-data-engineering/modern-data-engineering-in-the-llm-era-628489c87378
Mastering Data Ingestion: Essential Strategies for Data Engineers
https://blog.det.life/mastering-data-ingestion-essential-strategies-for-data-engineers-aa63283eed83
Современная Lakehouse-платформа данных Data Ocean Nova
https://habr.com/ru/articles/847770/
AI E-com Ассистент
https://habr.com/ru/articles/847478/
Контроль качества разметки на проекте: 4 секрета успеха
https://habr.com/ru/companies/data_light/articles/848234/
Mastering Architecture Diagrams and Technical Presentations: A Data Architect’s Guide
https://medium.com/art-of-data-engineering/mastering-architecture-diagrams-and-technical-presentations-a-data-architects-guide-eb410b49bc19
Top 10 Apache Airflow Best Practices for Data Engineers
https://medium.com/@Nelsonalfonso/top-10-apache-airflow-best-practices-for-data-engineers-f72de2b6175d
Modern Data Engineering in the LLM Era
https://medium.com/art-of-data-engineering/modern-data-engineering-in-the-llm-era-628489c87378
Mastering Data Ingestion: Essential Strategies for Data Engineers
https://blog.det.life/mastering-data-ingestion-essential-strategies-for-data-engineers-aa63283eed83
Современная Lakehouse-платформа данных Data Ocean Nova
https://habr.com/ru/articles/847770/
AI E-com Ассистент
https://habr.com/ru/articles/847478/
Контроль качества разметки на проекте: 4 секрета успеха
https://habr.com/ru/companies/data_light/articles/848234/
Mastering Architecture Diagrams and Technical Presentations: A Data Architect’s Guide
https://medium.com/art-of-data-engineering/mastering-architecture-diagrams-and-technical-presentations-a-data-architects-guide-eb410b49bc19
Top 10 Apache Airflow Best Practices for Data Engineers
https://medium.com/@Nelsonalfonso/top-10-apache-airflow-best-practices-for-data-engineers-f72de2b6175d
Medium
Modern Data Engineering in the LLM Era
How Large Language Models are Shaping the Future of Data Engineering
Ну что ж, нельзя обойти стороной такое событие, как присуждение Нобелевской премии по физике “отцам” искусственного интеллекта. Ниже ссылка на официальный пресс-релиз.
Меня, конечно, удивило, что премия именно по физике. Как указано в пресс-релизе:
“Два нобелевских лауреата по физике этого года использовали инструменты физики для разработки методов, лежащих в основе современного мощного машинного обучения. Джон Хопфилд создал ассоциативную память, способную хранить и восстанавливать изображения и другие типы паттернов данных. Джеффри Хинтон изобрел метод, который может автономно находить свойства данных и выполнять задачи, такие как идентификация элементов на фотографиях.”
Интересно, что премию присудили не за развитие самой физики или достижения в её области, а за “использование методов физики” фактически в других дисциплинах.
С другой стороны, математикам исторически не дают Нобелевскую премию, а Computer Science как дисциплины в этой организации вроде нет. Но пройти мимо ИИ нельзя, так что, возможно, физика — хороший компромисс?
https://www.nobelprize.org/prizes/physics/2024/press-release/
Меня, конечно, удивило, что премия именно по физике. Как указано в пресс-релизе:
“Два нобелевских лауреата по физике этого года использовали инструменты физики для разработки методов, лежащих в основе современного мощного машинного обучения. Джон Хопфилд создал ассоциативную память, способную хранить и восстанавливать изображения и другие типы паттернов данных. Джеффри Хинтон изобрел метод, который может автономно находить свойства данных и выполнять задачи, такие как идентификация элементов на фотографиях.”
Интересно, что премию присудили не за развитие самой физики или достижения в её области, а за “использование методов физики” фактически в других дисциплинах.
С другой стороны, математикам исторически не дают Нобелевскую премию, а Computer Science как дисциплины в этой организации вроде нет. Но пройти мимо ИИ нельзя, так что, возможно, физика — хороший компромисс?
https://www.nobelprize.org/prizes/physics/2024/press-release/
When Nanoseconds Matter
Редакция ознакомилась с интересным докладом и хотела бы поделиться некоторыми заметками и соображениями. В первую очередь стоит отметить, что разработка эффективных приложений уже не сводится только к C++ и каким-то секретным флагам компиляции и сборки. Это скорее про принципы разработки ПО, которые полезны и применимы не только в C++ разработке, но и в любых других задачах и дисциплинах, включая работу с данными, разработку систем управления данными и алгоритмов их обработки.
Я для себя выделил несколько “общих принципов”:
• Оптимизация — это искусство избавления от всего лишнего: лишних инструкций, шагов, обработчиков и т. д.
• Нужно отлично понимать свои данные: их порядок, структуру, профили обработки. Важно точно понимать, с чем вы работаете, чтобы разработать оптимальный алгоритм обработки. Всё необходимо измерять и оценивать.
• Чем более узкоспециализированный алгоритм вы пишете, тем быстрее он будет работать для вашей задачи.
• Важно понимать среду, в которой вы работаете, и что может вас замедлять: операционная система, диски, внешние зависимости и т. д. Ничто не работает в вакууме, всё требует комплексной оптимизации.
• Измерения и профилирование — нельзя оптимизировать то, что не измерено.
• Разделите задачу на две части: медленный warm-up период, в который вы подготавливаете всё необходимое (заполняете память, читаете данные, наполняете кэш и т. д.), и быстрый цикл основной работы. Хорошая подготовка — залог успеха.
• Используйте инструменты, максимально подходящие для вашей задачи.
• Чем проще решение — тем быстрее оно работает.
• Постоянно исследуйте вашу систему, измеряйте, находите узкие места и устраняйте их. Устранив одно узкое место, оно может переместиться в другое, и система продолжит требовать оптимизации.
Видео: https://www.youtube.com/watch?v=sX2nF1fW7kI
Вот тут опубликованы слайды: https://github.com/CppCon/CppCon2024/blob/main/Presentations/When_Nanoseconds_Matter.pdf
И вот эту книгу могу порекомендовать в дополнение к материалу: https://www.amazon.co.uk/gp/product/B0CW1JS83N/ref=ppx_yo_dt_b_d_asin_title_351_o08?ie=UTF8&psc=1
Редакция ознакомилась с интересным докладом и хотела бы поделиться некоторыми заметками и соображениями. В первую очередь стоит отметить, что разработка эффективных приложений уже не сводится только к C++ и каким-то секретным флагам компиляции и сборки. Это скорее про принципы разработки ПО, которые полезны и применимы не только в C++ разработке, но и в любых других задачах и дисциплинах, включая работу с данными, разработку систем управления данными и алгоритмов их обработки.
Я для себя выделил несколько “общих принципов”:
• Оптимизация — это искусство избавления от всего лишнего: лишних инструкций, шагов, обработчиков и т. д.
• Нужно отлично понимать свои данные: их порядок, структуру, профили обработки. Важно точно понимать, с чем вы работаете, чтобы разработать оптимальный алгоритм обработки. Всё необходимо измерять и оценивать.
• Чем более узкоспециализированный алгоритм вы пишете, тем быстрее он будет работать для вашей задачи.
• Важно понимать среду, в которой вы работаете, и что может вас замедлять: операционная система, диски, внешние зависимости и т. д. Ничто не работает в вакууме, всё требует комплексной оптимизации.
• Измерения и профилирование — нельзя оптимизировать то, что не измерено.
• Разделите задачу на две части: медленный warm-up период, в который вы подготавливаете всё необходимое (заполняете память, читаете данные, наполняете кэш и т. д.), и быстрый цикл основной работы. Хорошая подготовка — залог успеха.
• Используйте инструменты, максимально подходящие для вашей задачи.
• Чем проще решение — тем быстрее оно работает.
• Постоянно исследуйте вашу систему, измеряйте, находите узкие места и устраняйте их. Устранив одно узкое место, оно может переместиться в другое, и система продолжит требовать оптимизации.
Видео: https://www.youtube.com/watch?v=sX2nF1fW7kI
Вот тут опубликованы слайды: https://github.com/CppCon/CppCon2024/blob/main/Presentations/When_Nanoseconds_Matter.pdf
И вот эту книгу могу порекомендовать в дополнение к материалу: https://www.amazon.co.uk/gp/product/B0CW1JS83N/ref=ppx_yo_dt_b_d_asin_title_351_o08?ie=UTF8&psc=1
YouTube
When Nanoseconds Matter: Ultrafast Trading Systems in C++ - David Gross - CppCon 2024
https://cppcon.org
CppCon 2024 Early Access: https://cppcon.org/early-access
Access All 2024 Session Videos Ahead of Their Official Release To YouTube. At least 30 days exclusive access through the Early Access system. Videos will be released to the CppCon…
CppCon 2024 Early Access: https://cppcon.org/early-access
Access All 2024 Session Videos Ahead of Their Official Release To YouTube. At least 30 days exclusive access through the Early Access system. Videos will be released to the CppCon…
Коллеги, 24 октября в Loft Hall пройдет, DaTalks 2024 | Data Reality Show. Организатором выступает компания Navicon, а главным партнером - Arenadata.
Это событие каждый год собирает солидное data community для детального обсуждения практических вопросов и кейсов, связанных с data-ландшафтом и перспективами, которые ожидают CDO и CIO в ближайшем будущем. Подтвержденные спикеры - СБЕР, HOFF, X5, Т-Банк, Dostavista, Unilever и другие.
В этом году среди основных тем заявлены:
• best practice формирования data-ландшафта «с запасом»
• будущее Data
• современные платформы и модели данных
• обзор и функциональное сравнение актуальных для российского рынка BI-систем.
• промежуточные итоги и перспективы импортозамещения
Важное отличие этого года - трансляция онлайн вестись не будет. А поскольку площадка имеет ограниченную вместимость, всем заинтересованным стоит зарегистрироваться заранее.
По ссылке можно ознакомиться с программой, спикерами и основной концепцией форума.
Не забудьте потом поделиться впечатлениями!
https://datalks2024.ru/?utm_source=TG&utm_medium=cdoclub&utm_campaign=24_10_24_DaTalks
Это событие каждый год собирает солидное data community для детального обсуждения практических вопросов и кейсов, связанных с data-ландшафтом и перспективами, которые ожидают CDO и CIO в ближайшем будущем. Подтвержденные спикеры - СБЕР, HOFF, X5, Т-Банк, Dostavista, Unilever и другие.
В этом году среди основных тем заявлены:
• best practice формирования data-ландшафта «с запасом»
• будущее Data
• современные платформы и модели данных
• обзор и функциональное сравнение актуальных для российского рынка BI-систем.
• промежуточные итоги и перспективы импортозамещения
Важное отличие этого года - трансляция онлайн вестись не будет. А поскольку площадка имеет ограниченную вместимость, всем заинтересованным стоит зарегистрироваться заранее.
По ссылке можно ознакомиться с программой, спикерами и основной концепцией форума.
Не забудьте потом поделиться впечатлениями!
https://datalks2024.ru/?utm_source=TG&utm_medium=cdoclub&utm_campaign=24_10_24_DaTalks
datalks2024.ru
DaTalks 2024 – Data Reality Show
Сегодня небольшая историческая страничка. Несколько экспонатов из коллекции Британской библиотеки: оригинальные заметки Чарльза Бэббиджа, черновик статьи самого Алана Тьюринга, которая впоследствии стала знаменитой статьей “Игра в имитацию”, и письмо Алана Тьюринга с его собственноручной подписью.
Дайджест статей
Производительность СУБД — расчет метрики, временной анализ, параметрическая оптимизация
https://habr.com/ru/articles/850106/
Предварительная обработка данных в машинном обучении: инструкция, инструменты, полезные ресурсы для начинающих
https://habr.com/ru/companies/skillfactory/articles/848858/
ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum
https://habr.com/ru/articles/849062/
Предиктивная аналитика в промышленности: путь к повышению эффективности и снижению затрат
https://habr.com/ru/articles/849364/
BI для оценки полезности BI: огранка логов по методу АЛРОСА
https://habr.com/ru/companies/visiology/articles/849728/
Дата-Сторителлинг: для Бизнеса и СМИ
https://habr.com/ru/articles/848556/
История о том, как мы быстрое хранилище в 2022 году строили
https://habr.com/ru/companies/cloud4y/articles/848720/
Производительность СУБД — расчет метрики, временной анализ, параметрическая оптимизация
https://habr.com/ru/articles/850106/
Предварительная обработка данных в машинном обучении: инструкция, инструменты, полезные ресурсы для начинающих
https://habr.com/ru/companies/skillfactory/articles/848858/
ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum
https://habr.com/ru/articles/849062/
Предиктивная аналитика в промышленности: путь к повышению эффективности и снижению затрат
https://habr.com/ru/articles/849364/
BI для оценки полезности BI: огранка логов по методу АЛРОСА
https://habr.com/ru/companies/visiology/articles/849728/
Дата-Сторителлинг: для Бизнеса и СМИ
https://habr.com/ru/articles/848556/
История о том, как мы быстрое хранилище в 2022 году строили
https://habr.com/ru/companies/cloud4y/articles/848720/
Хабр
Производительность СУБД — расчет метрики, временной анализ, параметрическая оптимизация
Историческое предисловие Как известно, основная задача DBA - обеспечить наиболее эффективную и производительную работу вверенной ему в сопровождение СУБД. Для выполнения задачи одно из основных...
Интересный доклад про организацию облака ClickHouse с довольно подробными деталями дизайна, а так же подробностями истории развития ClickHouse от закрытого решения до OpenSource и SaaS решения.
https://www.infoq.com/presentations/open-source-saas/
https://www.infoq.com/presentations/open-source-saas/
InfoQ
From Open Source to SaaS: the Journey of ClickHouse
Sichen Zhao and Shane Andrade discuss architectural design decisions and some of the pitfalls one may run into along the way.
Посмотрите на эту красоту :)
Инженерам компании Илона Маска SpaceX впервые удалось «поймать» разгонную ступень ракеты-носителя «Старшип» Super Heavy, после разгонной фазы полета отсоединившуюся от корабля и опустившуюся на космодром. Такой подход, так же как способность ракеты выводить на орбиту сотни тонн груза, радикально снизит стоимость космических полетов.
https://www.youtube.com/watch?v=NpjLfUoiT_w
Инженерам компании Илона Маска SpaceX впервые удалось «поймать» разгонную ступень ракеты-носителя «Старшип» Super Heavy, после разгонной фазы полета отсоединившуюся от корабля и опустившуюся на космодром. Такой подход, так же как способность ракеты выводить на орбиту сотни тонн груза, радикально снизит стоимость космических полетов.
https://www.youtube.com/watch?v=NpjLfUoiT_w
YouTube
WOW! Watch SpaceX Catch A Starship Booster In Air
WOW! Watch SpaceX Catch A Starship Booster In Air
#SpaceX #Starship #StarshipFlight5
Get your LIMITED EDITION Starship Flight 5 Gear, Posters, & Metal Prints Today!
https://thelaunchpad.store
Pad : OLP-1
Location : Starbase, Texas, USA
Rocket : Starship…
#SpaceX #Starship #StarshipFlight5
Get your LIMITED EDITION Starship Flight 5 Gear, Posters, & Metal Prints Today!
https://thelaunchpad.store
Pad : OLP-1
Location : Starbase, Texas, USA
Rocket : Starship…
Коллеги, 7 и 8 ноября в Москве состоится большая конференция Матемаркетинг’24, посвященная маркетинговой и продуктовой аналитике
В этом году мероприятие пройдет уже в шестой раз и соберет на одной площадке более 2000 гостей — специалистов из сфер электронной коммерции, ритейла, телекоммуникаций, банкинга, онлайн-образования и многих других.
Программа обещает быть насыщенной: более 120 докладов, панельных дискуссий и экспертных сессий. Профессионалы рынка обсудят управление рекламными каналами и маркетинговыми воронками, запуск сложных продуктов, ML-моделирование и ряд других вопросов.
Вот основные темы этого года:
- Аналитическая инфраструктура в условиях импортозамещения;
- Корпоративные платформы для экспериментов;
- Управление рекламными каналами и оценка инкрементальных показателей;
- Персонализация и оптимизация цифрового клиентского опыта;
- Ускорение роста бизнеса через платный маркетинг.
Бонус для обладателей билетов — 6 месяцев доступа к закрытой платформе конференции. На ней собраны материалы более чем из 400 докладов прошлых лет с удобным поиском и категоризацией. Это позволит заранее подготовиться и задать экспертам наиболее интересные вопросы.
Программа и билеты уже доступны на сайте, а специально для наших подписчиков по промокоду CDOCLUB10 будет скидка 10% на все виды билетов.
https://matemarketing.ru/?utm_source=cdoclub&utm_medium=announce&utm_campaign=tlgmm2024
В этом году мероприятие пройдет уже в шестой раз и соберет на одной площадке более 2000 гостей — специалистов из сфер электронной коммерции, ритейла, телекоммуникаций, банкинга, онлайн-образования и многих других.
Программа обещает быть насыщенной: более 120 докладов, панельных дискуссий и экспертных сессий. Профессионалы рынка обсудят управление рекламными каналами и маркетинговыми воронками, запуск сложных продуктов, ML-моделирование и ряд других вопросов.
Вот основные темы этого года:
- Аналитическая инфраструктура в условиях импортозамещения;
- Корпоративные платформы для экспериментов;
- Управление рекламными каналами и оценка инкрементальных показателей;
- Персонализация и оптимизация цифрового клиентского опыта;
- Ускорение роста бизнеса через платный маркетинг.
Бонус для обладателей билетов — 6 месяцев доступа к закрытой платформе конференции. На ней собраны материалы более чем из 400 докладов прошлых лет с удобным поиском и категоризацией. Это позволит заранее подготовиться и задать экспертам наиболее интересные вопросы.
Программа и билеты уже доступны на сайте, а специально для наших подписчиков по промокоду CDOCLUB10 будет скидка 10% на все виды билетов.
https://matemarketing.ru/?utm_source=cdoclub&utm_medium=announce&utm_campaign=tlgmm2024
matemarketing.ru
Mатемаркетинг-2024
Большая конференция по маркетинговой и продуктовой аналитике
Попалась на глаза статья про то дата-брокеров. Хотя как то тема сбора и обмена данными ушла на второй план под натиском успехов AI, компании, которые работали в этой области продолжают работать как и раньше, а несмотря на всякие GDPR и прочие попытки регулировать сбор и использование цифровой информации о пользователях, уровень осведомленности самих пользователей о том, что происходит и может происходить с их данными - только падает.
Эксперты в области кибербезопасности оценивают, что брокеры данных собирают в среднем 1 000 параметров на каждого человека с присутствием в интернете.
«Их интерес состоит в том, чтобы собрать как можно больше информации о вас, потому что чем больше данных и чем они точнее, тем выше стоимость этих данных», — сказал Крис Хендерсон, старший директор по операциям с угрозами в компании Huntress, основанной бывшими сотрудниками Агентства национальной безопасности США.
Вот краткий обзор типов информации, которую брокеры данных обычно собирают, согласно мнению экспертов по конфиденциальности, опрошенных CNBC:
• Основные идентификаторы: Полное имя, адрес, номер телефона и электронная почта.
• Финансовые данные: Кредитные рейтинги и история платежей.
• История покупок: Что вы ищете в интернете, что и где покупаете, а также как часто приобретаете определенные товары.
• Медицинские данные: Ваши лекарства, медицинские состояния и взаимодействия с приложениями или сайтами, связанными со здоровьем.
• Поведенческие данные: Информация о ваших предпочтениях, интересах и типах рекламы, на которую вы, вероятно, кликнете.
• Данные о местоположении в реальном времени: GPS-данные из приложений, которые отслеживают ваш маршрут, места покупок и частоту посещений определенных локаций.
• Интерпретированные характеристики: На основе вашей интернет-активности и потребляемого контента — посещаемых сайтов, читаемых статей и просмотренных видео — брокеры данных делают выводы о вашем образе жизни, доходе, предпочтениях, религиозных или политических взглядах, увлечениях и даже вероятности того, что вы будете заниматься благотворительностью.
• Отношения с семьей, друзьями и коллегами: Анализируя вашу сеть друзей, подписчиков и контактов в соцсетях и мессенджерах, брокеры данных могут составить карту ваших связей и даже отслеживать, как часто вы взаимодействуете с определенными людьми, чтобы определить глубину ваших отношений.
Кто эти "брокеры"? В статье приходится список из the most of the major data brokers:
Experian
TransUnion
LexisNexis
Epsilon
БЕрегите свои данные :)
https://www.cnbc.com/2024/10/11/internet-data-brokers-online-privacy-personal-information.html
Эксперты в области кибербезопасности оценивают, что брокеры данных собирают в среднем 1 000 параметров на каждого человека с присутствием в интернете.
«Их интерес состоит в том, чтобы собрать как можно больше информации о вас, потому что чем больше данных и чем они точнее, тем выше стоимость этих данных», — сказал Крис Хендерсон, старший директор по операциям с угрозами в компании Huntress, основанной бывшими сотрудниками Агентства национальной безопасности США.
Вот краткий обзор типов информации, которую брокеры данных обычно собирают, согласно мнению экспертов по конфиденциальности, опрошенных CNBC:
• Основные идентификаторы: Полное имя, адрес, номер телефона и электронная почта.
• Финансовые данные: Кредитные рейтинги и история платежей.
• История покупок: Что вы ищете в интернете, что и где покупаете, а также как часто приобретаете определенные товары.
• Медицинские данные: Ваши лекарства, медицинские состояния и взаимодействия с приложениями или сайтами, связанными со здоровьем.
• Поведенческие данные: Информация о ваших предпочтениях, интересах и типах рекламы, на которую вы, вероятно, кликнете.
• Данные о местоположении в реальном времени: GPS-данные из приложений, которые отслеживают ваш маршрут, места покупок и частоту посещений определенных локаций.
• Интерпретированные характеристики: На основе вашей интернет-активности и потребляемого контента — посещаемых сайтов, читаемых статей и просмотренных видео — брокеры данных делают выводы о вашем образе жизни, доходе, предпочтениях, религиозных или политических взглядах, увлечениях и даже вероятности того, что вы будете заниматься благотворительностью.
• Отношения с семьей, друзьями и коллегами: Анализируя вашу сеть друзей, подписчиков и контактов в соцсетях и мессенджерах, брокеры данных могут составить карту ваших связей и даже отслеживать, как часто вы взаимодействуете с определенными людьми, чтобы определить глубину ваших отношений.
Кто эти "брокеры"? В статье приходится список из the most of the major data brokers:
Experian
TransUnion
LexisNexis
Epsilon
БЕрегите свои данные :)
https://www.cnbc.com/2024/10/11/internet-data-brokers-online-privacy-personal-information.html
CNBC
What internet data brokers have on you — and how you can start to get it back
Every click, purchase, and "like" you make online is harvested, packaged, and sold for profit, making personal data a valuable commodity for data brokers.
Forwarded from Бэкап
🤖 Применение федеративного машинного обучения для задач медицины
Яндекс вместе с Институтом системного программирования имени В. П. Иванникова РАН и Сеченовским Университетом первыми в России на практике применили федеративное машинное обучение для задач медицины.
Федеративное обучение – это подход, при котором организации-участники могут обучить нейросеть на нескольких независимых наборах данных и при этом не передавать их за пределы своей организации.
Метод федеративного машинного обучения в десятки раз ускоряет разработку технологий в проектах с большим количеством участников и создает максимально безопасную среду для работы с данными. Качество нейросети при этом повышается за счет доступа к ограниченным данным.
Эксперимент Yandex Cloud заключался в том, чтобы продемонстрировать, что метод работает на практике и подходит для проектов в медицине – задачей модели было распознавание патологий сердца на основе данных ЭКГ. В результате проекта удалось создать нейросеть, которая в 99% случаев верно определила патологию и в 95% не давала ложно-положительных оценок.
Разработка будет полезна в любых сферах, где приходится иметь дело с чувствительной информацией.
Яндекс вместе с Институтом системного программирования имени В. П. Иванникова РАН и Сеченовским Университетом первыми в России на практике применили федеративное машинное обучение для задач медицины.
Федеративное обучение – это подход, при котором организации-участники могут обучить нейросеть на нескольких независимых наборах данных и при этом не передавать их за пределы своей организации.
Метод федеративного машинного обучения в десятки раз ускоряет разработку технологий в проектах с большим количеством участников и создает максимально безопасную среду для работы с данными. Качество нейросети при этом повышается за счет доступа к ограниченным данным.
Эксперимент Yandex Cloud заключался в том, чтобы продемонстрировать, что метод работает на практике и подходит для проектов в медицине – задачей модели было распознавание патологий сердца на основе данных ЭКГ. В результате проекта удалось создать нейросеть, которая в 99% случаев верно определила патологию и в 95% не давала ложно-положительных оценок.
Разработка будет полезна в любых сферах, где приходится иметь дело с чувствительной информацией.
Коллеги, всем привет! Нашей редакции любезно подсказали, что опубликованы материалы конференции DataTalks 5.0 - конференция про работу с данными, которая прошла в сентябре. Спешим поделиться ссылкой со всеми!
https://datatalks.rt.ru/events/datatalks-5-0
https://datatalks.rt.ru/events/datatalks-5-0
T2 - Обмен данными по другим правилам
Ну и особенно надо отметить в докладах выше доклад коллег из Т2 и Ростелекома про их опыт построения платформы отмена данными. Ту, на самом деле, речь идет об обмене данными внутри холдинга - то есть это не какой-то коммерческий обмен, а больше, наверное, такой федеративный Data Mesh - с data-каталогом, проработанным governance и технологической частью интеграции.
https://rutube.ru/video/346c73dfeb22e2098ad48f73305dad9c/
Ну и особенно надо отметить в докладах выше доклад коллег из Т2 и Ростелекома про их опыт построения платформы отмена данными. Ту, на самом деле, речь идет об обмене данными внутри холдинга - то есть это не какой-то коммерческий обмен, а больше, наверное, такой федеративный Data Mesh - с data-каталогом, проработанным governance и технологической частью интеграции.
https://rutube.ru/video/346c73dfeb22e2098ad48f73305dad9c/
RUTUBE
Обмен данными по другим правилам
- Data Sharing Platform и предпосылки ее создания.
- Платформа, которая обеспечивает все процессы по обмену данными с компаниями группы РТК.
- Концепция и архитектура Data Sharing Platform.
- Как инструменты Data Governance обеспечивают доступность данных…
- Платформа, которая обеспечивает все процессы по обмену данными с компаниями группы РТК.
- Концепция и архитектура Data Sharing Platform.
- Как инструменты Data Governance обеспечивают доступность данных…
Perplexity идет в Enterprise и добавляет новую функцию в свой продукт - поиск по внутренних корпоративным документам и базам знаний.
Наверное эту новость надо еще сопроводить комментарием, что деньги в GenAI по большей части находятся в Enterprise сегменте, что подтверждается всеми основными игроками рынка. В Perplexity м до этого времени такого активного движения не замечали, но может быть то просто было не так на поверхности, но вот сейчас они объявили что запускают 2 тарифа - Perplexity Pro and Enterprise Pro для того, что бы объединить поиск в интернете с поиском по собственным файлам.
Продукт Perplexity Spaces является центром совместной работы команд на базе искусственного интеллекта, где можно создать своего “командного” ИИ помощника и можно глубоко настроить его под конкретный случай использования и загрузить внутренние файлы. Spaces предоставляет полный контроль над тем, кто может получить доступ к данным, обеспечивая безопасность и конфиденциальность.
Для пользователей Enterprise Pro все файлы и поисковые запросы по умолчанию исключены из процесса обучения LLM. Пользователи Pro также могут отказаться от обучения LLM в настройках.
Данные загружаются в облако, но с точки зрения защиты и конфиденциальности заявляется целый набор механизмов:
⁃ Data Retention - Your queries stay private. Your files are deleted after 7 days.
⁃ SOC2 Certification - Our security policies and controls continuously meet the highest industry standards so that you can run your business with peace of mind.
⁃ Enhanced Security - manage threats and prevent data loss with real-time notifications of suspicious behavior or risky activities
Так же есть на сайте и описание on-prem тарифа: Self-Serve - Companies with fewer than 250 employees can access Enterprise Pro through a self-serve flow.
В будущем обещают добавлять 3rd party источники данных какие как Crunchbase и другие базы знаний.
https://www.perplexity.ai/hub/blog/introducing-internal-knowledge-search-and-spaces
Наверное эту новость надо еще сопроводить комментарием, что деньги в GenAI по большей части находятся в Enterprise сегменте, что подтверждается всеми основными игроками рынка. В Perplexity м до этого времени такого активного движения не замечали, но может быть то просто было не так на поверхности, но вот сейчас они объявили что запускают 2 тарифа - Perplexity Pro and Enterprise Pro для того, что бы объединить поиск в интернете с поиском по собственным файлам.
Продукт Perplexity Spaces является центром совместной работы команд на базе искусственного интеллекта, где можно создать своего “командного” ИИ помощника и можно глубоко настроить его под конкретный случай использования и загрузить внутренние файлы. Spaces предоставляет полный контроль над тем, кто может получить доступ к данным, обеспечивая безопасность и конфиденциальность.
Для пользователей Enterprise Pro все файлы и поисковые запросы по умолчанию исключены из процесса обучения LLM. Пользователи Pro также могут отказаться от обучения LLM в настройках.
Данные загружаются в облако, но с точки зрения защиты и конфиденциальности заявляется целый набор механизмов:
⁃ Data Retention - Your queries stay private. Your files are deleted after 7 days.
⁃ SOC2 Certification - Our security policies and controls continuously meet the highest industry standards so that you can run your business with peace of mind.
⁃ Enhanced Security - manage threats and prevent data loss with real-time notifications of suspicious behavior or risky activities
Так же есть на сайте и описание on-prem тарифа: Self-Serve - Companies with fewer than 250 employees can access Enterprise Pro through a self-serve flow.
В будущем обещают добавлять 3rd party источники данных какие как Crunchbase и другие базы знаний.
https://www.perplexity.ai/hub/blog/introducing-internal-knowledge-search-and-spaces
www.perplexity.ai
Introducing Internal Knowledge Search and Spaces
Enhanced file analysis and collaboration features on Perplexity
Дайджест статей
Как Лента формирует эффективный ассортимент на основе данных
https://habr.com/ru/companies/lentatech/articles/851086/
Технология проектирования хранилищ данных Data Vault 2.0
https://habr.com/ru/articles/850280/
Инфраструктура для Data-Engineer Data Lake Apache Iceberg
https://habr.com/ru/articles/850674/
Как спрогнозировать вероятность увольнения сотрудника и получить ещё миллион инсайтов из одного графика
https://habr.com/ru/companies/yandex_praktikum/articles/850730/
Как обойти подводные камни FineBI для грамотной визуализации данных
https://habr.com/ru/articles/851710/
Плюсы и минусы различных DWH как источников данных для BI
https://habr.com/ru/companies/modusbi/articles/851718/
Как Лента формирует эффективный ассортимент на основе данных
https://habr.com/ru/companies/lentatech/articles/851086/
Технология проектирования хранилищ данных Data Vault 2.0
https://habr.com/ru/articles/850280/
Инфраструктура для Data-Engineer Data Lake Apache Iceberg
https://habr.com/ru/articles/850674/
Как спрогнозировать вероятность увольнения сотрудника и получить ещё миллион инсайтов из одного графика
https://habr.com/ru/companies/yandex_praktikum/articles/850730/
Как обойти подводные камни FineBI для грамотной визуализации данных
https://habr.com/ru/articles/851710/
Плюсы и минусы различных DWH как источников данных для BI
https://habr.com/ru/companies/modusbi/articles/851718/
Хабр
Как Лента формирует эффективный ассортимент на основе данных
Привет, Habr! Меня зовут Катя, я продакт-менеджер BigData в Lenta Tech, отвечаю за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование». В этой статье расскажу про путь к управлению...
Forwarded from Innovation & Research
Please open Telegram to view this post
VIEW IN TELEGRAM