Сегодня очередь нашей регулярной рубрики «Шпаргалка CDO». Кто такой директор по данным (CDO)? Термин набирает популярность, но до сих пор не устоялся в отрасли. Но всё больше компаний приходят к осознанию необходимости такого человека и процессов, связанных с данными.
https://blogs.oracle.com/russia/cdo-data-cfo
https://blogs.oracle.com/russia/cdo-data-cfo
Весьма экзотический взгляд на роль CDО - на сей раз в области здравоохранения: https://www.healthcatalyst.com/8-ways-chief-data-officers-can-help-healthcare-thrive
Взгяд на CDO через совсем иную призму: https://www.cio.com/article/3234884/what-is-a-chief-data-officer.html
CIO
What is a chief data officer? A leader who creates business value from data
A chief data officer (CDO) oversees a range of data-related functions to ensure your organization is getting the most from what could be its most valuable asset.
В 2021-м 25% всех компаний в мире будут использовать только облачные сервисы: https://www.it-world.ru/it-news/analytics/154371.html
ИТ Медиа | Рынок
В следующем году четверть всех компаний будут использовать исключительно облачные сервисы
Компания O'Reilly Media провела опрос и выяснила, что 25% компаний в следующем году планируют перевести в облака абсолютно все приложения и данные (региональный аспект опроса не уточнялся). И еще 67% перенесут к следующему году в облака более 50% своих данных…
Сегодня очередь нашей регулярной рубрики «Шпаргалка CDO». Храните и передаете данные в очередях через JSON? Тогда у нас для вас хорошая новость - вы можете сократь объем хранимых данных и скорость из обработка в несколько раз. Как? Используйте бинарные протоколы описания данных - Protobuf от Google (https://developers.google.com/protocol-buffers), Apache Avro (https://avro.apache.org/), Apache Thrift. Выбирайте тот, которые больше всего вам подходит. Родная поддержка Avro в Apache Pulsar и Apache Kafka может стать один из аргументов в пользу именно этого формата. Важнее всего быстродействие и степень сжатия - тогда берите protobuf. А если надо описывать взаимодействия между сервисами - ваш выбор Apache Thrift (http://thrift.apache.org/).
Google Developers
Protocol Buffers | Google Developers
Protocol buffers are a language-neutral, platform-neutral extensible mechanism for serializing structured data.
Директор по работе с данными X5 Retail Group подробно рассказывает о Data Governance: https://www.osp.ru/articles/2020/0624/13055521
Издательство «Открытые системы»
X5: путь в Data Governance
Тигран Саркисов, директор по работе с данными Х5 Retail Group, поделился своим опытом выстраивания работы с данными и дал несколько практических советов.
20 исследовательских проблем при разговоре о Big Data и Data Science: ttps://medium.com/@sunil.vuppala/top-20-latest-research-problems-in-big-data-and-data-science-c6fb51e03136
Medium
Top 20 Latest Research Problems in Big Data and Data Science
Even though Big data is into main stream of operations as of 2020, there are still potential issues or challenges the researchers can…
Мир потихоньку выходит из коллапса пандемии и возвращается к нормальной работе. Многие считают, что удалённая работа и так присуща IT отрасли, и последние события не сильно на неё повлияли. Но так ли это на самом деле? Конечно нет, и по нашему мнению, главное здесь - применение автоматизированных систем, значительно упрощающих политиками и процедурами обработки данных. Главный плюс - администраторам и сотрудникам легче взаимодействовать с ними — оперативно обновлять их, перепроверять, утверждать и доводить до сведения персонала, который сразу же понимают, каким правилам он должны следовать. Более подробно об управлении данными в постпандемическом мире: https://www.itweek.ru/bigdata/article/detail.php?ID=212768&utm_source=theme-articles-right&utm_medium=link
itWeek
Управление данными в постпандемическом мире
Одним из наиболее заметных последствий глобальной пандемии станет то, что предприятиям, общественным институтам и организациям по всему миру придется искать новые способы ведения бизнеса. Об этом на портале Techopedia пишет управляющий директор Mitratech
В отчете Gartner по Data Governance, опубликованном в октябре 2019 года, аналитик Сол Джудах перечислил семь основ успешного DG. Главными из них, по нашему мнению, являются два постулата: 1. Необходимо осуществлять постоянную подготовку и обучение кадров с понятными и четко выработанными механизма контроля их эффективности 2. Принимать решения с ориентацией на ценность бизнеса. Здесь подробнее об этом и не только: https://searchdatamanagement.techtarget.com/definition/data-governance
Data Management
What is data governance and why does it matter?
Learn what data governance is, why it's important, its benefits, who's responsible for it, data governance best practices and more in this in-depth guide.
При разговоре о Качестве Данных, основную роль играет точное соблюдение всех процедур. Есть несколько важных шагов, с помощью которых можно выстроить эффективную систему Качества данных. И, проанализировав их все, можно с уверенностью сказать, что основа основ здесь - это тщательная настройка конвейера данных, которая позволит избежать дублирования данных. Ну и, конечно - точное понимание требований к данным. Подробнее про основные шаги здесь: https://towardsdatascience.com/7-steps-to-ensure-and-sustain-data-quality-3c0040591366
Medium
7 Steps to Ensure and Sustain Data Quality
Several years ago, I met a senior director from a large company. He mentioned the company he worked for was facing data quality issues…
Какие шаги по созданию стратегии Руководства данными (Data Governance) являются самыми важными? По нашему мнению - Контроль доступа к бизнес-данным, создание бизнес-кейса и обучение сотрудников процедурам DG - вот три кита. Подробнее здесь: https://www.manufacturing.net/operations/article/13227349/10-steps-to-creating-a-successful-data-governance-strategy
Manufacturing.net
10 Steps To Creating A Successful Data Governance Strategy
Instituting a set of DG processes is increasingly important in today’s digital climate. By applying formal data governance, manufacturers can ensure that data is formally managed and trusted and that people can be made accountable for any adverse event that…
Интересное исследование "А кто собственно занимается разработкой" OpenSource по машинному обучению .
При поиске по ключевому слову «машинное обучение» на Github обнаруживается 246 632 репозиториев машинного обучения. Так как это лучшие репозитории в машинном обучении, ожидается, что владельцы и участники этих репозиториев будут экспертами или компетентными в машинном обучении. Было принято решение извлечь профили этих пользователей, чтобы получить некоторые интересные сведения об их истории, а также статистику.
Для исследования использовались следующие инструменты:
- Beautiful Soup для извлечения URL-адресов всех репозиториев под тегом машинного обучения. Beautiful Soup - это библиотека Python, которая позволяет чрезвычайно легко собирать данные с веб-сайтов. Если вы не знаете о Beautiful Soup, в этой статье приводится примеры том, как использовать Beautiful Soup.
Подробные учебные пособия для начинающих: веб-база данных фильмов из нескольких страниц с красивым супом
Вы, наверное, слышали о Beautiful Soup. Но что вы будете делать, если тег данных, к которым вы хотите получить доступ, не является конкретным…
- PyGithub для извлечения информации о пользователях. PyGithub - это библиотека Python для использования Github API v3. С его помощью вы можете управлять своими ресурсами Github (репозиториями, профилями пользователей, организациями и т. Д.) Из скриптов Python.
- Requests на извлечение информации о репозиториях и ссылки на профили участников.
В материале исследованы наиболее популярные языки разработки, локации контрибьютеров, статистика репозиториев.
https://towardsdatascience.com/i-scraped-more-than-1k-top-machine-learning-github-profiles-and-this-is-what-i-found-1ab4fb0c0474
При поиске по ключевому слову «машинное обучение» на Github обнаруживается 246 632 репозиториев машинного обучения. Так как это лучшие репозитории в машинном обучении, ожидается, что владельцы и участники этих репозиториев будут экспертами или компетентными в машинном обучении. Было принято решение извлечь профили этих пользователей, чтобы получить некоторые интересные сведения об их истории, а также статистику.
Для исследования использовались следующие инструменты:
- Beautiful Soup для извлечения URL-адресов всех репозиториев под тегом машинного обучения. Beautiful Soup - это библиотека Python, которая позволяет чрезвычайно легко собирать данные с веб-сайтов. Если вы не знаете о Beautiful Soup, в этой статье приводится примеры том, как использовать Beautiful Soup.
Подробные учебные пособия для начинающих: веб-база данных фильмов из нескольких страниц с красивым супом
Вы, наверное, слышали о Beautiful Soup. Но что вы будете делать, если тег данных, к которым вы хотите получить доступ, не является конкретным…
- PyGithub для извлечения информации о пользователях. PyGithub - это библиотека Python для использования Github API v3. С его помощью вы можете управлять своими ресурсами Github (репозиториями, профилями пользователей, организациями и т. Д.) Из скриптов Python.
- Requests на извлечение информации о репозиториях и ссылки на профили участников.
В материале исследованы наиболее популярные языки разработки, локации контрибьютеров, статистика репозиториев.
https://towardsdatascience.com/i-scraped-more-than-1k-top-machine-learning-github-profiles-and-this-is-what-i-found-1ab4fb0c0474
Medium
I Scraped more than 1k Top Machine Learning Github Profiles and this is what I Found
Gain Insights from Top Machine Learning Profiles on Github
Так на что же похожа практика CDO? Мы привели Твиттере аккаунты CDO,. которые расскажут вам об их креативности, идеях, ориентированных на данные, и самоанализе!
Ниже приводится, ТОП10, однако мы выделили 3 наиболее интересных:
По нашему мнению самые интересные:
Ян Калин - пишет в твиттере о правительстве, а также о доступных ресурсах.
Илкай Алтинтас - является главным научным сотрудником суперкомпьютерного центра в Сан-Диего в Сан-Диего., пишет о больших данных, приводится его интересное интервью.
Джефф Бладт (Jeff Bladt) - директор по информационным технологиям @ dosomething.org, много графики и визуальных эффектов.
Полный ТОП10:
1. Тайрон Грандисон / @tyrgr
Тайрон Грандисон - заместитель директора по информационным технологиям Министерства торговли США. Он также был научным сотрудником Белого дома по инновациям в Министерстве труда США и работал с Бюро CENSUS США над их инициативами в области данных и API.
2. Мишлин Кейси / @michelinecasey
Мишлин Кейси является руководителем в CDO, LLC, консалтинговой фирме, поддерживающей разработку стратегических планов управления крупными данными, управления данными и безопасности данных, а также усилия по внедрению. Ранее г-жа Кейси была первым государственным директором по данным в стране и входила в состав Управления губернатора в штате Колорадо.
3. Илькай Алтинтас / @ilkayaltintas
Илкай Алтинтас является главным научным сотрудником суперкомпьютерного центра в Сан-Диего в Сан-Диего.
4. Дебра Логан / @DebrLogan
Дебра Логан в настоящее время является главным научным сотрудником Gartner по данным и аналитике. Как и все другие удивительные CDO в этом списке, ее твиты так же практичны и информативны - вы многому у нее научитесь.
5. Джефф Бладт / @BLADT
Джефф Бладт (Jeff Bladt) - директор по информационным технологиям @ dosomething.org. Его твиты полны статистики и графиков, и, на мой взгляд, лучшие визуальные эффекты дополняют его твиты.
6. Мишель Флери / @michelle_fleury
Мишель Флери в настоящее время является главным сотрудником по защите данных в CISCO. Она пишет в основном о безопасности, конфиденциальности и предпринимательстве.
7. Том Шенк мл. / @ChicagoCDO
Том Шенк-младший посвящен использованию данных, чтобы повлиять и улучшить повседневную жизнь чикагцев.
8. Герайнт Льюис / @GeraintLewis
В отличие от других вышеупомянутых CDO, Geraint Lewis, CDO из NHS of England, имеет медицинское образование и пишет в Твиттере о здоровье и данных.
9. Адам Дрейк / @aadrake
Adram Drake является CDO в Atazzo и часто публикует полезные технические ресурсы.
10. Ян Калин / @IanJKalin
Ян Калин, ветеран @USNavy, является руководителем отдела данных @CommerceGov. Он пишет в твиттере о правительстве, а также о доступных ресурсах.
https://www.varonis.com/blog/top-10-chief-data-officers-follow-twitter/
Ниже приводится, ТОП10, однако мы выделили 3 наиболее интересных:
По нашему мнению самые интересные:
Ян Калин - пишет в твиттере о правительстве, а также о доступных ресурсах.
Илкай Алтинтас - является главным научным сотрудником суперкомпьютерного центра в Сан-Диего в Сан-Диего., пишет о больших данных, приводится его интересное интервью.
Джефф Бладт (Jeff Bladt) - директор по информационным технологиям @ dosomething.org, много графики и визуальных эффектов.
Полный ТОП10:
1. Тайрон Грандисон / @tyrgr
Тайрон Грандисон - заместитель директора по информационным технологиям Министерства торговли США. Он также был научным сотрудником Белого дома по инновациям в Министерстве труда США и работал с Бюро CENSUS США над их инициативами в области данных и API.
2. Мишлин Кейси / @michelinecasey
Мишлин Кейси является руководителем в CDO, LLC, консалтинговой фирме, поддерживающей разработку стратегических планов управления крупными данными, управления данными и безопасности данных, а также усилия по внедрению. Ранее г-жа Кейси была первым государственным директором по данным в стране и входила в состав Управления губернатора в штате Колорадо.
3. Илькай Алтинтас / @ilkayaltintas
Илкай Алтинтас является главным научным сотрудником суперкомпьютерного центра в Сан-Диего в Сан-Диего.
4. Дебра Логан / @DebrLogan
Дебра Логан в настоящее время является главным научным сотрудником Gartner по данным и аналитике. Как и все другие удивительные CDO в этом списке, ее твиты так же практичны и информативны - вы многому у нее научитесь.
5. Джефф Бладт / @BLADT
Джефф Бладт (Jeff Bladt) - директор по информационным технологиям @ dosomething.org. Его твиты полны статистики и графиков, и, на мой взгляд, лучшие визуальные эффекты дополняют его твиты.
6. Мишель Флери / @michelle_fleury
Мишель Флери в настоящее время является главным сотрудником по защите данных в CISCO. Она пишет в основном о безопасности, конфиденциальности и предпринимательстве.
7. Том Шенк мл. / @ChicagoCDO
Том Шенк-младший посвящен использованию данных, чтобы повлиять и улучшить повседневную жизнь чикагцев.
8. Герайнт Льюис / @GeraintLewis
В отличие от других вышеупомянутых CDO, Geraint Lewis, CDO из NHS of England, имеет медицинское образование и пишет в Твиттере о здоровье и данных.
9. Адам Дрейк / @aadrake
Adram Drake является CDO в Atazzo и часто публикует полезные технические ресурсы.
10. Ян Калин / @IanJKalin
Ян Калин, ветеран @USNavy, является руководителем отдела данных @CommerceGov. Он пишет в твиттере о правительстве, а также о доступных ресурсах.
https://www.varonis.com/blog/top-10-chief-data-officers-follow-twitter/
Наш коллега Кит Коль выделил 7 Лучших практик для создания правил качества данных. Мы не со всем согласны, некоторые вещи выглядят не совсем корректными, но Полнота и Актуальность это 100 %! https://blog.syncsort.com/2017/10/big-data/best-practices-data-quality-rules/
Precisely
Precisely Data Guide: Expertly curated, up-to-date data for better decisions
The Data Guide showcases our expertly curated and up-to-date business, location, and consumer data to help you make more confident decisions.
Gartner выделил 10 главных тенденций в обработке данных и аналитике. Парочка выглядит немного претенциозно, но главное тоже на месте: наступление маркетплейсов, аналитика с учетом контекста и расширенное управление данными: https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/
Gartner
Gartner Top 10 Trends in Data and Analytics for 2020
Gartner analyst @rsallam shares the top 10 #data and #analytics trends for 2020. Read more. #GartnerSYM #Trends @Gartner_SYM
Неожиданные новости из-за океана. Тысячи компаний могут быть вынуждены перестать хранить информацию о резидентах Европейского союза на серверах в США в связи с решением Европейского суда, который постановил, что трансфер данных подвергает европейцев риску слежки со стороны властей США.
Неожиданное решение Европейского суда в Люксембурге, которое отменяет заключенное между ЕС и США соглашение о передаче данных, известное как Privacy Shield, является победой для активистов в области защиты частной информации, которые выступают против хранения данных о европейских гражданах в США. Подробности в материале The Wall Street Journal: https://www.wsj.com/articles/eu-court-strikes-down-trans-atlantic-safe-harbor-data-transfer-pact-1444121361
Неожиданное решение Европейского суда в Люксембурге, которое отменяет заключенное между ЕС и США соглашение о передаче данных, известное как Privacy Shield, является победой для активистов в области защиты частной информации, которые выступают против хранения данных о европейских гражданах в США. Подробности в материале The Wall Street Journal: https://www.wsj.com/articles/eu-court-strikes-down-trans-atlantic-safe-harbor-data-transfer-pact-1444121361
WSJ
EU Court Says Data-Transfer Pact With U.S. Violates Privacy
The EU’s highest court struck down a trans-Atlantic data pact used by thousands of companies to transfer Europeans’ personal data to the U.S., a decision that will ripple through businesses such as online advertising and cloud computing. The ruling against…
Наш старый знакомый Кит Коль выделил 4 основных тренда при разговор о качестве данных на «стыке» с Data Governance. И опять мы согласны далеко не со всем, но тезис «Компании находятся на разной степени зрелости в отношении измерения и улучшения качества данных» вопросов не вызывает: https://blog.syncsort.com/2017/10/big-data/data-quality-trends-data-governance/
Precisely
Precisely - Better data. Better decisions.
Make more confident business decisions with data you can trust. See why 99 of the Fortune 100 trust Precisely to build their possibilities!
Вслед за 10 тенденциями в обработке данных и аналитике (о чем мы подробно рассказывали на прошлой неделе), Gartner назвал также 9 основных тенденций в области безопасности данных. Изучив их все, мы советуем Вам обратить особое внимание на Тренд № 8. Создание средств защиты облачных приложений в течение всего их жизненного цикла. https://www.gartner.com/smarterwithgartner/gartner-top-9-security-and-risk-trends-for-2020/
Gartner
Gartner Top 9 Security and Risk Trends for 2020
Gartner analyst Peter Firstbrook shares 9 #security #trends for 2020. Read more. #GartnerSEC #CISO #Cybersecurity @Gartner_IT