Telegram Web Link
Сегодня очередь нашей регулярной рубрики «Шпаргалка CDO». Кто такой директор по данным (CDO)? Термин набирает популярность, но до сих пор не устоялся в отрасли. Но всё больше компаний приходят к осознанию необходимости такого человека и процессов, связанных с данными.
https://blogs.oracle.com/russia/cdo-data-cfo
Весьма экзотический взгляд на роль CDО - на сей раз в области здравоохранения: https://www.healthcatalyst.com/8-ways-chief-data-officers-can-help-healthcare-thrive
Сегодня очередь нашей регулярной рубрики «Шпаргалка CDO». Храните и передаете данные в очередях через JSON? Тогда у нас для вас хорошая новость - вы можете сократь объем хранимых данных и скорость из обработка в несколько раз. Как? Используйте бинарные протоколы описания данных - Protobuf от Google (https://developers.google.com/protocol-buffers), Apache Avro (https://avro.apache.org/), Apache Thrift. Выбирайте тот, которые больше всего вам подходит. Родная поддержка Avro в Apache Pulsar и Apache Kafka может стать один из аргументов в пользу именно этого формата. Важнее всего быстродействие и степень сжатия - тогда берите protobuf. А если надо описывать взаимодействия между сервисами - ваш выбор Apache Thrift (http://thrift.apache.org/).
Мир потихоньку выходит из коллапса пандемии и возвращается к нормальной работе. Многие считают, что удалённая работа и так присуща IT отрасли, и последние события не сильно на неё повлияли. Но так ли это на самом деле? Конечно нет, и по нашему мнению, главное здесь - применение автоматизированных систем, значительно упрощающих политиками и процедурами обработки данных. Главный плюс - администраторам и сотрудникам легче взаимодействовать с ними — оперативно обновлять их, перепроверять, утверждать и доводить до сведения персонала, который сразу же понимают, каким правилам он должны следовать. Более подробно об управлении данными в постпандемическом мире: https://www.itweek.ru/bigdata/article/detail.php?ID=212768&utm_source=theme-articles-right&utm_medium=link
В отчете Gartner по Data Governance, опубликованном в октябре 2019 года, аналитик Сол Джудах перечислил семь основ успешного DG. Главными из них, по нашему мнению, являются два постулата: 1. Необходимо осуществлять постоянную подготовку и обучение кадров с понятными и четко выработанными механизма контроля их эффективности 2. Принимать решения с ориентацией на ценность бизнеса. Здесь подробнее об этом и не только: https://searchdatamanagement.techtarget.com/definition/data-governance
При разговоре о Качестве Данных, основную роль играет точное соблюдение всех процедур. Есть несколько важных шагов, с помощью которых можно выстроить эффективную систему Качества данных. И, проанализировав их все, можно с уверенностью сказать, что основа основ здесь - это тщательная настройка конвейера данных, которая позволит избежать дублирования данных. Ну и, конечно - точное понимание требований к данным. Подробнее про основные шаги здесь: https://towardsdatascience.com/7-steps-to-ensure-and-sustain-data-quality-3c0040591366
Какие шаги по созданию стратегии Руководства данными (Data Governance) являются самыми важными? По нашему мнению - Контроль доступа к бизнес-данным, создание бизнес-кейса и обучение сотрудников процедурам DG - вот три кита. Подробнее здесь: https://www.manufacturing.net/operations/article/13227349/10-steps-to-creating-a-successful-data-governance-strategy
Интересное исследование "А кто собственно занимается разработкой" OpenSource по машинному обучению .

При поиске по ключевому слову «машинное обучение» на Github обнаруживается 246 632 репозиториев машинного обучения. Так как это лучшие репозитории в машинном обучении, ожидается, что владельцы и участники этих репозиториев будут экспертами или компетентными в машинном обучении. Было принято решение извлечь профили этих пользователей, чтобы получить некоторые интересные сведения об их истории, а также статистику.
Для исследования использовались следующие инструменты:
- Beautiful Soup для извлечения URL-адресов всех репозиториев под тегом машинного обучения. Beautiful Soup - это библиотека Python, которая позволяет чрезвычайно легко собирать данные с веб-сайтов. Если вы не знаете о Beautiful Soup, в этой статье приводится примеры том, как использовать Beautiful Soup.
Подробные учебные пособия для начинающих: веб-база данных фильмов из нескольких страниц с красивым супом
Вы, наверное, слышали о Beautiful Soup. Но что вы будете делать, если тег данных, к которым вы хотите получить доступ, не является конкретным…
- PyGithub для извлечения информации о пользователях. PyGithub - это библиотека Python для использования Github API v3. С его помощью вы можете управлять своими ресурсами Github (репозиториями, профилями пользователей, организациями и т. Д.) Из скриптов Python.
- Requests на извлечение информации о репозиториях и ссылки на профили участников.

В материале исследованы наиболее популярные языки разработки, локации контрибьютеров, статистика репозиториев.
https://towardsdatascience.com/i-scraped-more-than-1k-top-machine-learning-github-profiles-and-this-is-what-i-found-1ab4fb0c0474
Так на что же похожа практика CDO? Мы привели Твиттере аккаунты CDO,. которые расскажут вам об их креативности, идеях, ориентированных на данные, и самоанализе!
Ниже приводится, ТОП10, однако мы выделили 3 наиболее интересных:

По нашему мнению самые интересные:

Ян Калин - пишет в твиттере о правительстве, а также о доступных ресурсах.

Илкай Алтинтас - является главным научным сотрудником суперкомпьютерного центра в Сан-Диего в Сан-Диего., пишет о больших данных, приводится его интересное интервью.

Джефф Бладт (Jeff Bladt) - директор по информационным технологиям @ dosomething.org, много графики и визуальных эффектов.

Полный ТОП10:

1. Тайрон Грандисон / @tyrgr

Тайрон Грандисон - заместитель директора по информационным технологиям Министерства торговли США. Он также был научным сотрудником Белого дома по инновациям в Министерстве труда США и работал с Бюро CENSUS США над их инициативами в области данных и API.

2. Мишлин Кейси / @michelinecasey

Мишлин Кейси является руководителем в CDO, LLC, консалтинговой фирме, поддерживающей разработку стратегических планов управления крупными данными, управления данными и безопасности данных, а также усилия по внедрению. Ранее г-жа Кейси была первым государственным директором по данным в стране и входила в состав Управления губернатора в штате Колорадо.

3. Илькай Алтинтас / @ilkayaltintas

Илкай Алтинтас является главным научным сотрудником суперкомпьютерного центра в Сан-Диего в Сан-Диего.

4. Дебра Логан / @DebrLogan

Дебра Логан в настоящее время является главным научным сотрудником Gartner по данным и аналитике. Как и все другие удивительные CDO в этом списке, ее твиты так же практичны и информативны - вы многому у нее научитесь.

5. Джефф Бладт / @BLADT

Джефф Бладт (Jeff Bladt) - директор по информационным технологиям @ dosomething.org. Его твиты полны статистики и графиков, и, на мой взгляд, лучшие визуальные эффекты дополняют его твиты.

6. Мишель Флери / @michelle_fleury

Мишель Флери в настоящее время является главным сотрудником по защите данных в CISCO. Она пишет в основном о безопасности, конфиденциальности и предпринимательстве.

7. Том Шенк мл. / @ChicagoCDO

Том Шенк-младший посвящен использованию данных, чтобы повлиять и улучшить повседневную жизнь чикагцев.

8. Герайнт Льюис / @GeraintLewis

В отличие от других вышеупомянутых CDO, Geraint Lewis, CDO из NHS of England, имеет медицинское образование и пишет в Твиттере о здоровье и данных.

9. Адам Дрейк / @aadrake

Adram Drake является CDO в Atazzo и часто публикует полезные технические ресурсы.

10. Ян Калин / @IanJKalin

Ян Калин, ветеран @USNavy, является руководителем отдела данных @CommerceGov. Он пишет в твиттере о правительстве, а также о доступных ресурсах.

https://www.varonis.com/blog/top-10-chief-data-officers-follow-twitter/
Наш коллега Кит Коль выделил 7 Лучших практик для создания правил качества данных. Мы не со всем согласны, некоторые вещи выглядят не совсем корректными, но Полнота и Актуальность это 100 %! https://blog.syncsort.com/2017/10/big-data/best-practices-data-quality-rules/
Gartner выделил 10 главных тенденций в обработке данных и аналитике. Парочка выглядит немного претенциозно, но главное тоже на месте: наступление маркетплейсов, аналитика с учетом контекста и расширенное управление данными: https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/
Неожиданные новости из-за океана. Тысячи компаний могут быть вынуждены перестать хранить информацию о резидентах Европейского союза на серверах в США в связи с решением Европейского суда, который постановил, что трансфер данных подвергает европейцев риску слежки со стороны властей США.

Неожиданное решение Европейского суда в Люксембурге, которое отменяет заключенное между ЕС и США соглашение о передаче данных, известное как Privacy Shield, является победой для активистов в области защиты частной информации, которые выступают против хранения данных о европейских гражданах в США. Подробности в материале The Wall Street Journal: https://www.wsj.com/articles/eu-court-strikes-down-trans-atlantic-safe-harbor-data-transfer-pact-1444121361
Наш старый знакомый Кит Коль выделил 4 основных тренда при разговор о качестве данных на «стыке» с Data Governance. И опять мы согласны далеко не со всем, но тезис «Компании находятся на разной степени зрелости в отношении измерения и улучшения качества данных» вопросов не вызывает: https://blog.syncsort.com/2017/10/big-data/data-quality-trends-data-governance/
Вслед за 10 тенденциями в обработке данных и аналитике (о чем мы подробно рассказывали на прошлой неделе), Gartner назвал также 9 основных тенденций в области безопасности данных. Изучив их все, мы советуем Вам обратить особое внимание на Тренд № 8. Создание средств защиты облачных приложений в течение всего их жизненного цикла. https://www.gartner.com/smarterwithgartner/gartner-top-9-security-and-risk-trends-for-2020/
2025/07/11 20:50:30
Back to Top
HTML Embed Code: