Data Elka 2021 🥇
Сап, как говорится в одном небезызвестном сообществе ;).
Мы рады пригласить подписчиков на ежегодное замечательное событие Data Elka, в рамках которого подводятся итоги уходящего года и вручаются памятные подарки за все хорошее лучшим участникам OpenDataScience-сообщества 🤓.
В связи с этим, как организаторы CodeMining-трека, обращаемся к сообществу за помощью с выбором лучших докладов 2021 года.
Свои видео мы их публиковали в рубрике #видоснавыходные в перемешку с другими не менее интересными видосами.
Все CodeMining-видео последнего года можно посмотреть на страничке посвященной прошедшему DataFest'у: https://ods.ai/tracks/code-mining-df2021
Если вам что-то понравилось, то велкам поддержать наше скромное ML4Code-направление.
Видео номинированы в разделе
Результаты будут озвучены вживую на трансляции в субботу.
Во славу Дата Ёлке! 🎄🎄🎄
Сап, как говорится в одном небезызвестном сообществе ;).
Мы рады пригласить подписчиков на ежегодное замечательное событие Data Elka, в рамках которого подводятся итоги уходящего года и вручаются памятные подарки за все хорошее лучшим участникам OpenDataScience-сообщества 🤓.
В связи с этим, как организаторы CodeMining-трека, обращаемся к сообществу за помощью с выбором лучших докладов 2021 года.
Свои видео мы их публиковали в рубрике #видоснавыходные в перемешку с другими не менее интересными видосами.
Все CodeMining-видео последнего года можно посмотреть на страничке посвященной прошедшему DataFest'у: https://ods.ai/tracks/code-mining-df2021
Если вам что-то понравилось, то велкам поддержать наше скромное ML4Code-направление.
Видео номинированы в разделе
Industry domains
, голосовать можно тут (рега обязательна).Результаты будут озвучены вживую на трансляции в субботу.
Во славу Дата Ёлке! 🎄🎄🎄
Почему знать про лицензионную чистоту важно?
Многие слышали про более чем десятилетний спор за нарушение авторских прав на части кода Java между Oracle & Google. Всё разрешилось в сторону последних 👩⚖️.
Сейчас на наших глазах, по ходу, возникает очередной резонансный кейс за решением которого интересно будет пронаблюдать.
Сообществом весьма себе предполагается, что свежезарелиженая платформа TikTok Live Studio основана на OBS (лицензия GPL v2.0), что, как мы знаем из курса лицензирования, накладывает определенные условия, как минимум вскрытие пациента под той же лицензией и упоминание копирайта и лицензии :).
Почитать материалы с комментариями IANAL (I'am not a lawyer) специалистов можно на Hacker News.
Мы у себя в Лаборатории обязательно глянем кейс и расскажем об этом через некоторое время. Ну а для проактивных читателей это может быть хорошим Домашним заданием (или тестовым ;).
Многие слышали про более чем десятилетний спор за нарушение авторских прав на части кода Java между Oracle & Google. Всё разрешилось в сторону последних 👩⚖️.
Сейчас на наших глазах, по ходу, возникает очередной резонансный кейс за решением которого интересно будет пронаблюдать.
Сообществом весьма себе предполагается, что свежезарелиженая платформа TikTok Live Studio основана на OBS (лицензия GPL v2.0), что, как мы знаем из курса лицензирования, накладывает определенные условия, как минимум вскрытие пациента под той же лицензией и упоминание копирайта и лицензии :).
Почитать материалы с комментариями IANAL (I'am not a lawyer) специалистов можно на Hacker News.
Мы у себя в Лаборатории обязательно глянем кейс и расскажем об этом через некоторое время. Ну а для проактивных читателей это может быть хорошим Домашним заданием (или тестовым ;).
Code Mining
Data Elka 2021 🥇 Сап, как говорится в одном небезызвестном сообществе ;). Мы рады пригласить подписчиков на ежегодное замечательное событие Data Elka, в рамках которого подводятся итоги уходящего года и вручаются памятные подарки за все хорошее лучшим участникам…
CodeMining.report.21.pdf
785.6 KB
Коротенькие итоги года @ods.ai
В прошедшую субботу (18.12), подвели итоги года в ODS-сообществе на Data Ёlka. Прикладываем презентацию и ссылку на стрим, где она озвучена голосом.
В прошедшую субботу (18.12), подвели итоги года в ODS-сообществе на Data Ёlka. Прикладываем презентацию и ссылку на стрим, где она озвучена голосом.
🎉1
С новым годом! 🌲🌲🌲
Мы "немного" поспали и продолжаем. Всем здоровья и всего такого!
Что-то в ушедшем году не успели довести и опубликовать, поэтому в ближайшую неделю-две будем закрывать гештальты :).
ЗЫ: прикрутили реакшены 😘.
Мы "немного" поспали и продолжаем. Всем здоровья и всего такого!
Что-то в ушедшем году не успели довести и опубликовать, поэтому в ближайшую неделю-две будем закрывать гештальты :).
ЗЫ: прикрутили реакшены 😘.
🎉4❤2
Hashing It Out: A Survey of Programmers' Cannabis Usage, Perception, and Motivation
В конце прошлого года вышла довольно любопытная статья об исследовании изменения сознания у разработчиков под воздействием Каннабиса от Университета Мичигана.
В исследовании поучаствовало 803 разработчика (из них 450 программиста с полной занятостью). Довольно интересно почитать про мотивацию, ожидания и реальные результаты исследуемых.
Почитать есть что, но самое интересное и ожидаемое на картинках выше.
Работа проведена в целях поддержания политики борьбы с наркотиками на рабочих местах программистов.
Статья: https://arxiv.org/abs/2112.09365
В конце прошлого года вышла довольно любопытная статья об исследовании изменения сознания у разработчиков под воздействием Каннабиса от Университета Мичигана.
В исследовании поучаствовало 803 разработчика (из них 450 программиста с полной занятостью). Довольно интересно почитать про мотивацию, ожидания и реальные результаты исследуемых.
Почитать есть что, но самое интересное и ожидаемое на картинках выше.
Работа проведена в целях поддержания политики борьбы с наркотиками на рабочих местах программистов.
Статья: https://arxiv.org/abs/2112.09365
👍3😁1🤩1
PyNose: a Test Smell Detector for Python
А ещё в прошлом году у JetBrains Research вышла определялка говнокода в python-тестах. Работает для
Виды test smell, которые выделяют авторы:
- Assertion Roulette
- Conditional Test Logic
- Constructor Initialization
- Default Test
- Duplicate Assert
- Empty Test
- Exception Handling
- Lack of Cohesion of Test Cases
- Magic Number Test
- Obscure In-Line Setup
- Redundant Assertion
- Redundant Print
- Sleepy Test
- Suboptimal Assert
- Test Maverick
Использовать можно в виде плагина к Pycharm.
Код: https://github.com/jetbrains-research/pynose
Подробности в статье: https://arxiv.org/abs/2108.04639. Единственное, она описывает предыдущую версию, которая в ветке
Upd. Уточняем как использовать:
1. берете сборку плагина отсюда (.zip)
2. ставите по инструкции
3. берете тесты, можно вот эти или свои какие-нибудь ;)
4. ...
5. profit, в IDE появляются подсказки, как показано на гифках
А ещё в прошлом году у JetBrains Research вышла определялка говнокода в python-тестах. Работает для
Unittest
& Pytest
. Версия 1.0.0 вышла в декабре'21.Виды test smell, которые выделяют авторы:
- Assertion Roulette
- Conditional Test Logic
- Constructor Initialization
- Default Test
- Duplicate Assert
- Empty Test
- Exception Handling
- Lack of Cohesion of Test Cases
- Magic Number Test
- Obscure In-Line Setup
- Redundant Assertion
- Redundant Print
- Sleepy Test
- Suboptimal Assert
- Test Maverick
Использовать можно в виде плагина к Pycharm.
Код: https://github.com/jetbrains-research/pynose
Подробности в статье: https://arxiv.org/abs/2108.04639. Единственное, она описывает предыдущую версию, которая в ветке
ASE2021
.Upd. Уточняем как использовать:
1. берете сборку плагина отсюда (.zip)
2. ставите по инструкции
3. берете тесты, можно вот эти или свои какие-нибудь ;)
4. ...
5. profit, в IDE появляются подсказки, как показано на гифках
GitHub
GitHub - JetBrains-Research/PyNose: A test smell detector for Python.
A test smell detector for Python. Contribute to JetBrains-Research/PyNose development by creating an account on GitHub.
👍4
Использование публичных наборов данных в коммерческом ПО
Коллеги из ODS поделились прекрасной статьёй: Can I use this publicly available dataset to build commercial AI software? Most likely not.
Поднят крайне важный вопрос для DataScience сообщества. Поясняем, оказывается (wat?), далеко не все публично доступные наборы данных можно использовать для построения коммерческих решений.
Авторы рассматривают лицензионные соглашения 6 популярных датасетов использующихся в Computer Vision (CIFAR-10, ImageNet, Cityscapes, FFHQ, VGGFaces2 и MS COCO) и делают "прекрасное" заключение, что натренированные на этих данных модели, как минимум, не могут коммерциализироваться.
Пример результатов анализа лицензии датасета CIFAR-10 приведен на скрине.
Логично было предположить подобное, но для многих это может быть прямо открытием века 💣.
Посмотрим, чем ответит сообщество ;).
ЗЫ: а мы в свою очередь поняли, чем ещё дополнить курс по Open Source лицензированию.
Коллеги из ODS поделились прекрасной статьёй: Can I use this publicly available dataset to build commercial AI software? Most likely not.
Поднят крайне важный вопрос для DataScience сообщества. Поясняем, оказывается (wat?), далеко не все публично доступные наборы данных можно использовать для построения коммерческих решений.
Авторы рассматривают лицензионные соглашения 6 популярных датасетов использующихся в Computer Vision (CIFAR-10, ImageNet, Cityscapes, FFHQ, VGGFaces2 и MS COCO) и делают "прекрасное" заключение, что натренированные на этих данных модели, как минимум, не могут коммерциализироваться.
Пример результатов анализа лицензии датасета CIFAR-10 приведен на скрине.
Логично было предположить подобное, но для многих это может быть прямо открытием века 💣.
Посмотрим, чем ответит сообщество ;).
ЗЫ: а мы в свою очередь поняли, чем ещё дополнить курс по Open Source лицензированию.
🔥5👍2
Using public datasets in commercial software
Great paper:
An extremely important question for the Data Science community: it turns out (wat?) that not all publicly available datasets can be used to build commercial solutions 💣💣💣.
Authors examine license agreements of 6 popular datasets used in Computer Vision (CIFAR-10, ImageNet, Cityscapes, FFHQ, VGGFaces2 and MS COCO) and conclude that the models trained on these data can not be commercialized at least.
An example of the results of the CIFAR-10 dataset's license analysis is shown in the screenshot.
It was logical to assume this, but for many community members this may be the opening of the century.
Prepared by @codemining for ods.ai. Subscribe!
Great paper:
Can I use this publicly available dataset to build commercial AI software? Most likely not
.An extremely important question for the Data Science community: it turns out (wat?) that not all publicly available datasets can be used to build commercial solutions 💣💣💣.
Authors examine license agreements of 6 popular datasets used in Computer Vision (CIFAR-10, ImageNet, Cityscapes, FFHQ, VGGFaces2 and MS COCO) and conclude that the models trained on these data can not be commercialized at least.
An example of the results of the CIFAR-10 dataset's license analysis is shown in the screenshot.
It was logical to assume this, but for many community members this may be the opening of the century.
Prepared by @codemining for ods.ai. Subscribe!
🔥2👍1
code2vec: Learning Distributed Representations of Code
Мы уже ранее рассказывали про построение эмбеддингов по коду в нашем обзорном докладе на DataFest Siberia v2, но есть смысл выделить отдельным постом.
Послушать по-русски:
https://www.youtube.com/watch?v=qm2hB5Bi49A&t=507s
Поиграться можно здесь:
https://code2vec.org/
Сорцы | Статья
Мы уже ранее рассказывали про построение эмбеддингов по коду в нашем обзорном докладе на DataFest Siberia v2, но есть смысл выделить отдельным постом.
Послушать по-русски:
https://www.youtube.com/watch?v=qm2hB5Bi49A&t=507s
Поиграться можно здесь:
https://code2vec.org/
Сорцы | Статья
👍1
Продолжая рубрику #языкибываютразные, напишем про ещё один внезапный язык, Rockstar.
Язык с динамической типизацией, в котором исходный код представляется в виде текстов похожих на песни.
Вдохновлен рок-хэви-хэйр-металлическими балладами 80-90-х годов 🎸🎸🎸.
Сайт | Спека
Есть множество реализаций, в т. ч. на Python, JS, Java, OCaml, etc.
Пример кода приближенного вычисления числа π:
…
Продолжение тут, больше примеров здесь. Надеемся, что вам весело ;).
Язык с динамической типизацией, в котором исходный код представляется в виде текстов похожих на песни.
Вдохновлен рок-хэви-хэйр-металлическими балладами 80-90-х годов 🎸🎸🎸.
Сайт | Спека
Есть множество реализаций, в т. ч. на Python, JS, Java, OCaml, etc.
Пример кода приближенного вычисления числа π:
My life was a mushroom cloud, then
it was nothing
Sin is unquenchable
My cell was empty
Your love was a jackhammer shaking the bars
Your life is a fungus
Your love is mycorrhizal
My life was empty without your love
Until your life is my life,
build my life up
Put your love into Me
Put my life into the song,
until your love is stronger than the song
Put the song of Me into Me
Knock the song down
Put your love into You
…
Продолжение тут, больше примеров здесь. Надеемся, что вам весело ;).
🔥4😁2👎1🤩1
Download trends for PyPI
Для вызнавания трендов популярности проектов в python-сообществе прибегают к изучению данных о скачивании (внезапно ;).
К сожалению, PyPI отдает статистику только в моменте, да и не то :/.
Тем не менее, есть ряд сервисов, которыми можно воспользоваться и поиграться:
- https://pypistats.org/
- https://pepy.tech/
Поработать с данными напрямую можно через Google BigQuery, в котором можно поковыряться и поиграть с данными: тут и версии питона, откуда скачивали и т.п.
@codemining
Для вызнавания трендов популярности проектов в python-сообществе прибегают к изучению данных о скачивании (внезапно ;).
К сожалению, PyPI отдает статистику только в моменте, да и не то :/.
Тем не менее, есть ряд сервисов, которыми можно воспользоваться и поиграться:
- https://pypistats.org/
- https://pepy.tech/
Поработать с данными напрямую можно через Google BigQuery, в котором можно поковыряться и поиграть с данными: тут и версии питона, откуда скачивали и т.п.
@codemining
👍4
CodeCaptcha
Надоело выбирать светофоры и велосипеды на гугло-капче?
Появился сервис CodeCaptcha, где подкидываются короткие задачки на JavaScript для того, чтобы пройти дальше по ссылке.
Конечно интересно узнать, как формируются задачи. Варианты решений могут быть неплохим подспорьем для обучения моделек для автокомплитов, код-ревью и т. п. Но пока задачи ооооочень простые.
Пример ссылки:
https://codecaptcha.io/a/ObZpSpktgAi6kzIbtsr0
Ну и да, было бы круто, если бы языков было больше. А пока что есть, то есть.
Надоело выбирать светофоры и велосипеды на гугло-капче?
Появился сервис CodeCaptcha, где подкидываются короткие задачки на JavaScript для того, чтобы пройти дальше по ссылке.
Конечно интересно узнать, как формируются задачи. Варианты решений могут быть неплохим подспорьем для обучения моделек для автокомплитов, код-ревью и т. п. Но пока задачи ооооочень простые.
Пример ссылки:
https://codecaptcha.io/a/ObZpSpktgAi6kzIbtsr0
Ну и да, было бы круто, если бы языков было больше. А пока что есть, то есть.
👍4😱1
CodeScene
Наткнулись тут на статейку How do you visualize code? и вспомнили, что хотели рассказать про отличнейший инструмент для изучения исходников — CodeScene.
Функциональность CodeScene позволяет высвечивать скрытые критические места в кодовой базе как с точки зрения качества, так и участников разработки.
Работа с техническим долгом, качеством, управление quality gates и много-много всего интересного. Куча интеграций, 25+ поддерживаемых языков, api, etc.
Инструмент коммерческий, бесплатен для open source. Есть cloud & on-premise версии.
А ещё, Адам Торнхилл, основатель системы, ещё и книжки интересные пишет, например: Your Code as a Crime Scene.
Наткнулись тут на статейку How do you visualize code? и вспомнили, что хотели рассказать про отличнейший инструмент для изучения исходников — CodeScene.
Функциональность CodeScene позволяет высвечивать скрытые критические места в кодовой базе как с точки зрения качества, так и участников разработки.
Работа с техническим долгом, качеством, управление quality gates и много-много всего интересного. Куча интеграций, 25+ поддерживаемых языков, api, etc.
Инструмент коммерческий, бесплатен для open source. Есть cloud & on-premise версии.
А ещё, Адам Торнхилл, основатель системы, ещё и книжки интересные пишет, например: Your Code as a Crime Scene.
👍2❤1
CFP: Software Engineering and Information Management
23 апреля пройдет крутая конференция по программной инженерии и организации информации SEIM.
https://seim-conf.org/en/
Направлений предостаточно, вот некоторые, которые интересно подсветить в контексте CodeMining-сообщества:
- Coding theory
- Compilers
- Empirical software engineering
- Information security
- Programming languages
- Software analysis
- Software testing
- Software verification
- Theoretical computer science
- Visual languages
Подача статей до 9 февраля, ещё можно успеть!
CFP тут.
23 апреля пройдет крутая конференция по программной инженерии и организации информации SEIM.
https://seim-conf.org/en/
Направлений предостаточно, вот некоторые, которые интересно подсветить в контексте CodeMining-сообщества:
- Coding theory
- Compilers
- Empirical software engineering
- Information security
- Programming languages
- Software analysis
- Software testing
- Software verification
- Theoretical computer science
- Visual languages
Подача статей до 9 февраля, ещё можно успеть!
CFP тут.
👍2
Malware Provenance: Code Reuse Detection in Malicious Software at Scale
Анализ переиспользования кода в программном обеспечении в применении к анализу семейств вредоносного ПО и дополнительных возможностях построения сигнатур их обнаружения на базе Locality Sensitive Hashing (LSH).
Статья 2016 года, но совершенно не потеряла актуальности для полезного применения подходов определения нечетких заимствований (дубликатов).
Почитать на остатках выходных можно здесь: https://ieeexplore.ieee.org/document/7888735
Анализ переиспользования кода в программном обеспечении в применении к анализу семейств вредоносного ПО и дополнительных возможностях построения сигнатур их обнаружения на базе Locality Sensitive Hashing (LSH).
Статья 2016 года, но совершенно не потеряла актуальности для полезного применения подходов определения нечетких заимствований (дубликатов).
Почитать на остатках выходных можно здесь: https://ieeexplore.ieee.org/document/7888735
🔥2
Module Counts
Оценить прирост новых пакетов в индексах вам поможет сервис modulecounts.
Например, хорошо видно замедление экосистемы
Есть стата по времени для двух десятков пакетных индексов. Да, конечно здесь нет сотен
Вобщем потыкать и сделать собственные выводы можно по ссылке: http://www.modulecounts.com/.
Оценить прирост новых пакетов в индексах вам поможет сервис modulecounts.
Например, хорошо видно замедление экосистемы
RubyGems
, и неплохой такой прирост Rust
-пакетов. Ну и Python
обогнал PHP
под конец 2021 года. По понятным причинам, npm
на скрин добавлен не был ;).Есть стата по времени для двух десятков пакетных индексов. Да, конечно здесь нет сотен
Java
-индексов, тоже интересно было бы поиграться широкой публике.Вобщем потыкать и сделать собственные выводы можно по ссылке: http://www.modulecounts.com/.
👍2