Telegram Web Link
HackConf 2022

У кого свободное воскресенье, приходите на HackConf!

Это слет сообществ, событие пройдет 18 сентября 2022 года в Санкт-Петербурге оффлайн.

Слет IT сообществ ставит цель — объединение сообществ, личные знакомства, общение и развитие. Основные направления: Разработка и администрирование — Dev/DevOps, безопасность — HackZone, работа с большими данными, искусственным интеллектом и машинным обучением — Data Science и секция по электронике — Hardware.

Вход для участников — бесплатный (регистрация на сайте). Если у вас есть возможноcть поддержать мероприятие, можно купить билет, в который будут включены бумажные стикеры или хлопковая толстовка на молнии с капюшоном и с вышивкой.

Где? СПб, пл. Победы, д. 1, Park Inn Пулковская
Когда? 18 сентября с 10.00 до 18.00

Канал HackConf: @hackconfspb
Программа и регистрация: https://hackconf.ru/
👍2
Иванниковские чтения!

Сегодня в Казани проходит конференция «Иванниковские чтения».

Программа (pdf) бомба! Такого масштаба по нашей теме в России ещё не было ;).

По факту это Data Analysis for Software Engineering, который представлен в двух параллельных треках:

- «Трансформация и анализ программ» (12.30-18.30). Ссылка на трансляцию.

- «Управление данными и информационные системы» (12.30-18.10). Ссылка на трансляцию.

Докладов 30 штук! И всё выглядит очень серьезно. Что поймаем — расскажем на канале.

Ну круто же, да? В следующем году будем готовиться с докладами, а сегодня посидим на круглом столе по безопасной разработке с нашим @codescoring.
🔥10
На пленарном заседании тоже рассказывают интересные вещи.

https://youtu.be/L7ZRV2Voee4
👍5🔥1
Data Fest Siberia 3 🎉🎉🎉

В эту субботу, 8 октября состоится долгожданная конференция Data Fest Siberia 3.

Про анализы этого нашего кода будет рассказывать Валентин Малых (Huawei Noah's Ark lab) с докладом: "AI4SE: Search by Code".

Валентин расскажет, как они применили современные технлогии NLP для задачи поиска по коду в разрезе решения продуктовой задачи.

Ну а если в целом про программу, то с расписанием можно познакомиться здесь:
https://ods.ai/events/datafestsiberia3/schedule

Будет четыре потока с крутецкими докладами, присоединяйтесь!

Мероприятие бесплатное, но регистрироваться заранее обязательно (Join и погнали!).
🔥3👍2🎉2
Подготовили и делимся с вами таймкодами стрима докладов с секции «Трансформация и анализ программ» на прошедших Иванниковских чтениях. Сохраняйте в закладках и приятного просмотра! Программа на сайте конференции.

#видоснавечер

- [video] Подходы, направленные на повышение эффективности фаззинг-тестирования компонентов защищенной ОС

- [video] Усовершенствованный фаззинг на основе грамматик

- [video] Сильно оптимистичные решения для динамической символьной интерпретации

- [video] Инструмент динамического анализа IoT-систем ELF с поддержкой символьных вычислений

- [video] Обнаружение ошибок взаимоисключающей блокировки в программах на языке С# при помощи методов статического анализа

- [video] Статический анализатор для языков с поддержкой исключений

- [video] Поиск использований освобожденного ресурса в исходном коде на языке C# методами статического анализа

- [video] Повышение точности статического анализа за счет учета значений полей класса, имеющих единственное константное значение

- [video] Обзор методов статического анализа для поиска утечек памяти

- [video] Автоматическое тестирование LLVM-программ со сложными входными структурами данных

- [video] Генерация шаблонов исправлений кода на основе репозиториев

- [video] Применение статического анализа исходного кода для поиска проблем с производительностью: примеры из практики

- [video] Построение распределения данных и генерация кода при распараллеливании на гетерогенный вычислительный кластер

- [video] Большие трансформеры для генерации кода

- [video] Автоматизация создания окружения при динамическом анализе ПО на основе полносистемного анализа с использованием QEMU

@codemining
🔥6
PiterPy 2022

Скоро стартует конференция PiterPy, и мы как члены программного комитета получили "ссылочку для скидочки" для участников CodeMining. Движухи много и вся она обещает быть не только интересной, но и полезной ;).

Доклады по бэку, тестированию, ML, DevOps & MLOps, а также Vanilla Python. Кстати, в последний мы прокрались с докладом про статический анализ популярных библиотек и выковыривание всякого интересного вместе с Николаем Марковым.

Помимо докладов планируются круглые столы про Open Source, NLP и безопасность.

Конференция включает в себя два дня Онлайна (18 и 19 октября) и один день Оффлайна (28 октября) и стартует уже на этой неделе. Записи все останутся.

Есть опция участия в формате "Community day", что дает возможность бесплатного участия во второй день Онлайн конференции, а вся конференция всё-таки стоит денег.

Для посещения конференции "по полной", организаторы сделали промокод для CodeMining, который дает неплохую скидку для физических лиц:
- 20% на Double Online
- 25% на Online + Offline

Промокод: codemining2022JRGpc
Регистрация по ссылке.
3🤩2
Searching by Code in the Instructions

На прошедшем Data Fest Siberia 3 в Академпарке был замечательный доклад про это наше AI4SE (Artificial Intelligence for Systems Engineering), и мы рады подсветить его в рубрике #видоснавечер.

Докладывался Валентин Малых из Huawei Noah's Ark lab и подсветил как саму AI4SE, так и задачу, которую они решали у себя в Лаборатории.

Сам доклад именно про NLP4SE, где вводным образом раскрыт вопрос: Codex, Codex Glue, Copilot, ну и конечно сама задача организации подсказок для разработчиков на основании данных из StackOverflow. Причем подсказок не только на основании code-запроса, но и traceback'а с которым столкнулись сами разработчики.

Приятного просмотра!
🔥32👏1💩1
Copilot & адекватность датасетов обучения

И снова про Copilot, про легальность использования open source без разбора для тренировки моделей и к чему это всё может привести.

16 октября, Тим Дэвис, профессор компьютерных наук из Техасского университета Эй-энд-эм, обратил внимание на то, что Copilot полностью воспроизвел его же исходный код который выполняет функцию транспонирования разреженной матрицы (скрин), при том, что сам код находится в библиотеке под лицензией LGPL. Заключение автора на скрине - "Not OK."

С точки зрения авторства, то здесь это всё можно обозвать цитированием и результатом той самой свободы изучения открытых кодов программ, которая дается самой слабокопилефтной лицензией.

Но негодование автора понять можно и с ним согласились многие авторы на Hacker News, но не все. Разработчики выражают скептицизм, и говорят, что "интеллектуальная собственность при бурном технологическом развитии не должна стоять на певом месте". Кхм. Комментаторы не забыли Stable Diffusion и другие новинки последних лет. Ну что, будем посмотреть.

А тем временем, уже появились активисты, которые призывают к расследованию особенностей процесса обучения Copilot на открытых исходниках, вот полюбуемся: https://githubcopilotinvestigation.com/. Авторы, в том числе, ссылаются на кейс Тима Дэвиса и призывают узнать всю правду и недопустить разрушения open source сообщества как сообщества. И в этом действительно что-то есть.

Free Software Foundation пока молчит.

@codemining
😱4🔥2
Data Halloween 2022

Когда?
29 октября, суббота, с 11:00 до 19:00+
Где: ODS Youtube + нетворкинг в spatial.chat 👀

🖖 Урра. Любимое сообщество ODS не перестает радовать новыми событиями!

В субботу будут Доклады, Изба читальня, Карьерная панелька и старая добрая классика "Собеседования в никуда", но немного в новом формате.

А ещё, сообщество CodeMining (это мы) проводит уже третий по счету конкурс на говноScary Code, в котором может поучаствовать любой желающий и получить памятный мерч от ODS.

Регистрация по ссылке:
https://ods.ai/events/halloween2022

🎃 Податься на ScaryCode

🎛 Отправить вопросики на карьерную панель.

🈯️ Показать своё резюме и получить фидбек.
🔥21😱1
Impact of Continuous Integration on Code Reviews

В рубрике #читаемстатьи, материалы с MSR'17. Исследователи из Университета Саскачевана проанализировали полмиллиона сборок тысячи открытых проектов и попробовали поотвечать на такие вот возможно внезапные вопросы (снабжаем короткими ответами).

RQ1: Влияет ли статус билдов на степень участия в ревью кода в открытых проектах?

🤨 Успешный билд скорее повлечет за собой ревью кода.


RQ2: Помогают ли частые сборки улучшить общее качество ревью кода?

👍 В проектах с частыми билдами лучше ревью кода (больше комментов).


RQ3: Можем ли мы автоматически предсказать, вызовет ли автоматизированная сборка новые ревью кода или нет?

🤔 Вроде можно — точность 64%.


TL;DR: собираться нужно чаще ;), а
подробности исследования в статье.

@codemining
👍5🔥4
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике больших открытых наборов данных The Stack [1] 3.1 терабайта 300 миллионов файлов исходного кода на 30 языках программирования с разрешающими лицензиями (permissive licenses) на его повторное использование. Опубликован на Hugging Face, кроме программных языков, охватывает около 20 естественных языков (английский, китайский, испанский, русский и др.)

Является результатом проекта BigCode [2], совместных усилий команд ServiceNow и Hugging Face․

Можно сказать что это большой шаг вперед к развитию языковых моделей для программного кода и появлению новых продуктов похожих на Github Copilot и аналоги, но, на сей раз, с соблюдением лицензионной чистоты.

А также большой тред в твиттере с рассказом об этом наборе данных [3]

Ссылки:
[1] https://huggingface.co/datasets/bigcode/the-stack
[2] https://www.bigcode-project.org/
[3] https://twitter.com/BigCodeProject/status/1585631176353796097

#opendata #opensource #datasets
🔥5
Открытая конференция ИСП РАН им. В.П. Иванникова

1 и 2 декабря 2022 в Москве пройдет ежегодная открытая конференция Института системного программирования РАН. Бесплатно. Оффлайн.

Регистрация до 24 ноября 2022:
https://www.isprasopen.ru.

Это ежегодное мероприятие на котором представляются результаты работ по разным направлениям:
1. Технологии анализа, моделирования и трансформации программ
2. Управление данными и информационные системы
3. Решение задач механики сплошных сред с использованием СПО
4. САПР микроэлектронной аппаратуры
5. Лингвистические системы анализа

Первая секция посвящена методам оптимизации в компиляторе, генерации кода, статическому и динамическому анализу программ и др. В частности, рассматриваются следующие темы:
- Обратная инженерия бинарного (исполняемого) кода.
- Выполнение программ в контролируемом окружении.
- Поиск ошибок и уязвимостей в исполняемом коде.
- Анализ сетевого трафика.
- Оптимизации в компиляторе и генерация кода.
- Статический и динамический анализ программ.
- Методы и инструменты анализа и тестирования программ.
- Запутывание программ (обфускация).

Приходите! Должно быть очень интересно. Мы тоже будем.
🔥52👍1
Пленарка ИСП ИЧ 2022.pdf
4.6 MB
ИСП РАН - а что же там такого делают?

После вчерашнего анонса открытой конференции ИСП РАН (ISPRAS Open) в личку получили вопросы, а что же это за институт такой и что они там делают?

Помимо того, что у сотрудников Института множество интересных публикаций по анализу кода и всего такого, так ещё они делают собственные технологические продукты, в частности SAST-анализатор (Static Application Security Testing), Svace, который c 2015 является основным стат. анализатором в компании Samsung и во многих других.

О направлениях исследований и планах их развития лучше всего расскажет обзорная презентация технологий ИСПа, которая была представлена в сентябре на Иванниковских чтениях. Прикладываем к посту, её озвучку можно услышать здесь.

Так что если вы ещё не зарегистрировались на ISPRAS Open, то самое время это сделать до 24 ноября.

@codemining
👍4🔥4👏1
На ISPRASOpen обнаружено прекрасное. Музей вычислительной техники в Великом Новгороде.

https://sohraniteli.ru/museums/muzej-istorii-vychislitelnoj-tehniki/

Очевидцы говорят, что все можно пощупать и пощелкать релешками.

А так, внутри вас ждет:
+ Вычислительная техника: компьютеры, калькуляторы, игровые приставки. Всего около 100 компьютеров, 20 приставок и нескольких десятков калькуляторов.
+ Самодельный компьютер на электромагнитных реле по технологиям 1940х.
+ Переносной компьютер весом 9 килограмм.
+ Клоны первой игровой приставки Pong.
+ Плата от суперкомпьютера БЭСМ-6.
+ Первая домашняя игровая приставка с картриджами.

Продолжаем наблюдения.
🔥9👍3
Forwarded from ODS Events
Привет!

Уже в эту субботу, 17 декабря, мы будем подводить итоги года на нашем ежегодном событии - Data Ёлке.

#stream: Мы проведем YouTube стрим, наш Data Дед Мороз и его гости - расскажут что же полезного и интересного произошло в отрасли DS и ML. Регистрируйся по ссылке!

🎁 #gifts: У тебя есть отличный шанс получить подарок от ODS: помоги определить лучших, участвуй в голосовании за треки, секции, видео, статьи, соревнования и менторов. Среди голосовавших мы обязательно разыграем наш мерч!

🤩#gigameetup: Параллельно YouTube стриму в ODS спейсе spatial.chat пройдет супер-насыщенный митап от хаба Reliable ML по AB testing & Causal Inference. Приходи, программа на весь день!

😍#networking: Помимо митапа, в spatial.chat в комнате On-site test пройдут всеми любимые собесы в никуда.

🎄#offline: для тех, кто готов встретиться живьем в offline, в среду 21 декабря пройдет нетворкинговая Дата Ëлка в Новосибирске от ODS Siberia

Присоединяйся 😊
4🔥4🎉1
А вот тут Татьяна Шаврина читает текст лицензии нашумевшей chatGPT, всвязи с чем вспоминается новость из начала года про анализ лицензий популярных сивишных датасетов. Короче, внимательнее, друзья.
😱2
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #лицензии
Захотела изучить лицензию chatGPT, по сути Terms of Service OpenAI.

Конечно, открытой лицензии никто и не ожидал, но формулировки покруче даже, чем в неоткрытом RAIL:
🔹 выводы chatGPT нельзя использовать для обучения своих моделей
🔹 нельзя пытаться реверс-инжинирить, получить исходный код модели, какие-либо сведения о её работе
🔹 нельзя веб-скрапить вывод модели, собирать скриптами, селениумом и тд.

В общем, господа присяжные заседатели.... 🙀

Хорошая новость:
нам даются очень широкие права на использование контента:
OpenAI hereby assigns to you all its right, title and interest in and to Output
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1🤔1
2025/07/10 23:09:37
Back to Top
HTML Embed Code: