AbstractDL

🔥 DINO 🦖

Facebook AI представила метод самообучения для моделей Vision Transformer.

Ребята из Facebook AI предположили, что трансформеры выстрелили в NLP именно из-за использования self-supervised pretraining (BERT, GPT), а в CV всякие ViT используют для обучения разметку, которая портит всю магию.

В итоге они придумали DINO (self-DIstilation with NO labels). Эта штука ОЧЕНЬ сильно бустит ViT и даже позволяет полностью без разметки (даже без лэйблов) научиться сегментировать объекты на картинках! По сути сегментация извлекается из attention maps. А если потом дообучать или хотя бы использовать фичи от замороженной модели то вообще получаем SOTA результаты на куче задач!

Код и предобученные модели выложены на GitHub.

🔥1

831 viewsedited 12:11

DINO 🦖 step by step

1. Берём две одинаковые модели с разными инициализациям, одну называем учитель, вторую ученик.
2. Подаём на вход обеих моделей разные кропы одной и той же картинки.
3. Центрируем аутпуты на ноль и применяем софтмакс с температурой.
4. Считаем CrossEntropyLoss между аутпутами учителя и ученика.
5. В учителя градиенты не пускаем, учится только ученик.
6. Веса учителя обновляются как экспоненциальное сглаживание весов ученика по времени.
7. Profit!

694 viewsedited 12:14

StyleCLIP

Что будет если соединить CLIP и StyleGAN?
Можно будет генерировать и модифицировать лица по текстовому описанию!

Как это работает?
1. Берём исходную картинку и инвертируем её стайлганом, находя соответствующий латентный вектор.
2. Итеративно оптимизируем вектор лица так, чтобы CLIP говорил, что она похожа на текстовое описание.
3. Не забываем про регуляризацию.
4. Готово :)

Статья, GitHub, Colab.

P.S. Я тоже потыкал в их колаб и получил пару криповых видосов. Угадайте какой текст я использовал в примере ниже😅

🔥1

693 viewsedited 12:15

1.06K views12:16

FaceX-Zoo: A PyTorch Toolbox for Face Recognition

Это очень крутая библиотека для распознавания лиц. Кажется, что в ней собрано вообще всё: и фейс детекторы, и алайнеры, и тесты, и, собственно, face recognition модели (в т.ч. предобученные).

Теперь, чтобы приступуть к серьёзной работе с распознованием лиц, достаточно просто сделать git clone.

Статья, гитхаб

680 viewsedited 13:20