Заметки Computer Vision инженера 262

Заметки Computer Vision инженера

Сегодня будет ЭПИК.
Видео продумывал/записывал последние месяца 3. Кажется, что это просто супер полезный референсный материал для выбора 3Д камеры. Можно посмотреть на картинку, сравнить и понять что нужно. Плюс, с учетом 10 лет опыта работы с разными 3Д камерами подсказываю куда смотреть чтобы не оплошать.
Не забывайте лайкать на ютубе, чтобы все кому это будет полезно увидели этот гайд!
https://youtu.be/JmZdSGtJHNw

YouTube

RealSense vs. OAK vs. ZED vs. Azure Kinect vs. Mech Mind 3D cameras comparison

Comparison for 3D cameras from Aivero - https://aivero.com/overview-of-depth-cameras/ (the best right now)
A lot of thanks to Christian, who helped with this video - https://www.linkedin.com/in/crokseth/
My article about physics behind cameras - https://…

6.3K views06:45

Заметки Computer Vision инженера

Please open Telegram to view this post

VIEW IN TELEGRAM

6.1K viewsedited 15:10

Заметки Computer Vision инженера

Поговорим о Gr00t.
Gr00t - это Foundation Model для роботов (с некоторыми пайплайнами тренировки). Предполагается что будет большой эмулятор на базе Isaac Lab через который можно будет тренировать роботов. “Прорыв”, “новый мир” и прочие замечательные слова от человека в кожаной куртке. Итак, мысли:
1) История говорит что у Nvidia чем сложнее программный продукт, тем меньше вероятность что им кто-то будет пользоваться. Самые массовые - CUDA и TensorRT, которые максимально простые. Deep Stream вызывает уже много вопросов. TAO и прочие попытки автоматизировать обучение вызывают скорее смех.
2) Многие знают про треш в который вырождается разработка на ROS. А тут мы имеем двадцать роботов. Скорее всего ROS-не совместимых и проприетарных. Это реально сложная архитектурная и технологическая задача.
3) Где-то я слышал шутку, что когда вы делаете генератор данных для тренировки, то вы умножаете команду на два. Кроме DS команды вам теперь нужна команда по созданию энвайромента, его настройке и.т.д. Что-то намекает что с Gr00t будет так же. Для больших компаний этот подход позволительный, но все компании размером до сотни человек будут старательно его избегать.
4) One Shot learning. Посмотрите видео ниже ⬇️ (сейчас загрузиться). Это наша текущая система едет из точки A в точку B. При этом, для обучения достаточно даже одного примера. One-Shot Learning развивается с огромной скоростью. Да, под Gr00t это и будет в каком-то смысле Fondation Model. Но если он будут достаточно хорош и универсален - зачем нужен симулятор, когда можно обучиться с несколькими реальными примерами?
5) Если мы посмотрим то что публичила Тесла - то можно увидеть что все же большая часть обучения построена вокруг реальных данных. Симуляция - это скорее про корнер кейсы. И машину вы без этих корнер кейсов не выпустите. Но надо ли тратить так много ресурсов для роботов, где ошибки допустимы?

А что думаете вы?:) У кого-то был опыт с большими симуляторами и роботами? Рассказывайте! Удавалось ли вам мейнтейнить их командой меньше чем была в ML?

6.7K views09:03

Заметки Computer Vision инженера

1:42

Media is too big

VIEW IN TELEGRAM

Видео к тексту выше⬆️. Это то как сейчас у нас ездит робот. Достаточно раза два проехать по маршруту и он его запоминает. Идеи точно то же что мы использовали пару лет назад для задач Pick-and-Placment, но несколько оптимизированные и более продуманные. Наверное как-нибудь запишу видео и про это, но пока рано.

6.9K viewsedited 09:04

Заметки Computer Vision инженера

Всем привет!
Несколько обновлений про канал и вокруг (что бы не делать, только бы не выкладывать следующее видео про RK3566).
1) Я планирую посетить конференцию Embedded World в начале апреля. Там явно будет много девайсов интересных. На канале попробую на эту тему какое-то видео/пост собрать. Несколько вопросов:
а) Знаете ли вы что-нибудь что там обязательно надо посмотреть?
б) Будет ли там кто-то из подписчиков канала/хочет ли пересечься?
в) Хочет ли кто-то из тех кто там будет рассказать/показать свой проект под видео?

2) В последнее время про рекламу на канале пишут почти каждый день. Даже не смотря на то что в описании все расписано. Хотел бы напомнить правила про рекламу. В обычных форматах её тут не будет.
Что нужно чтобы реклама тут появилась? Нужно чтобы был контент из которого 90% было интересно и полезно. А в остатке можно донести свой месседж. Вот тут примеры таких форматов.

6.3K views10:19

Заметки Computer Vision инженера

Так. Я сделалъ.
Видео про Radxa Zero 3W. В целом годиться для любых RK3566.
Если в паре слов:
1) Плата хороша по своему балансу "цена/скорость/потребление"
2) Плата неприятна так как это Radxa. Все что касается системы - сырое, глючное, бажное.
3) Плата внезапно медленнее чем 3568NPU. Хотя по документам должна быть одинаковыми.
https://youtu.be/e_BtAdS5M70

YouTube

Running Computer Vision on RK3566 (Radxa Zero 3W, 3E)

00:00:00 - Intro RK3566 - Radxa Zero 3W
00:00:20 - Cameras for comparison
00:01:12 - How to configure the board for RKNN (system set up )
00:02:51 - Driver patching
00:03:55 - Computer Vision speed
00:06:11 - CPU speed
00:06:27 - Temperature balance
00:06:45…

6.6K views18:24

Заметки Computer Vision инженера

Сегодня уже во всех каналах появилась эта новость с криками "они делали фейк!1!!1!"🤦‍♂️. (Amazon Fresh, магазин без касс)

Советую от таких каналов отписываться сразу, если они про ML:)
Видео о том как такие магазины работают я делал ещё 2 года назад . Так что тем кому интересно подробности - прошу туда.

Если в двух словах:
1️⃣ Решение чисто с камер невозможно сделать с 100% точностью. Увеличением числа камер (в том числе с 3Д компонентой) можно улучшать точность до достаточно высокой. Так же можно улучшать точность за счет аккуратной выкладки. Но и то и то снижает экономическую эффективность магазина (дороже система, выше цена разработки, выше цена эксплуатации).
2️⃣ Решение можно сделать с почти 100% точностью, но тогда в каждую полку надо встраивать весы. Но это тоже повышает цену эксплуатации и обслуживания. Появляются ограничения на товары, и.т.д.
3️⃣ Как результат - большая часть компаний делает на камерах, но оставляют в системе человека. Несколько вариантов как их используют:
A) Проверять треки людей, верифицировать покупки. Почти все делают это на этапе внедрения.
B) Смотреть только те треки где пользователь нажал кнопку "не сошлось".
C) Проверять взаимодействия с товаром когда где-то что-то не сходиться, подозрительные треки.

Так же, надо всегда дообучать. Появляются новые товары, могут быть новые регионы мира где используют другую одежду, может меняться дизайн магазина, и.т.д. Меня смущает что они говорят про 1000 разметчиков. Но может быть у них там партайм.

Но главная проблема - это косты и продуктовая задача.
1) Вся это система нужна для уменьшения числа продавцов. Но скорее всего отказаться полностью от них будет нельзя, а цена покупки + цена поддержки будет больше цены продавца.
2) Вся эта система не может защитить от воров. Её достаточно просто можно обмануть. А если система не предназначена для защиты от воров - почему не поставить киоски самосканирования на выходе, либо "умные тележки"?

Как результат - почти все ушли в сторону киосков с защитой от обмана или умных тележек. Именно это сделал Амазон. Именно так ещё раньше сделал Х5, именно так сделали ещё куча компаний.
ML - это обычно не про создание чего-то нового, а про оптимизацию процессов.

8.0K views12:37

Заметки Computer Vision инженера

Всем привет!
Я достаточно давно подписан на канал Евгения ( Нескучный Data Science ). Мне всегда любопытно смотреть как в разных компаниях выстраиваются DS отделы. А Евгений строит его в Альфе. В какой то момент разговорились и забились записать видео на тему того чем ML в банке отличается от ML вне банков (в первую очередь про стартапы). Получился, как мне кажется, интересный разговор
https://youtu.be/ooBvGEZIlzs

6.0K views14:11

Заметки Computer Vision инженера

Пара мыслей🧠.
1️⃣) Вернулся с Embedded World. Очень интересно было. Кажется, что с компаниями 30-40 пообщался.Наверное, было ещё много с кем можно поговорить. Но даже так - немного подвыгорел:) Главный вывод - производители железа начали поворачиваться лицом к разработчикам. Много в каких компаниях появились специалисты по ML, которые внутри компании говорят как должно выглядеть взаимодействие. Приходишь и нормально говоришь с компанией про обучение, инференс, проблемы экспорта моделей, CI/CD, и.т.д.
Все эти вопросы ещё года 3 назад прятали под скатерть. Такие компании остались. Но 80% научились коммуницировать. Скоро на канале будет 4 коротких видео про конференцию, про самые интересные компании.

2️⃣) Сейчас сижу разбираю записи, и смотрю в фоне вот это видео Осетинской про стартапы после начала войны. Очень рекомендую. Сам думал про несколько маленьких частей оттуда рассказать, но настолько всеобъемлюще и полно не хватило бы сил. Там показано как в реальности сейчас выглядит бизнес и стартапы в последние два года. Рассмотрено очень много вещей про которых в сообществах разработчиков ходят сказки. "Я буду работать из РФ на иностранных заказчиков!" - нет, так не работает кроме очень редких исключений. "Кому я за рубежом нужен/кто мне платить будет" - тоже показано десятки вариантов как это все решается. Показаны основные проблемы, как складывается сообщество, как работает логика и люди. Да, не рассмотрено про сложности платежей в современном мире. Но остальное неплохо. Только учитывайте что у разных людей и разных компаний разные взгляды на мир. И все частично верны, истина посередине.

5.9K views11:46

Заметки Computer Vision инженера

Как и обещал начинаю публиковать видео с конференции. И сегодня небольшое интервью с Axelera AI
https://youtu.be/90yxtp8NmXw

Сразу предупрежу что на выставках звук не супер. И хорошую аппаратуру не было сил тащить. Но как-то попробовал вытащить дополнительными микрофонами и постпроцессингом.

Несколько комментов от меня. Мне кажется что Axelera - это один из главных конкурентов Hailo на Edge. Основной минус - они пока что ещё не продают по полной. Только девборды. Но mix-precision выглядит чуть ли не киллерфичей.

YouTube

Axelera.AI - A short interview about technical details on Embedded World.

https://www.axelera.ai/

00:00:00 - Intro
00:00:46 - Main part

My LinkedIn - https://www.linkedin.com/in/maltsevanton/
My Telegram channel - https://www.tg-me.com/CVML_team
e-mail: [email protected]

5.7K views13:05

Заметки Computer Vision инженера

Второе интервью с Sima.AI.
На мой взгляд это чуть более полное решение чем Axelera. Но по впечатлением и ценам это чуть дальше от Edge инференса. В любом случае рассказывают супер интересно и на вопросы отвечают очень хорошо. Там было сильно больше одного технического специалиста, потрепался со всеми:)
https://youtu.be/UpV6W9V7qMc

YouTube

Sima.AI - A short interview about technical details on Embedded World.

https://sima.ai/

00:00:00 - Intro
00:00:46 - Main part

My LinkedIn - https://www.linkedin.com/in/maltsevanton/
My Telegram channel - https://www.tg-me.com/CVML_team
e-mail: [email protected]

4.9K views10:08

Заметки Computer Vision инженера

Погнали дальше.
STM32. Легендарные платы. Кажется я помню их ещё с института. Но ребята хотят двигаться и резко ускорились в AI. Причем сделали все по человечески. На NPU инферятся слои которые могут. Остальное автоматом улетает на GPU. На сайте STM бесплатно можно пробенчмаркать сетку на реальном железе (о боже я ждал этого много лет, даже пробовали такой стартап запустить).
Из минусов и пока непонятного:
1) Достаточно слабый NPU пока, достаточно слабый проц.
2) Не смотря на то что есть Python - пока не упоминается как-то основной дистрибутив Линукса. Но, если я правильно понимаю, STM имеет свою экосистему пакэджей.

Из забавного - она построена поверх VeriSilion. Но уверяют что переписали почти весь иняеренс с нуля. Посмотрим.

Короче очень интересная плата чтобы потестить самому.
https://youtu.be/kY3krMPSzO4

YouTube

STM32MP2 - A short interview about technical details on Embedded World.

STM32MP2 - https://www.st.com/en/microcontrollers-microprocessors/stm32mp2-series.html

00:00:00 - Intro
00:00:46 - Main part

My LinkedIn - https://www.linkedin.com/in/maltsevanton/
My Telegram channel - https://www.tg-me.com/CVML_team
e-mail: [email protected]

6.6K views08:50

Заметки Computer Vision инженера

И, завершающее большое видео из серии про Embedded World. Обзор на тему "как изменился рынок AI-бордов, какие тренды, какие платы появились, как изменились старые". В целом очень сильно в этом году меняется рынок. Есть очень много новых сильных бордов. Посмотрим, сможет ли кто-нибудь из них обойти Рокчип:)
https://youtu.be/zzOOUG3xjdw

YouTube

Computer Vision Inference on Embedded World 2024

00:00:00 - Intro. Embedded World 2024.
00:00:46 - Axelera, SiMa, STM32 - separate videos
00:01:01 - How the market is changing
00:01:56 - INT8 or FP16
00:03:02 - Clarity of product
00:04:04 - Jetson is not the leader anymore?
00:04:45 - Fondation…

6.6K views05:49

Заметки Computer Vision инженера

0:29

Media is too big

VIEW IN TELEGRAM

Последний пост про Embedded World 2024.
Кроме производителей NPU на выставке я общался много с кем. Было несколько вендоров роботов, несколько вендоров 3D камер. И прочее и прочее. Но про одно общение я расскажу тут. Натолкнулся я на компанию PROPHESEE. Делают камеры которые стримят не картинку а "движения" + "направление движения". Экий доплер / opticalflow считающийся на девайсе. Кажется, я видел аналогичные камеры ещё лет десять назад. Концепт в том что такие системы могут иметь куда меньшее latency чем реальные камеры + большую чувствительность.

Но вот то что такие камеры я видел десять лет назад но ни разу не использовал - дёрнул меня за язык спросить: "а какие задачи можно решить вашей камерой которые нельзя решить обычной?".
Продолжение дискуссии тут - https://telegra.ph/PROPHESEEEmbedded-World-2024-04-21 :)

А вы такое когда-то использовали? Есть мысли что я пропускаю? Зачем делать такой странный маркетинг не относящийся к реальности?

7.2K views13:29

Заметки Computer Vision инженера

Milk-V Duo Review. Плата за 5 баксов с мощным процом для Computer Vision.
Ох. Меня просили долго это сделать. Ещё дольше я делал этот обзор. Кажется что весь ресерч я сделал ещё недели 3 назад, потом долго писал тестил перепроверял все. Из плюсов - это лучшее расследование за последнее время. Одна из тех китайских плат с которых выгорает пукан.
Будут ли её использовать? Не думаю. Но это намекает что Computer Vision уже пришёл на тот Edge где его не ждали ещё и год назад.
https://youtu.be/dkIVDOd_Fa4

YouTube

Milk-V DUO. Is it good for computer vision? How to start neural network on it?

00:00:00 - Intro.
00:01:15 - Let's start the investigation!
00:01:35 - Two pluses: price and fp16
00:02:14 - Hmmm... Milk-V documentation
00:04:28 - The only example is for Yolov5?
00:06:09 - Is tpu-mlir documentation is the answer? sophon?
00:07:17…

7.0K views00:19

Заметки Computer Vision инженера

Всем привет!
Какое-то время назад ребята из одной онлайн-школы попросили прочитать у них лекцию на тему NPU. Школу я считаю в целом норм, так как знаю лично много преподавателей оттуда (а Андрей, например даже интервью на канале давал). А видео на эту тему давно и так планировал снять. Так что согласился им прочитать лекцию, заодно это меня замотивировало сделать слайды на эту тему. У себя на канале выкладываю на английском, а русскоязычную версию ребята выложат у себя как смонтируют. Тогда на неё ссылку тут тоже дам.
В целом, попробовал рассказать общую логику про NPU on the Edge: что общего есть у разных платформ, чем они отличаются, что надо не забывать делать и где вас ждут проблемы.
https://youtu.be/mlXJ44XM9mo

YouTube

Computer Vision on NPU - all you need to know

00:00:00 - Intro.
00:00:35 - Difference between NPU, CPU, GPU
00:02:24 - Why NPU? Main advantages.
00:04:17 - NPU / LPU / TPU / VPU / DLA / BPU / DPU / IPU / VPU
00:05:40 - Main Vendors (Intel, Nvidia, Hailo, Axelera, Qualcomm, RockChip, etc)
00:07:36…

6.1K views11:29

Заметки Computer Vision инженера

За последнее время накопилось достаточно много опыта взаимодействия и разработки под Hailo-8. Решил записать видео и рассказать про него. Какие плюсы и минусы, чему можно доверять, чему нет. В целом, это одна из моих самых любимых платформ.
Все хорошо документировано, почти все работает из коробки, хорошая производительность. И прочее и прочее.
Но, конечно, есть подставы и засады. В этом видео попробовал рассказать про все и про то как пробовать их обходить.
https://youtu.be/n6ePp5-ceLg

YouTube

Unlocking Hailo: Expert Insights and Practical Tricks (works on Raspberry Pi!)

00:00:00 - Intro.
00:00:33 - Hailo overview: Hailo-8, Hailo-15, Hailo-10
00:01:12 - Hi-level opinion
00:01:41 - The main idea about Hailo usage. Where to use it? RPi?
00:03:27 - The most important topic: Quantization
00:05:57 - Supported models. What…

5.5K views00:23

Заметки Computer Vision инженера

Небольшая история забавная + инсайт про которого официального анонса не смог найти (Новый OAK похоже будет на базе Qualcomm).

Я думаю что половина подписчиков знает что такое камеры Luxonis (OAK-1, OAK-D, etc). Это неплохие стереокамеры с инференсом нейронок на борту. Они появились ещё году в 19ом. Это был один из первых производителей который захотел сделать удобную AI камеру. Проблема была только в одном. Они решили использовать Myriad X который уже в то время не был новым продуктом. Но оно зашло. Удобное для использования, хорошая поддержка, совместимость с OpenVino, итд.
Шли годы. MyriadX становился все позорнее и позорнее. У него был апдейт Movidius Keembay. Но в серьезных продуктах его никто не видел, да и он тоже 2019 года был, ещё и с деприоритезацией от Интела. Наконец Интел захотел догнать рынок и выпустить Thunder Bay. Вроде как даже разослал семплы партнёрам.
Иии... После того как партнёры вложились в разработку железа - отменил:) Кажется что на прошлом Embedded World я раза 3 матюки слышал на эту тему.

На дворе 2024 год, а OAKи все ещё используют MyriadX. Давно ходили слухи что они уже пробуют выпустить следующую плату. Даже на сайте появилась вот эта табличка. Мне недавно стало интересно - а на базе чего они пилят? Инфы нет нигде. Официально они тоже отказываются отвечать на эту тему. Но вдруг я догадался пробить по спекам (число TOPs на NPU). И это похоже QCM8550.

Если это так - то это будет первый массовый Edge продукт на Qualcomm с возможностью разработки который я знаю. Да, на квалкомах много интересного есть, я сам пару раз с ними работал. Но вот такого девайса чтобы "купить и потестить/применить в гараже" - разве что треш-платы по типу RB3.

Так что надеюсь на скорый анонс и возможность купить.

5.7K viewsedited 08:40

Заметки Computer Vision инженера

Последние два года я участвую в жюри ТехноТекста Хабра. Немножко мыслей по поводу этого года, так как пару дней назад закончил оценку шорт листа.
1) Статей стало реально дофига (20 vs 50). Хороших много, не меньше чем в прошлом году.
2) Кажется, что статей уровня "вот круто, прямо вообще" не стало. В прошлом их было две, если я правильно помню (и ни одна из моего топа в прошлом году не заняла первое место).
3) Кажется, что сильно больше статей стало от больших компаний. Особенно хороших. Число статей от индивидуальных людей - уменьшилось. От компаний более 20 статей. От одного Яндекса - 9.
4) Побыть в жюри - хороший рекап на тему "что я пропустил в этом году на Хабре":)

Пара заметок относительно конкурса и организации.
1) Была непонятная разбивка на Junior/Senior/Middle. Кто-то подумал что это про читателей а не про уровень автора. В результате в джуны записался автор Seeall, парочка CTO и прочее-прочее:) Не знаю как будут организаторы расхлебывать, скорее всего просто отменят разбивку.
2) В этом году крупные компании спонсировали конкурс и массово участвовали в нём своими статьями. В результате в шорт лист попало много статей по уровню "пресс-релизов", что смешно:)

А вы читаете ещё хабр? Пишите? Как он вам в 2024?
Я стараюсь 1-2 статьи в год там выложить, но что-то прошлого драйва это уже не вызывает. Зато вот участвовать в жюри - интересно:)

6.7K viewsedited 13:51

Заметки Computer Vision инженера

Не смог удержаться!
YOLOv10, этож прямо юбилей!! 🎉🎉🎉
https://youtu.be/HKbJFykrynM

YouTube

Gonzo trip into YOLOv10!

00:00:00 - Intro.
00:01:15 - Let's look on the article
00:03:12 - Values:
00:03:26 - Accuracy
00:04:46 - Support
00:06:05 - License of Yolo v10
00:07:33 - Easy?
00:08:00 - When I should use it? Summary

What is your favorit YOLO? Yolov3, Yolov4…

7.6K views01:31

2025/07/01 17:22:35
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>