Заметки Computer Vision инженера 342

Заметки Computer Vision инженера

Апдейтнул гайд по тому как запускать нейронки на рокчипе. Какие есть репозитории, какая в них общая логика, как настраивать платы, и.т.д.
За последний год появилось много нового и интересного. Появилось много экспортированных сеточек, почти для всех неплохо описана логика изменений.
https://youtu.be/Mm9eJoqXuto

YouTube

How to run neural networks on RockChip in 2025 (rknn-toolkit, rknn model zoo, rkllm).

00:00:00 - Intro
00:00:49 - General logic system preparation (RKNN-Toolkit, RKNPU, etc.)
00:03:29 - Difference with one year ago
00:04:40 - The process: step by step
00:07:35 - Don't use PyTorch for inference! How to avoid.
00:09:53 - Models overview
00:14:30…

6.0K viewsedited 10:11

Заметки Computer Vision инженера

Представим ситуацию. К вам приходит заказчик. Сколько времени тратить на разговоры? Надо ли чарджить с первой минуты или можно разобраться в ТЗ и бесплатно сделать оценку проекта? Кажется что должен быть простой ответ. Но нет. Разные бизнес модели предполагают разное взаимодействие, разные ответы и разные разговоры. Я попробовал немного описать свой взгляд и восприятие - https://youtu.be/ej1BmC6w7a0

YouTube

Сколько тратить времени на разговоры в Computer Vision?

Мой основной канал @AntonMaltsev
Мой TG канал - https://www.tg-me.com/CVML_team

5.9K views12:51

Заметки Computer Vision инженера

Всем привет!
Раз в год я публикую статистику канала. Немножко сумбурно получилось в этот раз и без цельной канвы. Но кажется фанатам статистики должно зайти:) Попробовал собрать много приколов. Огромное спасибо всем кто отвечал на вопросы которые я задавал в канале.
Очень интересно было читать ответы и комменты. Часть попробовал отразить в тексте.
https://telegra.ph/Statistika-kanala-20242025-12-23
И один вопрос напоследок. Что на ваш взгляд было главное событие в 2024 в мире Computer Vision и вокруг?

Telegraph

Статистика канала 2024/2025

Всем привет! Традиционно в конце года хочу подвести статистику канала. На всякий случай, вот статистика за прошлые годы:2023/2024 2022/2023 Под каналом я подразумеваю: TG канал. Рост подписчиков 4000 → 5324. Youtube. Рост подписчиков 4100 → 6289. LinkedIn.…

6.4K views10:52

Заметки Computer Vision инженера

Небольшое видео с результатами года. Что интересного произошло, какие тренды, куда смотреть. Пригласил Васю обсудить и поговорить какие тренды сейчас работают а какие нет.
https://youtu.be/PnkL8k3BBPg
Если что, на Васин LI можно подписаться тут. Он периодически рассказывает что-то интересное про роботов там.

YouTube

Итоги 2024 года в CV и ML. Что было, что ждём.

00:00:00 - Вступление
00:00:49 - Визуальные модели (VLM, LVM)
00:05:55 - Видео генеративные модели
00:11:10 - Закон скейлинга. Перестал ли он работать? Что такое O1, O3?
00:16:43 - Новое и старое железо: Groq, Nvidia, RockChips, etc.
00:23:26 - Регуляция.…

7.3K viewsedited 09:47

Заметки Computer Vision инженера

Пару дней назад вышла модель Stable Point Aware 3D от StableDiffusion. Сама по себе модель не то чтобы очень полезная. Но зато хороший пример поговорить про ограничения таких моделей. Это полезно и для ChatGPT и для других генеративок
https://youtu.be/VsRVCWZrK0s

YouTube

The Dark Side of AI. Stable Point Aware 3D example (SPAR3D)

My LinkedIn - https://www.linkedin.com/in/maltsevanton/
My Telegram channel - https://www.tg-me.com/CVML_team
e-mail: [email protected]
Twitter - https://twitter.com/Serious_WK

7.0K views09:24

Заметки Computer Vision инженера

Уже достаточно давно я хотел протестировать NPU-шки от TI. Но как-то не срасталось. То было слишком устаревшее в продаже. То слишком дорого с доставкой получалось. То куча других плат в наличии.
Да и с документацией, как-то странно. Каждый разговор с представителями TI или соседних плат вызывал некоторый уровень недосказанности.
Но, тут я понял что TI плату можно потестить онлайн (ну, типа того). Собственно видео про это;)
https://youtu.be/NJSqmMEdc5c

YouTube

Usage of Texas Instruments (TI) NPU for Computer Vision

00:00:00 - Intro
00:01:58 - How can everyone test the TI board? (AM62A, AM68A, AM69A, TDA4VM)
00:02:34 - Or the Intel Board?
00:04:00 - Pros for TI NPU boards: ready-made server, ONNX-Runtime (export, inference). A lot of models.
00:08:42 - Cons. Overcomplex…

7.6K views12:37

Заметки Computer Vision инженера

Последние месяцы было много инсайтов про то насколько сломаны современные бенчмарки в LLM-ках. Попробовал собрать все в одном месте + докидать несколько логичных заключений - https://youtu.be/Vis2CRoQ52o
Расскажите о ваших проблемах и наблюдениях тоже:)
(я не знаю почему сломались превью в телеге, как починиться апдейтну пост)

6.0K viewsedited 09:45

Заметки Computer Vision инженера

Смехуёчки смехуёчками, и очевидная глупость (нет ничего уникального в этих консолях, чтобы там выламывать). Проще взять новый Intel/AMD.

Но вспомнил смешную байку. Году в 2013 одна компания с которой я был знаком скупала игровые приставки с Nvidia Tegra чтобы её оттуда выломать:)
Не то что это был единственный путь, но эти приставки стоили дешевле чем покупать Nvidia чипы официально партиями по 100 устройств и ждать поставку по пол года.
Зачем надо было это делать? В тот момент стало понятно что можно сделать дешевый M2M протокол если хватит производительности.
Edge девайсов тогда особо не было производительных. Большие компы были дорогими, большими, потребляющими.
В то же время алгоритмы хорошо параллелились, и CUDA спасала положение. Дешево, не греется, маленький размер.

Так что да, иногда купить дешевый хлам и выломать оттуда плату - это вариант. Но не тут:)

5.6K views16:58

Заметки Computer Vision инженера

Ок. Последняя неделя богата на LLM-ки. DeepSeek супер классный, но тут я про него ничего рассказывать не буду. А вот Qwen2.5VL - это просто супер прикольно. Мы уже много где использовали Qwen2VL. Так что было очень интересно посмотреть и потыкать.
Глобально, разница одна - детекция. Теперь не надо много думать и комбинировать пару сеток вместе.
https://youtu.be/YjbnSAyk56g

YouTube

Qwen2.5-VL - short overview for a real tasks

00:00:00 - Intro
00:00:59 - The main difference between Qwen2-VL and Qwen2.5-VL
00:02:26 - Why Qwen2.5-VL is not the best decision for a lot of tasks
00:04:49 - Where Qwen is working and not working

My LinkedIn - https://www.linkedin.com/in/maltsevanton/…

6.0K views21:57

Заметки Computer Vision инженера

Давно хотел потестить AMD NPU и наконец добрался. В целом, скорее, я приятно удивлён. Видна рука большой компании. Много не доделано, но:
1) Сделано крайне по-человечески: есть вся документация, проблемы не встречены
2) Очень много поддержано
3) Видно развитие

Понятно, что для полного впечатления надо на этом что-то загнать в продакшн. Квантизация может испортить настроение. Но для "взял потетстить" оно прямо на топ-топ уровне.
https://youtu.be/mqtjsYAByEg

YouTube

Running AI on AMD NPU

00:00:00 - Intro. Is AMD - Edge device?
00:01:14 - What is this video about?
00:01:42 - General description of the framework / Ryzen AI / AMD Quark / Vitis AI
00:02:34 - Pros
00:03:41 - Cons
00:05:27 - Basic pipeline / Export / Quantization / NPU
00:08:00…

6.7K views02:12

Заметки Computer Vision инженера

С одной стороны мне очень нравится современная робототехника. Очень много чего появилось нового. Явно расширились границы. Явно падают цены. Люди начинают смотреть на это не как на что-то из другого мира.
Но в то же время область сейчас супер перегрета. Хайп значит больше чем реальность. Люди не видят разницы между тем где реально AI и видео с вечеринки Теслы где был телеоп.
Решил в этом видео подсветить реальные проблемы роботов сегодня. А если зайдёт - сделаю продолжение на тему того что есть кроме хайпа:)
https://youtu.be/Fi7abF18pQ4

YouTube

AI in robotics. How real is it?

00:00:00 - Intro. Is robotics fake?
00:00:40 - Fake availability
00:01:42 - General description of the framework / Ryzen AI / AMD Quark / Vitis AI
00:04:11 - Fake: teleop and trajectories
00:05:16 - Real algorithm problems

My LinkedIn - https:/…

6.7K viewsedited 00:52

Заметки Computer Vision инженера

Давно хотел добраться до VLM'ок на NPU.
У Рокчипа оно появилось ещё в декабре. Но из-за проблем с драйверами запустить было сложно без удаления системы с той борды которая мне была нужна. Но в какой-то момент вышло новое ядро - и я наконец смог проверить.
Кажется, что это первая плата за исключением Jetson где такое стало возможно.
https://youtu.be/iTq1m2ro6xg

YouTube

RKNN LLM - Running QWEN 2 VL (RK3588)

00:00:00 - Intro.
00:01:20 - How to prepare your RockChip board: drivers (Armbian or Core update)
00:02:48 - Qwen2-VL main guide
00:04:27 - Inference script
00:05:02 - Inference speed (current and how to optimize)
00:07:30 - How to use this in the real…

6.0K views11:01

Заметки Computer Vision инженера

Как я и обещал в позапрошлом видео - видео о том что в роботах сегодня всё же хорошо:)
Краткий обзор почему это возможно будет следующей большой штукой. Ну, или по крайней мере почему это хорошо работает сейчас;)
https://youtu.be/QHKd-GYB6X4

YouTube

Where is the REAL progress in Robotics in 2025?

00:00:00 - Introduction.
00:00:27 - Robot Pricing in 2025
00:02:10 - Algorithms
00:05:21 - Summary: Where Everything Works Well.

My LinkedIn - https://www.linkedin.com/in/maltsevanton/
My Telegram channel - https://www.tg-me.com/CVML_team
e-mail: [email protected]…

6.2K views02:03

Заметки Computer Vision инженера

1:17

Media is too big

VIEW IN TELEGRAM

Когда-то я тут рассказывал про наш стартап, RemBrain. Но давно не было апдейтов. Давайте немного покажу-расскажу.
Где-то года два с половиной назад мы поставили проект на паузу. Не полную, но активности свернули. Стало понятно что в прошлом варианте идея не будет работать, а на новый не хватало сил.
Но в конце прошлой весны он восстановился в другом виде - wyyt. Роботы стали ещё дешевле и доступнее, алгоритмы ещё лучше и проще. В проект пришло много новых людей, фокус сместился на US, все переформатировалось.
Я сейчас несколько уменьшил участие по сравнению с тем как было раньше, скорее консультирую и помогаю с разными мелочами. Но все равно хочу поделиться показать:)
На видео подборка того что мы умеем делать из наших демо роликов. Понятно что это все one-shot. Что-то обучено за 15 минут, что-то за пару часов. Accuracy зависит от времени обучения и сложности, но для хороших условий может быть идеальной.

6.9K views10:26

Заметки Computer Vision инженера

Банальное, но нужное видео. Очень часто я с удивлением узнаю что люди не используют DLA на Jetson'ах. При том что для некоторых моделей это 60% производительности с низким энергопотреблением. Но очень часто люди игнорируют его. В этом видео я рассказываю как экспортировать модель на DLA, почему его надо использовать и какие у него ограничения.
https://youtu.be/CRMI8gmOiOc

YouTube

Did you missed the Jetson DLA? A guide how to utilize.

00:00:00 - Intro
00:03:08 - trtexec approach - the classic one (and polygraphy)
00:08:42 - Torch-TensorRT approach

My LinkedIn - https://www.linkedin.com/in/maltsevanton/
My Telegram channel - https://www.tg-me.com/CVML_team
e-mail: [email protected]
Twitter…

7.1K views11:16

Заметки Computer Vision инженера

В последнее время я стал обращать внимание что все больше и больше людей под моими видео возмущаются "А почему на этой железке не работает моя LLM?!", "А что это за фейковая плата?!".
Тут я попробую разобрать текущую ситуацию, что сделать и куда надо смотреть если вы все же хотите запустить какую-то LLM с поддержкой железа.
https://youtu.be/OcHltzCBRY8

YouTube

Are NPUs capable of running LLMs today?

00:00:00 - Intro
00:00:40 - Usual pipeline, why it's not utilizing NPUs
00:01:24 - TensorRT, DLA
00:02:55 - AMD
00:03:43 - Intel
00:03:57 - Qualcomm
00:04:39 - RochChip
00:05:02 - Hailo, Sima ai, Axelera
00:05:32 - Google TPU, Tesla Dojo, Groq
00:06:07…

6.4K views15:45

Заметки Computer Vision инженера

Видюшек давно не было. Но это потому что сейчас в процессе достаточно интересная, где долго собирал все доступы и тестировал. А пока небольшое видео про модный тренд этой зимы. Разберём где пока Вайб-кодинг хромает и вы можете быть сильно лучше стандартного GPT;)
Собрал интересные примеры и задачи где не достаточно пару раз запромптить.
https://youtu.be/M3xTcEm0qwA

YouTube

A list of open positions in ML where Vibe Coding can't solve a task

We are hiring now!
https://ats.rippling.com/artisight-open-roles/jobs/ddd390c7-b4c1-419d-b100-86ac7c0f961d - Senior Generative AI Scientist. We are searching for an expert in LLMs. The position is open not only in the US (EU preferable, but can discuss different…

5.4K views08:26

Заметки Computer Vision инженера

Если вы внимательно смотрели видео, то могли там заметить что у нас открыта позиция для эксперта в VLM / LLM и.т.д. На эту позицию мы (Artisight, одна из самых быстрорастущих медицинских компаний) нанимаем по всему миру (кроме РФ/Белоруссии/Ирана/Кореи/Израиля/Китая и некоторых других). Зарплатную вилку не называю, она зависит от локации (вне/внутри США). Во вне США готовы платить больше чем в Европе. Но зарплата реально зависит от вашего опыта. Если поймем что вы можете закрыть те вопросы в которых у нас сейчас нет опыта - будем готовы платить много. Что надо: понимание как оптимально создавать и подготавливать дататсеты для VLM (что надо бы разметить, где можно нагенерить), выбор оптимальных подходов для тренировок (какие фреймворки быстрее и оптимальнее по памяти, как структурировать обучение). Практический опыт в реализации этого всего. И.т.д. Подаваться тут - https://ats.rippling.com/artisight-open-roles/jobs/ddd390c7-b4c1-419d-b100-86ac7c0f961d

Параллельно ищем AI бекенд инженера для создания систем и пайплайнов обработки аудио и видео с применением последних наработок в области распознавания речи, компьютерного зрения. Работа с одной из сильнейшех RnD-командой в отрасли.
Эта вакансия только для кандидатов за пределами США (кроме стран где запрещена работа с US медтехом), предполагается работа в европейском временной зоне (с пересечением с Chicago time)
https://ats.rippling.com/artisight-open-roles/jobs/dc5fdb7e-8774-49c5-a99a-d9b2b0f08f36

Сейчас в EC своего офиса у нас нет, большая часть как самозанятые. Но открывать планируем. Основной офис в США.

5.5K views08:50

Заметки Computer Vision инженера

Да-да, я уже понял что трети читателей не нравиться вайбкодить или работать. Так что только хардкор.
Поговорим про него.
Я делаю сейчас статью про одну платформу. И хотел понять насколько она вообще популярна. Так что хочу сделать опрос на эту тему. Заодно пару вопросов давно любопытны. Платформу не называю пока, но картинка со спойлером для красоты и привлечения внимания.

5.5K views15:16

Заметки Computer Vision инженера

This media is not supported in your browser

VIEW IN TELEGRAM

Итак. Ответ на прошлую загадку - Sophon. Это не только злобный компьютер трисоляриан, но и современный лидер в производстве AI плат. Про них то и будет этот обзор. Так как вышел обзор большим (две платы, небольшая демка), то я решил сделать его на нескольких платформах:
Хабр
Medium
Ютуп
Не забывайте ставить плюсики/хлопочки/сердечки в зависимости от вашей религиозной ориентированности.

5.8K viewsedited 07:41

2025/06/30 00:14:03
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>