Forwarded from Ragoutoutou
В осеннем семестре еще накинули нагрузку. Плюс англоязычная дисциплина по альтернативной энергетике.
Один студент получил тему "Маятниковый генератор".
Вот выдержки из его отчета:
"Маятник - это инструмент для общения с подсознанием...
Маятник использовался фараонами для духовного исцеления...
Маятник имеет множество преимуществ, в том числе:
Общение с подсознанием;
Использование в энергетической терапии;
Поиск пропавших без вести;
Телепатия, передача мыслей, выход из тела, активация чакр,..."
Дожили.
Один студент получил тему "Маятниковый генератор".
Вот выдержки из его отчета:
"Маятник - это инструмент для общения с подсознанием...
Маятник использовался фараонами для духовного исцеления...
Маятник имеет множество преимуществ, в том числе:
Общение с подсознанием;
Использование в энергетической терапии;
Поиск пропавших без вести;
Телепатия, передача мыслей, выход из тела, активация чакр,..."
Дожили.
Forwarded from Patroklos
Я однажды отправлял в Италию титановую болванку, чтобы нам станок на ней испытали после сборки.
Выбрали цилиндрическую болванку, подготовили доки, отправили, приходит ответ от ФТС: "не пропускать - похоже на заготовку для изготовления оружия", делайте её не цилиндрической
Поставили болванку на станок, стесали лыски, стала квадратная в сечении. Таможня опять не пропустила с тем же результатом.
Короч пока мы эту болванку по форме не превратили в нечто, похожее на фантазии Малевича, таможня писала "а может из этого итальянцы сделают пушку, и будут ею в нас стреляти?"
Выбрали цилиндрическую болванку, подготовили доки, отправили, приходит ответ от ФТС: "не пропускать - похоже на заготовку для изготовления оружия", делайте её не цилиндрической
Поставили болванку на станок, стесали лыски, стала квадратная в сечении. Таможня опять не пропустила с тем же результатом.
Короч пока мы эту болванку по форме не превратили в нечто, похожее на фантазии Малевича, таможня писала "а может из этого итальянцы сделают пушку, и будут ею в нас стреляти?"
Летом я думал: c# я в принципе знаю, наверное надо учить Go, он модный, молодежный и параллельный. Не сложилось.
Спустя полгода непрерывного программирования на c#, я вижу бесконечное количество пробелов в моих знаниях шарпа.
Погуглил тут вдумчиво оптимизации в с#, в постах ранее я ещё толком не упарывался. Например вот нагуглил статью, где показано, что если упороться от души в оптимизацию - можно сократить разницу между шарпом и плюсами на обработке картинок практически до стат погрешности. Попробую ка я ещё раз векторизировать свои манипуляции.
Вот использование ассемблерных команды из c# - для меня пока слишком.
Ещё разобрался с запуском вычислений на видеокарте из c# - с проектом ManagedCUDA. Главная моя надежда - что не придется писать код для CUDA на специфическом диалекте C не оправдалась, но средствами Visual Studio разработка и запуск проекта на двух языках осуществляется довольно удобно.
Спустя полгода непрерывного программирования на c#, я вижу бесконечное количество пробелов в моих знаниях шарпа.
Погуглил тут вдумчиво оптимизации в с#, в постах ранее я ещё толком не упарывался. Например вот нагуглил статью, где показано, что если упороться от души в оптимизацию - можно сократить разницу между шарпом и плюсами на обработке картинок практически до стат погрешности. Попробую ка я ещё раз векторизировать свои манипуляции.
Вот использование ассемблерных команды из c# - для меня пока слишком.
Ещё разобрался с запуском вычислений на видеокарте из c# - с проектом ManagedCUDA. Главная моя надежда - что не придется писать код для CUDA на специфическом диалекте C не оправдалась, но средствами Visual Studio разработка и запуск проекта на двух языках осуществляется довольно удобно.
Хабр
Сравниваем производительность C# и C++ в задачах обработки изображений
Бытует мнение, что C# не место в вычислительных задачах, и мнение это вполне обоснованное: JIT-компилятор вынужден компилировать и оптимизировать код на лету в процессе выполнения программы с...
По микроскопу появилась новая вводная: дополнительно реализовать метод вычисления фазового изображения по одной картинке с помощью фильтрации его двумерного Фурье-образа - методом Гильберта.
В поисках готовой реализации двумерного фурье преобразования, я нашел проект AForge - реализации различного матана на c#. Проект, хоть и написан по какую-то допотопную версию .Net крут: вырванный копипастой кусок, относящийся с Фурье преобразованию, просто взял и заработал. Время отработки на картинке 1024х2048 - около 1 секунды. Вырванная реализация работает только на картинках с размером, кратным степени двойки.
Теперь мне предстоит переварить копипасту: разобраться в принципе работы алгоритма, выкинуть лишнее, оптимизировать оставшееся. Появилась идея со временем выкинуть весь матан, как на c#, так и на CUDA в отдельный проект и в NuGet пакет (стандартное средство распространения готовых модулей и библиотек для c#) в свободный доступ, глядишь кому пригодится.
Понятного для дебилов описания принципа работы Быстрого Фурье преобразования я с ходу не нагуглил (но код готовой реализации несколько прояснил ситуацию). Нашел фундаментальную переводную книгу 1989 год - Быстрые алгоритмы цифровой обработки сигналов, автор Блейхут Р., начинаю читать. В посте ниже выложу саму книгу.
Из уже прочитанного в коде и книге понятно: либо я использую картинку размерности степени двойки (возможно какими-то костылями подгоняя ее по размеру), либо погружаюсь в мир боли и страданий, делая свои реализации, пытаясь выйти на приемлимую производительность.
Использование массива с размерами, кратными степени двойки - один из основных читов, которые используются, чтобы получить результат максимально быстро. Что интересно - в одной из научных статей, посвященных фазовой микроскопии, все тесты алгоритмов, основанных на FFT2 проводились на картинках размером 1024x2048.
#диссер #csharp
В поисках готовой реализации двумерного фурье преобразования, я нашел проект AForge - реализации различного матана на c#. Проект, хоть и написан по какую-то допотопную версию .Net крут: вырванный копипастой кусок, относящийся с Фурье преобразованию, просто взял и заработал. Время отработки на картинке 1024х2048 - около 1 секунды. Вырванная реализация работает только на картинках с размером, кратным степени двойки.
Теперь мне предстоит переварить копипасту: разобраться в принципе работы алгоритма, выкинуть лишнее, оптимизировать оставшееся. Появилась идея со временем выкинуть весь матан, как на c#, так и на CUDA в отдельный проект и в NuGet пакет (стандартное средство распространения готовых модулей и библиотек для c#) в свободный доступ, глядишь кому пригодится.
Понятного для дебилов описания принципа работы Быстрого Фурье преобразования я с ходу не нагуглил (но код готовой реализации несколько прояснил ситуацию). Нашел фундаментальную переводную книгу 1989 год - Быстрые алгоритмы цифровой обработки сигналов, автор Блейхут Р., начинаю читать. В посте ниже выложу саму книгу.
Из уже прочитанного в коде и книге понятно: либо я использую картинку размерности степени двойки (возможно какими-то костылями подгоняя ее по размеру), либо погружаюсь в мир боли и страданий, делая свои реализации, пытаясь выйти на приемлимую производительность.
Использование массива с размерами, кратными степени двойки - один из основных читов, которые используются, чтобы получить результат максимально быстро. Что интересно - в одной из научных статей, посвященных фазовой микроскопии, все тесты алгоритмов, основанных на FFT2 проводились на картинках размером 1024x2048.
#диссер #csharp
GitHub
GitHub - andrewkirillov/AForge.NET: AForge.NET Framework is a C# framework designed for developers and researchers in the fields…
AForge.NET Framework is a C# framework designed for developers and researchers in the fields of Computer Vision and Artificial Intelligence - image processing, neural networks, genetic algorithms, ...
Forwarded from Архив КС/РФ(Сиона-Футуриста) (Красный)
В диссертационной работе мне нужно записывать картинки с микроскопа с помощью цифровой камеры. Изначально отладка и сборка прибора проводилась с помощью веб камеры за 500 рублей, кое-как приделанной к прибору.
Она прекрасно видится виндой, изображение с нее влет захватывается OpenCV, но вот беда: качество картинки убогое, да и крепить камеру к прибору желательно не на сопли, а используя стандартное окулярное крепление.
Следующим этапом была испытана камера производителя dcm. После долгих мучений с неработающими и конфликтующими драйверами обнаружилось, что работает она только с довольно убогим штатным ПО, исходный код которого разумеется недоступен.
Как с ней работать - не очень понятно. Нашел на гитхабе один проект, где люди как-то работают с такой камерой, но он на питоне, а я пишу на c#. Переписывать код по-обезьяньи — дело не слишком благодарное, в общем отказался от неё.
Сегодня попробовал камеру от производителя toupcam. К камере прилагается штатная прога, несколько уже скомпилированных .dll-ок под разные системы и папочка Samples, где приведены примеры забора изображения с помощью разных языков программирования. Открываешь пример через среду разработки, подкидываешь .dll-ку под свою систему, запускаешь и оно РАБОТАЕТ. Вот, что значит - SDK (инструменты разработчика) здорового человека.
Производитель, в дополнение ко всем расходам, не поскупился на пару человекомесяцев программистов (мелочь для крупной фирмы), готовивших примеры. И просто качественный продукт — нормальная окулярная камера — превратился в конфетку, обретя огромное конкурентное преимущество: простоту интеграции и бесплатную рекламу по сарафанному радио.
Eshu Marabo
Она прекрасно видится виндой, изображение с нее влет захватывается OpenCV, но вот беда: качество картинки убогое, да и крепить камеру к прибору желательно не на сопли, а используя стандартное окулярное крепление.
Следующим этапом была испытана камера производителя dcm. После долгих мучений с неработающими и конфликтующими драйверами обнаружилось, что работает она только с довольно убогим штатным ПО, исходный код которого разумеется недоступен.
Как с ней работать - не очень понятно. Нашел на гитхабе один проект, где люди как-то работают с такой камерой, но он на питоне, а я пишу на c#. Переписывать код по-обезьяньи — дело не слишком благодарное, в общем отказался от неё.
Сегодня попробовал камеру от производителя toupcam. К камере прилагается штатная прога, несколько уже скомпилированных .dll-ок под разные системы и папочка Samples, где приведены примеры забора изображения с помощью разных языков программирования. Открываешь пример через среду разработки, подкидываешь .dll-ку под свою систему, запускаешь и оно РАБОТАЕТ. Вот, что значит - SDK (инструменты разработчика) здорового человека.
Производитель, в дополнение ко всем расходам, не поскупился на пару человекомесяцев программистов (мелочь для крупной фирмы), готовивших примеры. И просто качественный продукт — нормальная окулярная камера — превратился в конфетку, обретя огромное конкурентное преимущество: простоту интеграции и бесплатную рекламу по сарафанному радио.
Eshu Marabo
Forwarded from Архив КС/РФ(Сиона-Футуриста) (Красный)
Все помнят зельеварение в Гарри Поттере: сложный предмет, требующий аккуратности и таланта. При этом, зельеварение нервно курит в сторонке, если посмотреть на стандартные лабораторные манипуляции.
К примеру, хотим мы посмотреть на лимфоциты крысы под микроскопом. Для этого нам нужно использовать, кроме крови, 5 разных реактивов, 4 раза крутить пробирку на центрифуге, а также готовить слоистые коктейли в пробирке, оперируя объёмами в доли миллилитра.
Повторить процедуру выделения лимфоцитов по готовому описанию - непросто. А за составленным "протоколом" - тем самым описанием - многие человекогоды лабораторной практики.
Часть реагентов нужна чтобы кровь не свернулась, часть - чтобы клетки не растворились в непривычной среде. На центрифуге правильно отработанная кровь расслаивается по фракциям: эритроциты, лимфоциты и т.д.
Один из ингредиентов - синтетический сахароподобный сироп - используется как ловушка для клеток. Его наливают на дно пробирки, сверху наливают слой с клетками, которые при вращении оседают на верхней границе сиропа.
Только после таких манипуляций можно собрать в пипетку несколько микролитров лимфоцитов. И ведь можно ещё их красить, добавлять флуоресцентные маркеры или вообще сортировать на виды лимфоцитов.
Именно эта алхимия - один из важнейших камней в фундаменте современной медицины. Что интересно, большая часть "протоколов" была разработана методом, близким к научному тыку, ещё до появления теоретической возможности смоделировать процессы, происходящие в пробирке.
Eshu Marabo
К примеру, хотим мы посмотреть на лимфоциты крысы под микроскопом. Для этого нам нужно использовать, кроме крови, 5 разных реактивов, 4 раза крутить пробирку на центрифуге, а также готовить слоистые коктейли в пробирке, оперируя объёмами в доли миллилитра.
Повторить процедуру выделения лимфоцитов по готовому описанию - непросто. А за составленным "протоколом" - тем самым описанием - многие человекогоды лабораторной практики.
Часть реагентов нужна чтобы кровь не свернулась, часть - чтобы клетки не растворились в непривычной среде. На центрифуге правильно отработанная кровь расслаивается по фракциям: эритроциты, лимфоциты и т.д.
Один из ингредиентов - синтетический сахароподобный сироп - используется как ловушка для клеток. Его наливают на дно пробирки, сверху наливают слой с клетками, которые при вращении оседают на верхней границе сиропа.
Только после таких манипуляций можно собрать в пипетку несколько микролитров лимфоцитов. И ведь можно ещё их красить, добавлять флуоресцентные маркеры или вообще сортировать на виды лимфоцитов.
Именно эта алхимия - один из важнейших камней в фундаменте современной медицины. Что интересно, большая часть "протоколов" была разработана методом, близким к научному тыку, ещё до появления теоретической возможности смоделировать процессы, происходящие в пробирке.
Eshu Marabo
Forwarded from СЛЕГ! <Z> ️
Половину дня убил вчера на реверс-инжиниринг сайта активного гражданина. Страница голосования там состоит из 4,5 мегабайт специально сделанного нечитаемым javascript кода (убраны пробелы и строки, машине пофигу, а человеку грустно).
Но, благодаря подсказкам уважаемого @eshu_coding я перехватил правильный запрос статистики. Теперь у меня есть бот-наблюдатель за выборами памятника на лубянской площади. Всего 80 строк, полный код в скринах.
Один раз в минуту записываются в файл текущие результаты и, при изменениях больше чем на 1 процент, рапортуется в чатик.
Но, благодаря подсказкам уважаемого @eshu_coding я перехватил правильный запрос статистики. Теперь у меня есть бот-наблюдатель за выборами памятника на лубянской площади. Всего 80 строк, полный код в скринах.
Один раз в минуту записываются в файл текущие результаты и, при изменениях больше чем на 1 процент, рапортуется в чатик.
СЛЕГ! <Z> ️
Photo
К репосту. Инструменты разработчика в браузере - дичайшее читерство. При первом, и даже втором взгляде - перегружено и неочевидно. Но если жизнь заставляет погрузиться, как заставила уважаемого @ssleg, они оказываются волшебным окном во внутренности портала.
Современные сайты состоят в большей степени из кода на JavaScript, чем из html. Они живут - постоянно запрашивают какие-то данные у бэкенда, шевелят анимациями и т.д. И вся эта внутренняя кухня находит отражается в инструментах разработчика.
В запросе результатов опроса с Активного Гражданина (АГ) есть занятный момент. Протокол HTTP поддерживает несколько разных запросов: POST, GET и т.д. Разница между ними в том, что в методе GET все параметры запроса открытые, а в POST так с ходу их не прочитать. Потому, когда не хотят показывать, что в запросе, метод POST, предназначенный для загрузки данных на сервер, используют и не по назначению, в т.ч. и для получения информации, как это сделал программист, писавший модуль запроса.
Вот только безопасности это никакой не дало: JavaScript код-то открыт всему миру! Существуют разные способы защиты кода, авторы АГ выбрали далеко не самый надежный: обфускацию кода.
Есть еще один путь, к сожалению не всегда применимый в современной парадигме веба: писать сайт на C#:)
Современные сайты состоят в большей степени из кода на JavaScript, чем из html. Они живут - постоянно запрашивают какие-то данные у бэкенда, шевелят анимациями и т.д. И вся эта внутренняя кухня находит отражается в инструментах разработчика.
В запросе результатов опроса с Активного Гражданина (АГ) есть занятный момент. Протокол HTTP поддерживает несколько разных запросов: POST, GET и т.д. Разница между ними в том, что в методе GET все параметры запроса открытые, а в POST так с ходу их не прочитать. Потому, когда не хотят показывать, что в запросе, метод POST, предназначенный для загрузки данных на сервер, используют и не по назначению, в т.ч. и для получения информации, как это сделал программист, писавший модуль запроса.
Вот только безопасности это никакой не дало: JavaScript код-то открыт всему миру! Существуют разные способы защиты кода, авторы АГ выбрали далеко не самый надежный: обфускацию кода.
Есть еще один путь, к сожалению не всегда применимый в современной парадигме веба: писать сайт на C#:)
MDN Web Docs
Методы HTTP запроса - HTTP | MDN
HTTP определяет множество методов запроса, которые указывают, какое желаемое действие выполнится для данного ресурса. Несмотря на то, что их названия могут быть существительными, эти методы запроса иногда называются HTTP глаголами. Каждый реализует свою семантику…
После первой пробы отладки ПО с настроенным микроскопом я ощутил, что не только в производительности счастье.
Реальный мир оказался жесток:
Интерфейс программы, на скорую руку накиданный в WinForms, оказался неюзабельным говном.
Следующим нежданчиком оказалось то, что даже над хорошей камерой приходится колдовать,чтобы получить приличную картинку. И колдовать, что характерно, из пользовательского интерфейса.
Цифровая камера при низкой интенсивности света выдает жуткие цифровые шумы. А при высокой - засвечивается и уходит в насыщение, утрачивая вообще какую-либо полезную информацию.
Для подавления шумов пока что я реализовал два простейших подхода: сглаживание окном 5х5 и накопление сигнала - использование для вычислений скользящего среднего последних 10 картинок.
В итоге, при правильно выставленных времени экспозиции, усилении (gain), насыщенности (saturation), сглаживании и скользящем среднем хотя бы по 3 картинкам качество вычисляемого изображения стало... условно приемлемым.
На очереди:
1. Детектирование движения кадра (для сброса накопления)
2. Вычитание из картинки плоскости или сферы по 3 точкам.
3. Режим вычисления фразового изображения по jpg файлу.
4. Новый UI на WPF
5. Ускорение ивычислений: распараллеливание и оптимизация быстрого преобразования Фурье, возврат к развёртке фазы.
6. Реализация различных Фурье фильтров, как для шумоподавления, так и для замены части используемой математики.
7. Разработка версии программы для записи картинок под GPU.
8. Собственно начало диссертационного исследования: погружение в мир цифрового анализа изображений, скорее всего уже на питоне.
Реальный мир оказался жесток:
Интерфейс программы, на скорую руку накиданный в WinForms, оказался неюзабельным говном.
Следующим нежданчиком оказалось то, что даже над хорошей камерой приходится колдовать,чтобы получить приличную картинку. И колдовать, что характерно, из пользовательского интерфейса.
Цифровая камера при низкой интенсивности света выдает жуткие цифровые шумы. А при высокой - засвечивается и уходит в насыщение, утрачивая вообще какую-либо полезную информацию.
Для подавления шумов пока что я реализовал два простейших подхода: сглаживание окном 5х5 и накопление сигнала - использование для вычислений скользящего среднего последних 10 картинок.
В итоге, при правильно выставленных времени экспозиции, усилении (gain), насыщенности (saturation), сглаживании и скользящем среднем хотя бы по 3 картинкам качество вычисляемого изображения стало... условно приемлемым.
На очереди:
1. Детектирование движения кадра (для сброса накопления)
2. Вычитание из картинки плоскости или сферы по 3 точкам.
3. Режим вычисления фразового изображения по jpg файлу.
4. Новый UI на WPF
5. Ускорение ивычислений: распараллеливание и оптимизация быстрого преобразования Фурье, возврат к развёртке фазы.
6. Реализация различных Фурье фильтров, как для шумоподавления, так и для замены части используемой математики.
7. Разработка версии программы для записи картинок под GPU.
8. Собственно начало диссертационного исследования: погружение в мир цифрового анализа изображений, скорее всего уже на питоне.
Вчера был первый эксперимент нового витка диссертационного исследования. Планируется попробовать засечь влияние нового ветеринарного препарата на иммунную систему на примере лабораторных животных (крыс).
Самое удивительное, что все получилось близко к программе максимум.
У нас был пересобранный необкатанный микроскоп с сырой глючной программой, две крысы, две студентки, один ветеринар, один оптик и один программист.
Ещё было лабораторное оборудование, "позаимствованное" с миру по нитке. Описание ритуала выделения лимфоцитов в телеграммном чатике и методика взятия крови из хвоста на ютубчике. Способ приготовления препарата для микроскопа на ходу зачитывался из электронной почты.
В качестве установки для контроля был микроскоп 1990 года сборки, работающий под MS DOS.
Первую крысуизрасходовали употребили на то, чтобы просто потренироваться: слепили препарат, увидели клетки, с помощью старого микроскопа проверили, что этой действительно эритроциты, а не следы пальца на покровном стеклышке.
Из второй крови удалось взять 50-100мкл крови вместо нужного нам 1мл (в 10-20 раз меньше). Несмотря на это, ритуал выделения клеток прошёл успешно и мы засняли некоторое количество картинок с лимфоцитами. Характерное ядро с чуть скошенным центром масс, ступенька цитоплазмы, размер процентов на 30 меньше, чем у человеческих, это без сомнений лимфоциты!
Теперь предстоит оценить качество заснятых картинок, допилить микроскоп и потренироваться брать кровь у крысы. А так, микроскоп можно поздравить с крещением: теперь он окроплен крысиной кровью!
P.S. Крысы отделались небольшими гематомами у основания хвоста и дефекацией в процессе забора крови.
#диссер
Самое удивительное, что все получилось близко к программе максимум.
У нас был пересобранный необкатанный микроскоп с сырой глючной программой, две крысы, две студентки, один ветеринар, один оптик и один программист.
Ещё было лабораторное оборудование, "позаимствованное" с миру по нитке. Описание ритуала выделения лимфоцитов в телеграммном чатике и методика взятия крови из хвоста на ютубчике. Способ приготовления препарата для микроскопа на ходу зачитывался из электронной почты.
В качестве установки для контроля был микроскоп 1990 года сборки, работающий под MS DOS.
Первую крысу
Из второй крови удалось взять 50-100мкл крови вместо нужного нам 1мл (в 10-20 раз меньше). Несмотря на это, ритуал выделения клеток прошёл успешно и мы засняли некоторое количество картинок с лимфоцитами. Характерное ядро с чуть скошенным центром масс, ступенька цитоплазмы, размер процентов на 30 меньше, чем у человеческих, это без сомнений лимфоциты!
Теперь предстоит оценить качество заснятых картинок, допилить микроскоп и потренироваться брать кровь у крысы. А так, микроскоп можно поздравить с крещением: теперь он окроплен крысиной кровью!
P.S. Крысы отделались небольшими гематомами у основания хвоста и дефекацией в процессе забора крови.
#диссер
К вопросу о том, почему я называю процесс выделения лимфоцитов ритуалом.
Ингредиенты:
1. Лизирующий буфер (NH4Cl, KHCO3, ЭДТА) для разрушения эритроцитов.
2. Фосфатный буфер для разведения крови
3. Фиколл - синтетическое сахароподобное нечто, используется, чтобы создать градиент плоскости, на который наслаиваются лимфоциты.
Примерная последовательности действий:
1. Берётся кровь, откручивается пару раз на центрифуге с фосфатными буфером.
2. Добавляется лизирующий буфер, откручивается на центрифуге.
3. Все это перемешивается на специальной мешалке-дрожалке.
4. Откручивается на центрифуге.
5. Несколько раз разбавляется фосфатным буфером, откручивается, мусор со дна удаляется.
6. На дно пробирки наливается фиколл, на него наслаиваются (как в слоёных коктейлях) результат из предыдущего пункта.
7. Всё центрифугируется еще раз, на границе раздела застревают Т и B лимфоциты, которые собираются дозатором и, в объеме 3-6 мкл используются для приготовления препарата.
#диссер
Ингредиенты:
1. Лизирующий буфер (NH4Cl, KHCO3, ЭДТА) для разрушения эритроцитов.
2. Фосфатный буфер для разведения крови
3. Фиколл - синтетическое сахароподобное нечто, используется, чтобы создать градиент плоскости, на который наслаиваются лимфоциты.
Примерная последовательности действий:
1. Берётся кровь, откручивается пару раз на центрифуге с фосфатными буфером.
2. Добавляется лизирующий буфер, откручивается на центрифуге.
3. Все это перемешивается на специальной мешалке-дрожалке.
4. Откручивается на центрифуге.
5. Несколько раз разбавляется фосфатным буфером, откручивается, мусор со дна удаляется.
6. На дно пробирки наливается фиколл, на него наслаиваются (как в слоёных коктейлях) результат из предыдущего пункта.
7. Всё центрифугируется еще раз, на границе раздела застревают Т и B лимфоциты, которые собираются дозатором и, в объеме 3-6 мкл используются для приготовления препарата.
#диссер
Палантир. Начало.
За прошедший месяц я реализовал и запустил новый проект: парсер текстов из телеграма, #палантир@eshu_coding
Цель - выкачать весь открытый русскоязычный контент из телеги (посты и комменты к ним) в одну базу данных, после чего начать развлекаться с NLP.
Попутная цель - попрактиковаться в незнакомых технологиях. В итоге я потыкал палочкой в Docker, grpc (гугловый протокол передачи данных), секционирование таблиц в postgesql, настройку cd/ci с помощью github actions и немного в администрирование линуксовых серверов.
Пока что система проста как топор: master на c#, отдающий команды и принимающий результаты для сохранения в постгрес и slave-ы, выгружающие данные из телеги и передающие их master-у.
Для написания slave-ов пришлось пересилить себя и обмазаться питоном: в клиентских библиотеках под js или c# не было реализации одного важного запроса.
В итоге питоновские slave-ы плодятся коротеньким bash скриптом в любом месте, где установлен Docker. Мастера я не стал ставить в контейнер: плодить я их не намерен, а без контейнера проще хотябы в файлы логов заглянуть в случае чего.
Связь между компонентами осуществляется через grpc. В целом проект запустился в пятницу 2 апреля успешно. Сейчас уже трудятся 4 сборщика, спарсил 10 млн сообщений и постов от 400 тысяч пользователей из 13 тыс каналов и чатов.
#проекты
За прошедший месяц я реализовал и запустил новый проект: парсер текстов из телеграма, #палантир@eshu_coding
Цель - выкачать весь открытый русскоязычный контент из телеги (посты и комменты к ним) в одну базу данных, после чего начать развлекаться с NLP.
Попутная цель - попрактиковаться в незнакомых технологиях. В итоге я потыкал палочкой в Docker, grpc (гугловый протокол передачи данных), секционирование таблиц в postgesql, настройку cd/ci с помощью github actions и немного в администрирование линуксовых серверов.
Пока что система проста как топор: master на c#, отдающий команды и принимающий результаты для сохранения в постгрес и slave-ы, выгружающие данные из телеги и передающие их master-у.
Для написания slave-ов пришлось пересилить себя и обмазаться питоном: в клиентских библиотеках под js или c# не было реализации одного важного запроса.
В итоге питоновские slave-ы плодятся коротеньким bash скриптом в любом месте, где установлен Docker. Мастера я не стал ставить в контейнер: плодить я их не намерен, а без контейнера проще хотябы в файлы логов заглянуть в случае чего.
Связь между компонентами осуществляется через grpc. В целом проект запустился в пятницу 2 апреля успешно. Сейчас уже трудятся 4 сборщика, спарсил 10 млн сообщений и постов от 400 тысяч пользователей из 13 тыс каналов и чатов.
#проекты
Палантир. Часть 1. Начинаю серию постов по изученным мной в процессе разработки сборщика данных с телеграма техническим нюансам.
#палантир@eshu_coding
Как уже было сказано, мной используется схема master - slave. Для связи между ними вместо традиционных http запросов я использую gRPC.
Суть технологии в следующем в файлах с расширениями .proto описываются основные точно взаимодействия элементов приложения и используемые структуры данных.
Видов взаимодействия может быть четыре:
1. Одиночный вызов. Клиент стучит на сервер, закидывает туда данные в описанном формате, получает ответ заданного формата.
Остальное - варианты стримминга. Доступны следующие варианты:
А) Клиент шлет одиночный запрос, в ответ получает поток ответов.
Б) Клиент отправляет на сервер поток сознания, получает одиночный ответ.
В) Клиент отправляет поток сознания и получает поток в ответ.
Все эти режимы работы, а также формат отдельных сообщений прописан в .proto файле.
gRPC - мультиязычная платформа, что крайне удобно для связи сервисов, написанных на разных языках. Структуры данных, описанные в протофайле, доступны для использования как обычные классы.
В случае с# и node.js достаточно добавить в проект протофайл и можно пользоваться этими структурами. В питоне нужно отдельной командой сгенерировать питоновские файлы, в которых будут автогенерированные классы, описанные в протобуфе.
Чем еще хороша gRPC? Во-первых - удобство. Описал взаимодействие всех компонентов и гоняй стандартизированные структуры данных через стандартизированные API туда-сюда. Многие ошибки отваливаются на этапе сборки проектов.
Во вторых - стримминг и подписка на события реализуется просто и без боли.
В третьих grpc тупо шустрее обычных http запросов: от 20% до 7-10 раз, вот одна из статей с замерами.
В общем, годная технология, но наверняка есть и подводные камни.
#кодинг
#палантир@eshu_coding
Как уже было сказано, мной используется схема master - slave. Для связи между ними вместо традиционных http запросов я использую gRPC.
Суть технологии в следующем в файлах с расширениями .proto описываются основные точно взаимодействия элементов приложения и используемые структуры данных.
Видов взаимодействия может быть четыре:
1. Одиночный вызов. Клиент стучит на сервер, закидывает туда данные в описанном формате, получает ответ заданного формата.
Остальное - варианты стримминга. Доступны следующие варианты:
А) Клиент шлет одиночный запрос, в ответ получает поток ответов.
Б) Клиент отправляет на сервер поток сознания, получает одиночный ответ.
В) Клиент отправляет поток сознания и получает поток в ответ.
Все эти режимы работы, а также формат отдельных сообщений прописан в .proto файле.
gRPC - мультиязычная платформа, что крайне удобно для связи сервисов, написанных на разных языках. Структуры данных, описанные в протофайле, доступны для использования как обычные классы.
В случае с# и node.js достаточно добавить в проект протофайл и можно пользоваться этими структурами. В питоне нужно отдельной командой сгенерировать питоновские файлы, в которых будут автогенерированные классы, описанные в протобуфе.
Чем еще хороша gRPC? Во-первых - удобство. Описал взаимодействие всех компонентов и гоняй стандартизированные структуры данных через стандартизированные API туда-сюда. Многие ошибки отваливаются на этапе сборки проектов.
Во вторых - стримминг и подписка на события реализуется просто и без боли.
В третьих grpc тупо шустрее обычных http запросов: от 20% до 7-10 раз, вот одна из статей с замерами.
В общем, годная технология, но наверняка есть и подводные камни.
#кодинг
Telegram
Эшу быдлокодит
Прошу прощения за долгое молчание, было безумно много работы.
Работа над диссертацией продолжается, но пока вяленько, планирую активизироваться на следующей неделе.
За прошедший месяц я реализовал и запустил новый проект: парсер текстов из телеграма, …
Работа над диссертацией продолжается, но пока вяленько, планирую активизироваться на следующей неделе.
За прошедший месяц я реализовал и запустил новый проект: парсер текстов из телеграма, …
А ещё сегодня была очередная серия экспериментов с крысами и микроскопом.
Микроскоп у нас отдает чем-то из некромантии: ломается, переделывается прямо на ходу, но работает. Трупы дохли и снова оживали в общем.
При этом часть, касающаяся вычисления изображения, работает достойно, хотя в скором времени будет второй раунд оптимизаций, но только после хорошего интерфейса: я окончательно осознал, что в гробу видел WinForms и таки надо делать всё на WPF.
Кроме моей косорукости при разработке UI, у нас другая проблема: крысы не очень-то спешат отдавать кровь из хвостовой вены, а зубки у них ого-го, приходится ветеринарам делать небольшое усекновение кончика хвоста. Людской крови, впрочем, пролилось во много раз больше крысиной.
В целом эксперименты налаживаются, скоро поставим на поток.
#диссер
Микроскоп у нас отдает чем-то из некромантии: ломается, переделывается прямо на ходу, но работает. Трупы дохли и снова оживали в общем.
При этом часть, касающаяся вычисления изображения, работает достойно, хотя в скором времени будет второй раунд оптимизаций, но только после хорошего интерфейса: я окончательно осознал, что в гробу видел WinForms и таки надо делать всё на WPF.
Кроме моей косорукости при разработке UI, у нас другая проблема: крысы не очень-то спешат отдавать кровь из хвостовой вены, а зубки у них ого-го, приходится ветеринарам делать небольшое усекновение кончика хвоста. Людской крови, впрочем, пролилось во много раз больше крысиной.
В целом эксперименты налаживаются, скоро поставим на поток.
#диссер
Довольно важная и модная сейчас тема - автоматическое развертывание кода и в пределе - непрерывная поставка. После того как программист отправил несколько строк кода в репозиторий запускаются сонмы автотестов, если всё ок - строки попадают на прод или в грядущее большое обновление.
Для автоматизации развертывания и тестирования используются разные инструменты, но для пет проектов лучший выбор - Github Actions. В репозитории нужно лишь найти вкладку Actions и следуя указаниям добавить себе в репозиторий простейший пример.
Использовать Actions можно двумя путями (в т.ч. комбинируя их): для проверки работоспособности кода, прогоняя автотесты и для развертывания собранного ПО на сервер. Тестирование - отдельная тема, расскажу о нём потом, как разберусь до конца сам. В целом, документация довольно подробная, потому остановлюсь только на некоторых неочевидных моментах.
1. Github Actions позволяет выполнять консольные команды как на удаленном сервере, так и на виртуалке, выделяемой гитхабом на время работы скрипта. На этой виртуалке осуществляется компиляция и сборка, а также отправка готовой программы по назначению. Дисковое пространство виртуалки организовано довольно неочевидно, потому не стесняйтесь после каждого чиха делать
run: |
ls
pwd
Чтобы понять где вы находитесь и что происходит. Результат будет выведен в лог выполнения Action-а.
2. Для работы с внешним миром стоит воспользоваться готовыми решениями. Так, для исполнения скрипта на сервере можно воспользоваться пакетом appleboy/ssh-action@master, а для архивирования и отправки результата сборки - appleboy/scp-action@master
Главное - не забывать, что вы имеете дело со стандартным консольным линуксом. Практически всё, что можете сделать там - можно сделать и тут.
3. Приватная информация. К серверу надо логиниться, а раскрывать IP адрес и пароль от сервера или SSH-ключ - не комильфо. Специально для этого добавлены Секретки: вкладка Settings, там - Secrets. Туда можно приватную информацию и использовать её в скриптах по необходимости примерно таким образом: ${{ secrets.DOCKER_HUB_LOGIN }}.
Что мне особенно понравилось - посмотреть содержимое секреток так с ходу нельзя даже через аккаунт, только с адскими заморочками с помощью написания скрипта в Actions, который пошлёт куда-то во внешний мир информацию, например с помощью какого-то линуксового почтового клиента.
4. При сборке образов докера (подробнее расскажу о них в следующий) тоже не стоит забывать, что при сборке из файла также доступна линуксовая виртуалка, которая умеет во все стандартные команды (т.е. не стесняйтесь сделать ls), а еще оно может исполнять питоновские скрипты прямо во время сборки образа.
Вообще же примеры сборки и развертывания можно посмотреть в моем репозитории: в файловую систему, в докер.
#кодинг
#devops
Для автоматизации развертывания и тестирования используются разные инструменты, но для пет проектов лучший выбор - Github Actions. В репозитории нужно лишь найти вкладку Actions и следуя указаниям добавить себе в репозиторий простейший пример.
Использовать Actions можно двумя путями (в т.ч. комбинируя их): для проверки работоспособности кода, прогоняя автотесты и для развертывания собранного ПО на сервер. Тестирование - отдельная тема, расскажу о нём потом, как разберусь до конца сам. В целом, документация довольно подробная, потому остановлюсь только на некоторых неочевидных моментах.
1. Github Actions позволяет выполнять консольные команды как на удаленном сервере, так и на виртуалке, выделяемой гитхабом на время работы скрипта. На этой виртуалке осуществляется компиляция и сборка, а также отправка готовой программы по назначению. Дисковое пространство виртуалки организовано довольно неочевидно, потому не стесняйтесь после каждого чиха делать
run: |
ls
pwd
Чтобы понять где вы находитесь и что происходит. Результат будет выведен в лог выполнения Action-а.
2. Для работы с внешним миром стоит воспользоваться готовыми решениями. Так, для исполнения скрипта на сервере можно воспользоваться пакетом appleboy/ssh-action@master, а для архивирования и отправки результата сборки - appleboy/scp-action@master
Главное - не забывать, что вы имеете дело со стандартным консольным линуксом. Практически всё, что можете сделать там - можно сделать и тут.
3. Приватная информация. К серверу надо логиниться, а раскрывать IP адрес и пароль от сервера или SSH-ключ - не комильфо. Специально для этого добавлены Секретки: вкладка Settings, там - Secrets. Туда можно приватную информацию и использовать её в скриптах по необходимости примерно таким образом: ${{ secrets.DOCKER_HUB_LOGIN }}.
Что мне особенно понравилось - посмотреть содержимое секреток так с ходу нельзя даже через аккаунт, только с адскими заморочками с помощью написания скрипта в Actions, который пошлёт куда-то во внешний мир информацию, например с помощью какого-то линуксового почтового клиента.
4. При сборке образов докера (подробнее расскажу о них в следующий) тоже не стоит забывать, что при сборке из файла также доступна линуксовая виртуалка, которая умеет во все стандартные команды (т.е. не стесняйтесь сделать ls), а еще оно может исполнять питоновские скрипты прямо во время сборки образа.
Вообще же примеры сборки и развертывания можно посмотреть в моем репозитории: в файловую систему, в докер.
#кодинг
#devops
Amazon
Что такое непрерывная доставка? – Amazon Web Services
❤1
Палантир. Часть 2. Жизненный цикл команд.
#палантир@eshu_coding
Как я уже упоминал, мой сборщик построен на микросервисной архитектуре: центральный сервер - master для хранения информации, находящийся над БД (postgresql) и slave-ы сборщики, в некотором количестве.
В master-е генерируются приказы: загрузить историю из определенного чатика/канала или проверить наличие чата для дискуссий у канала.
И как только пошла +- боевая нагрузка, я начал собирать грабли за граблями. Казалось бы, логика работы простая:
1. Чекаем базу, если есть чаты или каналы, которые давно не обновлялись - создаём приказ на обновление.
2. Сборщик берет приказ, пытается выполнить его.
З. Если приказ не может быть выполнен каким-либо сборщиком (лимиты телеги на спам например) - приказ возвращается "на базу", авось кто сможет выполнить.
Всё логично? Но если счёт приказов идёт на десятки тысяч, достаточно быстро возникает "шторм" из невыполнимых приказов: сервисы перебрасываются ими 99% времени.
Пришлось додумывать жизненный цикл приказов. Проблема вроде решилась.
Через какое-то время я обнаружил, что полезли дубли в засосанных сообщениях. Сначала нашел небольшой баг в сборщике, пофиксил. А следом началась чертовщина: дубли никуда не делись, их стало только больше.
Выяснилось, что при рабочей нагрузке возникает ситуация, когда приказ уже ушел на исполнение, данные грузятся, грузятся, грузятся, попадают в длииинную очередь. В это время приходит время генерации следующей партии приказов, генерится дубль уже выполняющегося и отправляется на исполнение другому сборщику. Как результат - число дублей в какой-то момент дошло до 25%.
Пришлось додумывать жизненный цикл приказов. Проблема вроде решилась.
Но вылезла другая проблема: "узкий" запрос на получение чатика от канала имеет один счетчик флуда с простым поиском юзера/канала по юзернейму. В итоге у меня сеть перестала расти, т.к. сборщики исчерпывали свой суточный лимит запросов буквально за час.
Будь у меня один сборщик - проблем бы не было, т.к. вся нужная для доступа информация сохраняется в сессии. Но у меня их несколько, потому, чтобы получить доступ к каналу/чату первый раз нужно сделать поиск.
Пришлось додумывать жизненный цикл приказов. Проблема вроде решилась.
Вся система стала работать как часы, производительность сборки улучшилась... И тут всплыла проблема ограниченной памяти сервера: если все сборщики одновременно натыкаются на огромные каналы/чаты база перестает справляться с нагрузкой на запись, потребление оперативки растет, что в итоге засталяет линуксsacrifice cild убить или postgres или master сборщика.
Пришлось додумывать жизненный цикл приказов. Проблема вроде решилась.
Продолжение следует...
P.S. В итоге у меня приказы возвращаются ограниченное количество раз, а поиск по юзернейму случается только когда предыдущие несколько сборщиков вернули запрос. Кроме того менеджер приказов анализирует очереди и при необходимости выдает slave-ам команду "поспать".
#палантир@eshu_coding
Как я уже упоминал, мой сборщик построен на микросервисной архитектуре: центральный сервер - master для хранения информации, находящийся над БД (postgresql) и slave-ы сборщики, в некотором количестве.
В master-е генерируются приказы: загрузить историю из определенного чатика/канала или проверить наличие чата для дискуссий у канала.
И как только пошла +- боевая нагрузка, я начал собирать грабли за граблями. Казалось бы, логика работы простая:
1. Чекаем базу, если есть чаты или каналы, которые давно не обновлялись - создаём приказ на обновление.
2. Сборщик берет приказ, пытается выполнить его.
З. Если приказ не может быть выполнен каким-либо сборщиком (лимиты телеги на спам например) - приказ возвращается "на базу", авось кто сможет выполнить.
Всё логично? Но если счёт приказов идёт на десятки тысяч, достаточно быстро возникает "шторм" из невыполнимых приказов: сервисы перебрасываются ими 99% времени.
Пришлось додумывать жизненный цикл приказов. Проблема вроде решилась.
Через какое-то время я обнаружил, что полезли дубли в засосанных сообщениях. Сначала нашел небольшой баг в сборщике, пофиксил. А следом началась чертовщина: дубли никуда не делись, их стало только больше.
Выяснилось, что при рабочей нагрузке возникает ситуация, когда приказ уже ушел на исполнение, данные грузятся, грузятся, грузятся, попадают в длииинную очередь. В это время приходит время генерации следующей партии приказов, генерится дубль уже выполняющегося и отправляется на исполнение другому сборщику. Как результат - число дублей в какой-то момент дошло до 25%.
Пришлось додумывать жизненный цикл приказов. Проблема вроде решилась.
Но вылезла другая проблема: "узкий" запрос на получение чатика от канала имеет один счетчик флуда с простым поиском юзера/канала по юзернейму. В итоге у меня сеть перестала расти, т.к. сборщики исчерпывали свой суточный лимит запросов буквально за час.
Будь у меня один сборщик - проблем бы не было, т.к. вся нужная для доступа информация сохраняется в сессии. Но у меня их несколько, потому, чтобы получить доступ к каналу/чату первый раз нужно сделать поиск.
Пришлось додумывать жизненный цикл приказов. Проблема вроде решилась.
Вся система стала работать как часы, производительность сборки улучшилась... И тут всплыла проблема ограниченной памяти сервера: если все сборщики одновременно натыкаются на огромные каналы/чаты база перестает справляться с нагрузкой на запись, потребление оперативки растет, что в итоге засталяет линукс
Пришлось додумывать жизненный цикл приказов. Проблема вроде решилась.
Продолжение следует...
P.S. В итоге у меня приказы возвращаются ограниченное количество раз, а поиск по юзернейму случается только когда предыдущие несколько сборщиков вернули запрос. Кроме того менеджер приказов анализирует очереди и при необходимости выдает slave-ам команду "поспать".
Telegram
Эшу быдлокодит
Палантир. Часть 1. Начинаю серию постов по изученным мной в процессе разработки сборщика данных с телеграма техническим нюансам.
#палантир@eshu_coding
Как уже было сказано, мной используется схема master - slave. Для связи между ними вместо традиционных…
#палантир@eshu_coding
Как уже было сказано, мной используется схема master - slave. Для связи между ними вместо традиционных…
👍1
Палантир. Часть 3. Клиентские библиотеки для взаимодействия с телеграмом.
#палантир@eshu_coding
Часть сборщика у меня написана на питоне. 300 строк быдлокода осуществляют взаимодействие с телеграмом. Питон я не люблю и умею писать на нем сильно хуже, чем на c#, потому с самого начала проекта испытываю постоянные позывы переписать питоновскую часть.
К сожалению, адекватных клиентских библиотек под с# в настоящий момент нет. Не хватает одного важного запроса: GetFullChannel, который позволяет перейти от канала к прикреплённому к нему чатику.
TLSharp был написан во времена, когда комментариев, да и чатиков при каналах ещё не было в природе, потому нужный мне запрос работает неправильно, не позволяя перейти к чату.
Потому последние несколько дней я разбирался с принципами работы Telegram API, в надежде обновить TLSharp и переписать таки взаимодействие на него.
Итог одного из экспериментов на картинке: аккаунт просто удалили без следа, итого -1 сборщик.
#телеграм
#палантир@eshu_coding
Часть сборщика у меня написана на питоне. 300 строк быдлокода осуществляют взаимодействие с телеграмом. Питон я не люблю и умею писать на нем сильно хуже, чем на c#, потому с самого начала проекта испытываю постоянные позывы переписать питоновскую часть.
К сожалению, адекватных клиентских библиотек под с# в настоящий момент нет. Не хватает одного важного запроса: GetFullChannel, который позволяет перейти от канала к прикреплённому к нему чатику.
TLSharp был написан во времена, когда комментариев, да и чатиков при каналах ещё не было в природе, потому нужный мне запрос работает неправильно, не позволяя перейти к чату.
Потому последние несколько дней я разбирался с принципами работы Telegram API, в надежде обновить TLSharp и переписать таки взаимодействие на него.
Итог одного из экспериментов на картинке: аккаунт просто удалили без следа, итого -1 сборщик.
#телеграм
👍1
Палантир. Часть 4. Протокол телеграма.
#палантир@eshu_coding
Помните, раньше говорилось, что телеграм - самый быстрый из мессенджеров и работает на самом убогом интернете? Причина скрыта в реализации протокола обмена данными клиентов и серверов.
Первое знакомство с протоколом вызывает бурю эмоций, но по прошествии времени проникаешься гениальностью замысла. API описано, на основании описания авторы клиентских библиотек генерируют основной код, после чего доводят библиотеку напильником.
Данные передаются через голый TCP, без всяких наворотов.
Принцип работы следующий: любая сущность представляет собой поток байтов. Первые 4 байта описывают тип сущности: канал, чат, человек, сообщение, прикреплённое медиа. Тип сущности и что какие байты значат берется из генерированного по API кода.
Необязательные параметры в документации помечаются степенью двойки. Наличие параметра определяется следующим образом: берутся 4 байта. Если логическое И этих байтов и двойки в степени из документации не равно нулю - значит параметр есть, повторяем вышеописанную процедуру разбора на нем. Если нет - идём дальше.
Жуткая наркомания, но в итоге по сети передаётся только полезная информация.
#телеграм
#палантир@eshu_coding
Помните, раньше говорилось, что телеграм - самый быстрый из мессенджеров и работает на самом убогом интернете? Причина скрыта в реализации протокола обмена данными клиентов и серверов.
Первое знакомство с протоколом вызывает бурю эмоций, но по прошествии времени проникаешься гениальностью замысла. API описано, на основании описания авторы клиентских библиотек генерируют основной код, после чего доводят библиотеку напильником.
Данные передаются через голый TCP, без всяких наворотов.
Принцип работы следующий: любая сущность представляет собой поток байтов. Первые 4 байта описывают тип сущности: канал, чат, человек, сообщение, прикреплённое медиа. Тип сущности и что какие байты значат берется из генерированного по API кода.
Необязательные параметры в документации помечаются степенью двойки. Наличие параметра определяется следующим образом: берутся 4 байта. Если логическое И этих байтов и двойки в степени из документации не равно нулю - значит параметр есть, повторяем вышеописанную процедуру разбора на нем. Если нет - идём дальше.
Жуткая наркомания, но в итоге по сети передаётся только полезная информация.
#телеграм
Telegram
СЛЕГ! <Z> ️
Ночные разговоры. Ещё один мой друг-программист познакомился с реальным протоколом телеграм вблизи. Причём, в отличии от меня, любителя, он программист настоящий.
Библиотеки высокого уровня абстракции (telethon, aiogram, etc) прячут от нас чудовищную мешанину…
Библиотеки высокого уровня абстракции (telethon, aiogram, etc) прячут от нас чудовищную мешанину…