DfD в на практике (3/3)
Ключевые приёмы DfD:
– Использование разъёмных соединений (demountable connections), а не жёстких стыков.
– Проектирование ясных зон доступа к узлам и оборудованию.
– Минимизация взаимозависимости компонентов: каждый элемент выполняет свою функцию и не «завязанный» на соседние системы.
– Разделение компонентов по разной продолжительности службы (например, фасад ≠ инженерия ≠ несущая структура).
Одним из пионеров DfD подхода является проект от Ryder Architecture — Stow-Away Hotel — пятиэтажный модульный отель на 20 номеров, собранный из 25 бывших морских контейнеров, вышедших из эксплуатации. Каждый контейнер — это самостоятельный номер, построенный как отдельное здание. Контейнеры уложены по схеме 5×5 и соединены так, чтобы весь отель можно было разобрать и собрать заново в другом месте по окончании срока аренды. Для этого инженерные системы каждого блока были спроектированы так, чтобы их можно было отключить в одной точке — над дверью, и затем подключить заново после перестановки
Ключевые приёмы DfD:
– Использование разъёмных соединений (demountable connections), а не жёстких стыков.
– Проектирование ясных зон доступа к узлам и оборудованию.
– Минимизация взаимозависимости компонентов: каждый элемент выполняет свою функцию и не «завязанный» на соседние системы.
– Разделение компонентов по разной продолжительности службы (например, фасад ≠ инженерия ≠ несущая структура).
Одним из пионеров DfD подхода является проект от Ryder Architecture — Stow-Away Hotel — пятиэтажный модульный отель на 20 номеров, собранный из 25 бывших морских контейнеров, вышедших из эксплуатации. Каждый контейнер — это самостоятельный номер, построенный как отдельное здание. Контейнеры уложены по схеме 5×5 и соединены так, чтобы весь отель можно было разобрать и собрать заново в другом месте по окончании срока аренды. Для этого инженерные системы каждого блока были спроектированы так, чтобы их можно было отключить в одной точке — над дверью, и затем подключить заново после перестановки
🔥4❤2
Changes: как и почему здания меняются.
Ещё одним ключевым понятием связанные с адаптивностью в архитектуре это изменения. Под изменениями (changes) понимаются трансформации в использовании здания, которые происходят, когда его внутренние характеристики или связи с другими элементами — например, с пользователями — изменяются. Т.е. это не то как здание меняется, а то как меняются условия, которые провоцируют адаптацию здания. Это может быть:
• смена типа или интенсивности эксплуатации;
• рост или снижение количества пользователей;
• ухудшение показателей эксплуатации, таких как техническая, энергетическая, экономическая или нормативная эффективность.
Изменения в использовании — главный фактор, определяющий необходимость адаптации здания. Для обеспечения адаптивности нужно предвидеть возможные изменения, чтобы закладывать гибкие решения ещё на этапе проектирования. Изменения часто запускаются в ответ на неудачи в работе здания: отказами в системах, несоответствием новым нормам и прочее. Адаптация не провоцируется одним изменением, это обычно следствие целого процесса изменений. Они охватывают и физические параметры здания, и социальные/операционные сценарии его использования. Вмешательство происходит не сразу, а когда накопилось достаточное расхождение между текущей ситуацией и требуемой
Когда разрыв между ожидаемой и текущей производительностью превышает порог, запускается одно или несколько вмешательств:
• адаптация (adaptation),
• обновление/реставрация (refurbishment),
• улучшение (improvement),
• техническое обслуживание (maintenance),
• модификация (modification),
• перестройка (rebuilding),
• капитальный ремонт (renovation),
• восстановление (rehabilitation),
• ремонт (repair),
• реставрация (restoration),
• модернизация (retrofitting).
Также различаются два типа трансформаций следующих за изменениями:
1. Смена функций здания (например, из школы в жильё);
2. Сохранение основной функции, но с приспособлением к изменившимся условиям. Мои исследование, например, сосредоточено на втором типе — как сохранить функцию здания в условиях внутренних и внешних трансформаций. Но об этом как ни будь в следующий раз.
Ещё одним ключевым понятием связанные с адаптивностью в архитектуре это изменения. Под изменениями (changes) понимаются трансформации в использовании здания, которые происходят, когда его внутренние характеристики или связи с другими элементами — например, с пользователями — изменяются. Т.е. это не то как здание меняется, а то как меняются условия, которые провоцируют адаптацию здания. Это может быть:
• смена типа или интенсивности эксплуатации;
• рост или снижение количества пользователей;
• ухудшение показателей эксплуатации, таких как техническая, энергетическая, экономическая или нормативная эффективность.
Изменения в использовании — главный фактор, определяющий необходимость адаптации здания. Для обеспечения адаптивности нужно предвидеть возможные изменения, чтобы закладывать гибкие решения ещё на этапе проектирования. Изменения часто запускаются в ответ на неудачи в работе здания: отказами в системах, несоответствием новым нормам и прочее. Адаптация не провоцируется одним изменением, это обычно следствие целого процесса изменений. Они охватывают и физические параметры здания, и социальные/операционные сценарии его использования. Вмешательство происходит не сразу, а когда накопилось достаточное расхождение между текущей ситуацией и требуемой
Когда разрыв между ожидаемой и текущей производительностью превышает порог, запускается одно или несколько вмешательств:
• адаптация (adaptation),
• обновление/реставрация (refurbishment),
• улучшение (improvement),
• техническое обслуживание (maintenance),
• модификация (modification),
• перестройка (rebuilding),
• капитальный ремонт (renovation),
• восстановление (rehabilitation),
• ремонт (repair),
• реставрация (restoration),
• модернизация (retrofitting).
Также различаются два типа трансформаций следующих за изменениями:
1. Смена функций здания (например, из школы в жильё);
2. Сохранение основной функции, но с приспособлением к изменившимся условиям. Мои исследование, например, сосредоточено на втором типе — как сохранить функцию здания в условиях внутренних и внешних трансформаций. Но об этом как ни будь в следующий раз.
Telegram
Field-to-Field
Что нужно знать об адаптивности, устойчивости, изменениях и гибкости в архитектуре
Здания это не фиксированные объекты, а открытые системы, способные меняться. Это особенно важно в условиях климатических, технологических и социальных сдвигов, которые формируют…
Здания это не фиксированные объекты, а открытые системы, способные меняться. Это особенно важно в условиях климатических, технологических и социальных сдвигов, которые формируют…
❤3
Архитектура как ответ на изменения условий
Проект Quinta Monroy (2004), авторства Алехандро Аравеной и бюро Elemental в Икике (Чили), стал знаковым примером того, как архитектура может структурно предусматривать будущие изменения, не зная их точных параметров.
Задача была предельно жёсткой: обеспечить жильём 100 семей с очень ограниченной государственной субсидией, при этом оно должно быть в центральной части города, где земля дорогая, но зато есть доступ к городской инфраструктуре, и оно ещё не должно оказаться тупиком для семей, развиваясь вместе с обитателями.
Ключевая идея: "половина дома" как инфраструктура. Каждая единица жилья была спроектирована как двухэтажный фрейм, содержащий прочную несущую структуру, лестницу, ванную, кухню, и все основные инженерные подключения — т.е. те элементы, которые невозможно качественно построить самостоятельно.
Оставшаяся часть дома была незаполненной — это было свободное пространство для будущего расширения, в рамках габаритов и логики общей структуры.
Проект Quinta Monroy (2004), авторства Алехандро Аравеной и бюро Elemental в Икике (Чили), стал знаковым примером того, как архитектура может структурно предусматривать будущие изменения, не зная их точных параметров.
Задача была предельно жёсткой: обеспечить жильём 100 семей с очень ограниченной государственной субсидией, при этом оно должно быть в центральной части города, где земля дорогая, но зато есть доступ к городской инфраструктуре, и оно ещё не должно оказаться тупиком для семей, развиваясь вместе с обитателями.
Ключевая идея: "половина дома" как инфраструктура. Каждая единица жилья была спроектирована как двухэтажный фрейм, содержащий прочную несущую структуру, лестницу, ванную, кухню, и все основные инженерные подключения — т.е. те элементы, которые невозможно качественно построить самостоятельно.
Оставшаяся часть дома была незаполненной — это было свободное пространство для будущего расширения, в рамках габаритов и логики общей структуры.
🔥3❤2
Успех и признание проекта Quinta Monroy в том, что его архитектура признаёт, что семейный состав изменится, доходы вырастут или уменьшатся, появятся новые поколения, социальный и физический контекст будет эволюционировать. И вместо того чтобы «решить проблему навсегда», проект предлагает адаптивную платформу — такую, которая не ломается от изменений, а работает вместе с ними.
Чтобы избежать хаотичной самостройки, структура была сделана пористой и направляющей: жильцы могут строить, но не разрушая окружающую ткань. Проект заложил рамки и пределы, внутри которых допустимы вариации.
Чтобы избежать хаотичной самостройки, структура была сделана пористой и направляющей: жильцы могут строить, но не разрушая окружающую ткань. Проект заложил рамки и пределы, внутри которых допустимы вариации.
❤4🔥3
Хотя adaptability часто используется как обобщающее понятие, некоторые авторы отличают его от flexibility (гибкость). Гибкость можно определить как способность к быстрым, низкозатратным, краткосрочным, частым, а также временным изменениям, например перестановка мебели, роботизированные перегородки, изменение геометрии акустического потолка. В то время как adaptability — это изменения редкие и долгосрочные, часто в ответ на глубокие ограничения, и вызванные накопительным эффектом сильных изменений о которых говорили в предыдущих постах.
Гибкость и адаптивность можно рассмотреть в более широкой рамке, как показано на схеме. Здесь появляются ещё два типа. Ограничения (constraints) — долгосрочная и постоянная недостаточная эффективность или отсутствие ресурса, как например высота технического этажа не позволяющая поставить современное оборудование. И перегрузка (congestion) — краткосрочные редкие, но острые и даже катастрофические события такие как резкое повышение интенсивности использования пространства.
Гибкость и адаптивность можно рассмотреть в более широкой рамке, как показано на схеме. Здесь появляются ещё два типа. Ограничения (constraints) — долгосрочная и постоянная недостаточная эффективность или отсутствие ресурса, как например высота технического этажа не позволяющая поставить современное оборудование. И перегрузка (congestion) — краткосрочные редкие, но острые и даже катастрофические события такие как резкое повышение интенсивности использования пространства.
👍4❤3
The Pitt — гибкость и перегрузка.
Взаимоотношения перегрузки и гибкости хорошо показано в сериале The Pitt (2025) про один день больницы Питсбурга и то как меняется её использование в экстренных ситуациях. В нём хорошо видно как меняется протокол использования пространства в критических ситуациях, при наплыве пациентов, что является и хорошей иллюстрацией и перегрузки и гибкости, которая заложена в самом устройстве и планировки современных больниц.
Например использование ширм, мобильного оборудования и открытых пространств для размещения больных позволяет переорганизовать пространство под обслуживание кратно большего количества пациентов.
Там же там хорошо показано перегрузка лобби где ожидают пациентов и то как невозможность изменить что-то в пространстве в этой ситуации ведет к социальной напряженности и ухудшение самочувствия.
Взаимоотношения перегрузки и гибкости хорошо показано в сериале The Pitt (2025) про один день больницы Питсбурга и то как меняется её использование в экстренных ситуациях. В нём хорошо видно как меняется протокол использования пространства в критических ситуациях, при наплыве пациентов, что является и хорошей иллюстрацией и перегрузки и гибкости, которая заложена в самом устройстве и планировки современных больниц.
Например использование ширм, мобильного оборудования и открытых пространств для размещения больных позволяет переорганизовать пространство под обслуживание кратно большего количества пациентов.
Там же там хорошо показано перегрузка лобби где ожидают пациентов и то как невозможность изменить что-то в пространстве в этой ситуации ведет к социальной напряженности и ухудшение самочувствия.
❤6🙏3
В Израиле экстренные ситуации часто связанны с обстрелами, поэтому в больницах часто используют подземный паркинги как буферное пространство. Есть специальные протоколы, того как туда в экстренных ситуациях перевозить больных и оборудование в кратчайшие сроки не нарушив процессы лечения.
Но при этом остается большой вопрос как оптимизировать проекты и существующие больницы так чтобы они могли хорошо и гибко меняться чтобы справится и сгладить негативные эффекты в подобных ситуациях. И главное как можно симулировать и оптимизировать процессы в разных пространствах чтобы затем выбрать лучшее решение.
Но при этом остается большой вопрос как оптимизировать проекты и существующие больницы так чтобы они могли хорошо и гибко меняться чтобы справится и сгладить негативные эффекты в подобных ситуациях. И главное как можно симулировать и оптимизировать процессы в разных пространствах чтобы затем выбрать лучшее решение.
🙏6❤5
1 июля на конференции “ИИ-лето” я расскажу о том, как можно использовать ИИ для синхронизации пространства, процессов и людей, на основе исследование, которое веду сейчас в университете Technion.
Большинство ИИ-инструментов в архитектуре сегодня сосредоточено на генерации изображений и форм. Однако архитектура — это не только форма, но и организация процессов внутри пространства. В условиях давления спросов и ограниченности ресурсов становится критически важно адаптировать пространство под меняющиеся сценарии использования.
В своем докладе я расскажу о ИИ-подходе к поиску оптимальных стратегий использования пространства, который опирается на взаимосвязи между пространством, людьми и процессами. Используя методы операционного планирования и алгоритмы обучения с подкреплением (reinforcement learning), мы анализируем и оптимизируем сценарии использования пространства — особенно в тех случаях, где необходимо синхронизировать время, ресурсы и потоки.
Этот подход применим к проектированию и анализу больниц, учебных заведений и других сложных пространств с высокой функциональной нагрузкой. Вы узнаете, как архитектурные задачи можно представить как задачи планирования, и как ИИ может стать новым инструментом для принятия решений в условиях ограниченных ресурсов и пересекающихся активностей.
Доклад будет полезен архитекторам, которые стремятся выйти за рамки визуального проектирования и заинтересованы в более глубоких, вычислительных методах оценки эффективности и адаптивности среды.
⏰ Время: 1 июля (вт), 14:20 по Москве, но лучше уточняйте подробное расписание в канале NishAI.
Большинство ИИ-инструментов в архитектуре сегодня сосредоточено на генерации изображений и форм. Однако архитектура — это не только форма, но и организация процессов внутри пространства. В условиях давления спросов и ограниченности ресурсов становится критически важно адаптировать пространство под меняющиеся сценарии использования.
В своем докладе я расскажу о ИИ-подходе к поиску оптимальных стратегий использования пространства, который опирается на взаимосвязи между пространством, людьми и процессами. Используя методы операционного планирования и алгоритмы обучения с подкреплением (reinforcement learning), мы анализируем и оптимизируем сценарии использования пространства — особенно в тех случаях, где необходимо синхронизировать время, ресурсы и потоки.
Этот подход применим к проектированию и анализу больниц, учебных заведений и других сложных пространств с высокой функциональной нагрузкой. Вы узнаете, как архитектурные задачи можно представить как задачи планирования, и как ИИ может стать новым инструментом для принятия решений в условиях ограниченных ресурсов и пересекающихся активностей.
Доклад будет полезен архитекторам, которые стремятся выйти за рамки визуального проектирования и заинтересованы в более глубоких, вычислительных методах оценки эффективности и адаптивности среды.
⏰ Время: 1 июля (вт), 14:20 по Москве, но лучше уточняйте подробное расписание в канале NishAI.
Telegram
NishAi | Нейросети для архитекторов
ИИ в архитектуре: кейсы, инструменты и эфиры от коллег
Участвовать в событиях — @nishai_bot
Участвовать в событиях — @nishai_bot
❤10🔥4👍2
Architecture in the Age of Artificial Intelligence (Neil Leach) — вводит архитекторов в мир ИИ, показывая, как алгоритмы меняют процесс проектирования от концепции до реализации.
Architectural Intelligence (Molly Wright Steenson) — исторический очерк о том, как архитекторы и дизайнеры с 1960-х годов вплетали кибернетику и ИИ в цифровой ландшафт профессии.
A Brief History of Artificial Intelligence (Samuel S. Wade) — стремительное путешествие по ключевым открытиям и поворотным моментам ИИ, раскрывающее его влияние на общество.
The Evolution of Computation in Architecture (Fox & Bell) — обзор эволюции вычислительных методов в архитектуре — от ранних CAD-систем до генеративных алгоритмов и машинного обучения.
Darwin among the Machines (George Dyson) — захватывающая история о том, как глобальные вычислительные сети развиваются по законам естественного отбора, формируя «цифровую жизнь».
Machines Like Us: Toward AI with Common Sense (Ronald J. Brachman & Hector J. Levesque) — аргумент в пользу создания ИИ, способного к здравому смыслу, и дорожная карта к этой цели.
Artificial Intelligence in Architecture (AD) — тематический выпуск, демонстрирующий новейшие проекты и исследования, где ИИ становится соавтором формы, структуры и функциональности.
Artificial Intelligence: A Modern Approach (Stuart Russell & Peter Norvig) — фундаментальный учебник, систематизирующий концепции, алгоритмы и практики, ставшие золотым стандартом для изучения ИИ.
Architectural Intelligence (Molly Wright Steenson) — исторический очерк о том, как архитекторы и дизайнеры с 1960-х годов вплетали кибернетику и ИИ в цифровой ландшафт профессии.
A Brief History of Artificial Intelligence (Samuel S. Wade) — стремительное путешествие по ключевым открытиям и поворотным моментам ИИ, раскрывающее его влияние на общество.
The Evolution of Computation in Architecture (Fox & Bell) — обзор эволюции вычислительных методов в архитектуре — от ранних CAD-систем до генеративных алгоритмов и машинного обучения.
Darwin among the Machines (George Dyson) — захватывающая история о том, как глобальные вычислительные сети развиваются по законам естественного отбора, формируя «цифровую жизнь».
Machines Like Us: Toward AI with Common Sense (Ronald J. Brachman & Hector J. Levesque) — аргумент в пользу создания ИИ, способного к здравому смыслу, и дорожная карта к этой цели.
Artificial Intelligence in Architecture (AD) — тематический выпуск, демонстрирующий новейшие проекты и исследования, где ИИ становится соавтором формы, структуры и функциональности.
Artificial Intelligence: A Modern Approach (Stuart Russell & Peter Norvig) — фундаментальный учебник, систематизирующий концепции, алгоритмы и практики, ставшие золотым стандартом для изучения ИИ.
❤3
Climatic Architecture (Philippe Rahm) — рассматривает здание как «климатическую машину», где форма и материал подчинены управлению теплом, светом и воздухом.
Adaptive Sensory Environments: An Introduction (Maria Lorena Lehman) — объясняет, как динамически настраивать свет, звук и визуальные стимулы, превращая пространство в чувствительную среду.
Cybernetics and the Constructed Environment (Zhao Zhang) — переосмысливает кибернетику, показывая, как архитектура может стать посредником между природными системами и цифровыми технологиями.
Architecture and Interaction: Human–Computer Interaction in Space and Place (ред. Dalton et al.) — объединяет HCI и архитектуру, раскрывая, как интерфейсы и сенсоры превращают пространство в интерактивный опыт.
Interactive Architecture: Adaptive World (ред. Michael Fox) — демонстрирует проекты, где конструкции изменяют конфигурацию в реальном времени, реагируя на людей и окружение.
Adaptive Architecture: Changing Parameters and Practice (ред. Preiser, Hardy & Wilhelm) — исследует методы проектирования и эксплуатации зданий, способных эволюционировать вместе с меняющимися климатическими и социальными требованиями.
Adaptive Sensory Environments: An Introduction (Maria Lorena Lehman) — объясняет, как динамически настраивать свет, звук и визуальные стимулы, превращая пространство в чувствительную среду.
Cybernetics and the Constructed Environment (Zhao Zhang) — переосмысливает кибернетику, показывая, как архитектура может стать посредником между природными системами и цифровыми технологиями.
Architecture and Interaction: Human–Computer Interaction in Space and Place (ред. Dalton et al.) — объединяет HCI и архитектуру, раскрывая, как интерфейсы и сенсоры превращают пространство в интерактивный опыт.
Interactive Architecture: Adaptive World (ред. Michael Fox) — демонстрирует проекты, где конструкции изменяют конфигурацию в реальном времени, реагируя на людей и окружение.
Adaptive Architecture: Changing Parameters and Practice (ред. Preiser, Hardy & Wilhelm) — исследует методы проектирования и эксплуатации зданий, способных эволюционировать вместе с меняющимися климатическими и социальными требованиями.
❤3
Philosophy and Simulation: The Emergence of Synthetic Reason (Manuel DeLanda) — раскрывает, как компьютерные симуляции формируют «синтетический разум», соединяя философию науки, теорию сложности и искусственную жизнь.
Building Performance Simulation for Design and Operation (ред. Jan L. M. Hensen & Roberto Lamberts) — всеобъемлющее руководство по моделированию энергопотребления, комфорта и устойчивости зданий на этапах проектирования и эксплуатации.
Co-Designers: Cultures of Computer Simulation in Architecture (Yanni Alexander Loukissas) — этнографический взгляд на то, как симуляционные инструменты меняют коллективную практику архитекторов и принятие проектных решений.
Building Performance Simulation for Design and Operation (ред. Jan L. M. Hensen & Roberto Lamberts) — всеобъемлющее руководство по моделированию энергопотребления, комфорта и устойчивости зданий на этапах проектирования и эксплуатации.
Co-Designers: Cultures of Computer Simulation in Architecture (Yanni Alexander Loukissas) — этнографический взгляд на то, как симуляционные инструменты меняют коллективную практику архитекторов и принятие проектных решений.
❤4
Я много раз упоминал что в своём исследовании я применяю обучение с подкреплением (Reinforcement Learning) для оптимизации распределения пространства и персонала в зданиях где важно расписание и планирование, таких как клиники. Цель — находить стратегии, которые адаптируются к изменяющемуся спросу и позволяют балансировать между операционной эффективностью, удобством для пользователей (например, сокращение расстояний для пациентов) и уплотнение использования пространства во времени. Но я как-то упускал рассказать, а что под капотом.
А использую я алгоритм Proximal Policy Optimization (PPO) из библиотеки Stable-Baselines3 (SB3). PPO — это on-policy алгоритм, основанный на архитектуре actor-critic, который сочетает обучение стратегии (policy) и оценочной функции (value function). Его ключевая особенность — ограниченное обновление стратегии (через кллипинг или доверительный регион), что обеспечивает стабильность и предотвращает разрушение уже обученной политики.
Что значит on-policy? Это означает, что алгоритм обучается исключительно на тех действиях, которые сам совершает в процессе взаимодействия с окружением. Это противоположно off-policy алгоритмам, которые могут использовать данные, полученные от других стратегий. On-policy подход делает обучение более стабильным, но обычно требует больше данных.
Кроме того, я использую расширение Maskable PPO, которое позволяет маскировать недопустимые действия в конкретных состояниях среды — это критично для задач, где не все действия допустимы всегда, как в планировании расписаний и распределении ресурсов.
Используемые библиотеки:
🧠 SB3: https://github.com/DLR-RM/stable-baselines3
🛠 SB3-Contrib (Maskable PPO): https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
А использую я алгоритм Proximal Policy Optimization (PPO) из библиотеки Stable-Baselines3 (SB3). PPO — это on-policy алгоритм, основанный на архитектуре actor-critic, который сочетает обучение стратегии (policy) и оценочной функции (value function). Его ключевая особенность — ограниченное обновление стратегии (через кллипинг или доверительный регион), что обеспечивает стабильность и предотвращает разрушение уже обученной политики.
Что значит on-policy? Это означает, что алгоритм обучается исключительно на тех действиях, которые сам совершает в процессе взаимодействия с окружением. Это противоположно off-policy алгоритмам, которые могут использовать данные, полученные от других стратегий. On-policy подход делает обучение более стабильным, но обычно требует больше данных.
Кроме того, я использую расширение Maskable PPO, которое позволяет маскировать недопустимые действия в конкретных состояниях среды — это критично для задач, где не все действия допустимы всегда, как в планировании расписаний и распределении ресурсов.
Используемые библиотеки:
🧠 SB3: https://github.com/DLR-RM/stable-baselines3
🛠 SB3-Contrib (Maskable PPO): https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
GitHub
GitHub - DLR-RM/stable-baselines3: PyTorch version of Stable Baselines, reliable implementations of reinforcement learning algorithms.
PyTorch version of Stable Baselines, reliable implementations of reinforcement learning algorithms. - GitHub - DLR-RM/stable-baselines3: PyTorch version of Stable Baselines, reliable implementatio...
❤7🔥2
Model-free vs. model-based RL
Обучение с подкреплением (RL) — это когда агент (как архитектор-стажёр в мастерской) в каждом состоянии делает действие и получает вознаграждение. Его цель — научиться стратегии действий, дающей наилучший суммарный результат. В предыдущем посте я упоминал о RL, который использую, но не уточнил, что это именно model-free. Однако внутри RL есть два основных подхода — model-free и model-based, о которых подробнее далее. А пример с архитектором надеюсь поможет.
Обучение с подкреплением (RL) — это когда агент (как архитектор-стажёр в мастерской) в каждом состоянии делает действие и получает вознаграждение. Его цель — научиться стратегии действий, дающей наилучший суммарный результат. В предыдущем посте я упоминал о RL, который использую, но не уточнил, что это именно model-free. Однако внутри RL есть два основных подхода — model-free и model-based, о которых подробнее далее. А пример с архитектором надеюсь поможет.
Telegram
Field-to-Field
Я много раз упоминал что в своём исследовании я применяю обучение с подкреплением (Reinforcement Learning) для оптимизации распределения пространства и персонала в зданиях где важно расписание и планирование, таких как клиники. Цель — находить стратегии…
❤2
Model-free — учиться «на лету»
Представьте архитектора-стажёра, который строит из палочек мост методом проб и ошибок. Конструкция падает — за это он получает «нагоняй». Конструкция устояла — за это его хвалят. Чем дальше он продвинулся, тем выше суммарная похвала. Так шаг за шагом он меняет схему, добавляет стяжки и постепенно накапливает опыт. У него нет внутренней модели физики, он просто учится на последствиях собственных действий. Технически это означает, что алгоритм напрямую учит политику (как действовать) и/или ценность (насколько хороша ситуация), опираясь лишь на историю взаимодействий.
Примеры:
Q-learning — самый простой и классический алгоритм, которым можно «на коленке» показать, как работает обучение с подкреплением. Хорош для понимания базовой идеи.
DQN (Deep Q-Network) — расширение Q-learning, где для оценки действий используется нейросеть. Стал известен благодаря играм Atari: агент учился играть только глядя на пиксели.
PPO (Proximal Policy Optimization) — популярный и надёжный алгоритм из семейства policy gradient. Работает как с дискретными, так и с непрерывными действиями.
DDPG (Deep Deterministic Policy Gradient) — алгоритм для непрерывных пространств действий. Часто применяется в робототехнике, где нужно управлять реальными движениями.
SAC (Soft Actor-Critic) и TD3 (Twin Delayed DDPG) — более современные варианты, которые добавляют устойчивость и эффективность в задачах с непрерывным управлением.
Представьте архитектора-стажёра, который строит из палочек мост методом проб и ошибок. Конструкция падает — за это он получает «нагоняй». Конструкция устояла — за это его хвалят. Чем дальше он продвинулся, тем выше суммарная похвала. Так шаг за шагом он меняет схему, добавляет стяжки и постепенно накапливает опыт. У него нет внутренней модели физики, он просто учится на последствиях собственных действий. Технически это означает, что алгоритм напрямую учит политику (как действовать) и/или ценность (насколько хороша ситуация), опираясь лишь на историю взаимодействий.
Примеры:
Q-learning — самый простой и классический алгоритм, которым можно «на коленке» показать, как работает обучение с подкреплением. Хорош для понимания базовой идеи.
DQN (Deep Q-Network) — расширение Q-learning, где для оценки действий используется нейросеть. Стал известен благодаря играм Atari: агент учился играть только глядя на пиксели.
PPO (Proximal Policy Optimization) — популярный и надёжный алгоритм из семейства policy gradient. Работает как с дискретными, так и с непрерывными действиями.
DDPG (Deep Deterministic Policy Gradient) — алгоритм для непрерывных пространств действий. Часто применяется в робототехнике, где нужно управлять реальными движениями.
SAC (Soft Actor-Critic) и TD3 (Twin Delayed DDPG) — более современные варианты, которые добавляют устойчивость и эффективность в задачах с непрерывным управлением.
❤5
Model-based — учиться «по плану»
Другой стажёр знает немного физику и использует Grasshopper + Kangaroo Physics. Он может симулировать поведение стержней, заранее просматривать последствия шагов и планировать сборку. В терминах RL это означает, что агент учит модель среды — функцию, которая на основе текущего состояния и выбранного действия предполагает следующее состояние и награду. Эта функция позволяет предсказывать и планировать возможные успешные действия и тем самым помогает выбрать текущее.
Примеры:
Dyna-Q — один из первых гибридных алгоритмов: агент одновременно учится на опыте и планирует на основе выученной модели переходов.
PETS (Probabilistic Ensembles with Trajectory Sampling) — использует ансамбль вероятностных моделей динамики, чтобы учитывать неопределённость и лучше предсказывать будущее.
MBPO (Model-Based Policy Optimization) — комбинирует короткие симулированные траектории с реальными данными, чтобы избежать накопления ошибок модели.
Dreamer / DreamerV2 — учится в «латентном пространстве» внутренней мировой модели и действует, воображая будущие сценарии, не взаимодействуя напрямую с внешней средой.
MuZero — алгоритм DeepMind, который научился играть в шахматы, го и Atari, не зная заранее правил: он сам строит модель переходов и наград из опыта.
Другой стажёр знает немного физику и использует Grasshopper + Kangaroo Physics. Он может симулировать поведение стержней, заранее просматривать последствия шагов и планировать сборку. В терминах RL это означает, что агент учит модель среды — функцию, которая на основе текущего состояния и выбранного действия предполагает следующее состояние и награду. Эта функция позволяет предсказывать и планировать возможные успешные действия и тем самым помогает выбрать текущее.
Примеры:
Dyna-Q — один из первых гибридных алгоритмов: агент одновременно учится на опыте и планирует на основе выученной модели переходов.
PETS (Probabilistic Ensembles with Trajectory Sampling) — использует ансамбль вероятностных моделей динамики, чтобы учитывать неопределённость и лучше предсказывать будущее.
MBPO (Model-Based Policy Optimization) — комбинирует короткие симулированные траектории с реальными данными, чтобы избежать накопления ошибок модели.
Dreamer / DreamerV2 — учится в «латентном пространстве» внутренней мировой модели и действует, воображая будущие сценарии, не взаимодействуя напрямую с внешней средой.
MuZero — алгоритм DeepMind, который научился играть в шахматы, го и Atari, не зная заранее правил: он сам строит модель переходов и наград из опыта.
❤2