#spatialmodels
Сегодня пост про одну из самых популярных задач геомаркетинга, которую благодаря хакатону whoosh мне,наконец-то, удалось реализовать на практике и частично провалидировать. Задача звучит следующим образом: оценить потока людей, проходящих по определенному участку города, без использования фактических данных. Кому нужен ответ на этот вопрос? В первую очередь, конечно, стрит-ритейлу или стрит-фуду, которые хотят, чтобы к ним заходило как можно больше людей. Еще это может быть интересно сервисам аренды мест наружней рекламы или проката самокатов, так как их показатели напрямую зависят от того, сколько людей ходит мимо. Также, ее используют для оценки пассажиропотока при создании транспортных узлов.
Так вот, если компания чуть меньше , чем Старбакс и купить данные мобильных операторов или gps-данные для нее слишком дорого, то для ответа на этот вопрос можно использовать гравитационную модель, одну из моделей семейства spatial interactions models. Сразу оговорюсь, что модель работает только на уже заселенной территории - для проектирования потоков на новых участках используют методы spatial syntax.
Идея гравитационной модели следующая: между двумя локациями поток людей перетекает из одной точки в другую пропорционально привлекательности финальной точки и обратно пропорционально затратам на ее достижение. При этом под привлекательностью обычно понимают вместимость финальной точки, а под затратами время. Но прелесть алгоритма в том, что в зависимости от задачи эти переменные можно сколько угодно усложнять, закладывая в них более комплексные показатели. По этому алгоритму считается вероятность, с которой люди выберут определенное направление. Потом вероятность взвешивается на объем спроса в исходной точке и получается размер потока.
Теперь на примере. Для задачи хакатона я оценивала с помощью этой модели, сколько людей в Москве перемещается между станциями метро и бизнес-центрами в утренние и вечерние часы пик. Для этого с Open Street Map был выгружен список БЦ Москвы с их этажностью ( tag=‘level’, way“building"="office”) и координаты выходов из станций метро, которые затем были сгруппированы в кластеры с радиусом 200 метров.
Далее через этажность и средний % работников, добирающихся на работу на общественном транспорте, я расчитала сколько людей из бц идет в метро - это объем спроса в исходной точке. Привлекательность зоны метро - это число веток, на которые можно попасть с этой станции (если заморочиться можно перевзвесить на число всех доступных станций метро по прямой), затраты : время по пешеходному графу ( можно посчитать из osmnx ). Подставляя в формулу получаем объем потока. Размазываем его по длительности пиковых часов, складываем все цифры по каждому участку улиц и вуаля, у нас есть число пешеходов, да еще с определенным уровнем дохода, в час на конкретном участке. ( Формула и иллюстрация логики ниже)
Важный момент здесь - как привязать получившееся число к улицам и здесь есть несколько вариантов:
1. можно брать кратчайший путь между каждым бц и метро и считать что весь поток идет по нему
2. можно брать n путей по длительности не больше, например, 15 мин и распределять пропорционально или взвесив на длину
3. можно использовать алгоритмы space syntax для решения задачи choice, где решающим фактором является геометрия улиц
Мы использовали 2 вариант, заложив, что время до метро не должно превышать 20 мин, но взвесили не только на длину, но и пешеходную привлекательность улицы, которую расчитали через WalkScore( писала о нем раньше)
В итоге мы получили покрытие числом пешеходов 94% улиц в пределах 3-ьего транспортного и 38% за его пределами в часы пик. Корелляция в центре с числом поездок на самокатах whoosh - 77%. Кажется, вполне рабочий алгоритм для оценки потоков в рабочие будни.
Еще немножко про модель гравитации можно почитать здесь и здесь.
Сегодня пост про одну из самых популярных задач геомаркетинга, которую благодаря хакатону whoosh мне,наконец-то, удалось реализовать на практике и частично провалидировать. Задача звучит следующим образом: оценить потока людей, проходящих по определенному участку города, без использования фактических данных. Кому нужен ответ на этот вопрос? В первую очередь, конечно, стрит-ритейлу или стрит-фуду, которые хотят, чтобы к ним заходило как можно больше людей. Еще это может быть интересно сервисам аренды мест наружней рекламы или проката самокатов, так как их показатели напрямую зависят от того, сколько людей ходит мимо. Также, ее используют для оценки пассажиропотока при создании транспортных узлов.
Так вот, если компания чуть меньше , чем Старбакс и купить данные мобильных операторов или gps-данные для нее слишком дорого, то для ответа на этот вопрос можно использовать гравитационную модель, одну из моделей семейства spatial interactions models. Сразу оговорюсь, что модель работает только на уже заселенной территории - для проектирования потоков на новых участках используют методы spatial syntax.
Идея гравитационной модели следующая: между двумя локациями поток людей перетекает из одной точки в другую пропорционально привлекательности финальной точки и обратно пропорционально затратам на ее достижение. При этом под привлекательностью обычно понимают вместимость финальной точки, а под затратами время. Но прелесть алгоритма в том, что в зависимости от задачи эти переменные можно сколько угодно усложнять, закладывая в них более комплексные показатели. По этому алгоритму считается вероятность, с которой люди выберут определенное направление. Потом вероятность взвешивается на объем спроса в исходной точке и получается размер потока.
Теперь на примере. Для задачи хакатона я оценивала с помощью этой модели, сколько людей в Москве перемещается между станциями метро и бизнес-центрами в утренние и вечерние часы пик. Для этого с Open Street Map был выгружен список БЦ Москвы с их этажностью ( tag=‘level’, way“building"="office”) и координаты выходов из станций метро, которые затем были сгруппированы в кластеры с радиусом 200 метров.
Далее через этажность и средний % работников, добирающихся на работу на общественном транспорте, я расчитала сколько людей из бц идет в метро - это объем спроса в исходной точке. Привлекательность зоны метро - это число веток, на которые можно попасть с этой станции (если заморочиться можно перевзвесить на число всех доступных станций метро по прямой), затраты : время по пешеходному графу ( можно посчитать из osmnx ). Подставляя в формулу получаем объем потока. Размазываем его по длительности пиковых часов, складываем все цифры по каждому участку улиц и вуаля, у нас есть число пешеходов, да еще с определенным уровнем дохода, в час на конкретном участке. ( Формула и иллюстрация логики ниже)
Важный момент здесь - как привязать получившееся число к улицам и здесь есть несколько вариантов:
1. можно брать кратчайший путь между каждым бц и метро и считать что весь поток идет по нему
2. можно брать n путей по длительности не больше, например, 15 мин и распределять пропорционально или взвесив на длину
3. можно использовать алгоритмы space syntax для решения задачи choice, где решающим фактором является геометрия улиц
Мы использовали 2 вариант, заложив, что время до метро не должно превышать 20 мин, но взвесили не только на длину, но и пешеходную привлекательность улицы, которую расчитали через WalkScore( писала о нем раньше)
В итоге мы получили покрытие числом пешеходов 94% улиц в пределах 3-ьего транспортного и 38% за его пределами в часы пик. Корелляция в центре с числом поездок на самокатах whoosh - 77%. Кажется, вполне рабочий алгоритм для оценки потоков в рабочие будни.
Еще немножко про модель гравитации можно почитать здесь и здесь.
Forwarded from City’s Backyard
Хорошее разъяснение вечной темы о том, сколько же знаков после запятой достаточно в геокоординатах, с референсом прекрасного комикса от XKCD на ту же тему.
https://observablehq.com/@mourner/latitude-and-longitude-precision
https://observablehq.com/@mourner/latitude-and-longitude-precision
Observable
Latitude and longitude precision
How many decimal digits do you need for longitude and latitude? Following the famous XKCD comic on coordinate precision, let's see how this looks on a map. There's a location defined at the bottom of this page, but we've rounded the coordinates to integers…
Forwarded from ML in Marketing - events & meetups
Всем привет!
В эту пятницу (17 сентября) ждем вас на нашем митапе
🔥 Будет большой рассказ про ГЕО-аналитику
@MLinMarketing
🔸19:00 - 20:00
🎤 Инесса Трегубова,
- Geodata analyst at Яндекс Лавка
- автор телеграм канала о гео данных @datainthecity
📋 Пространственная аналитика в задачах геомаркетинга
📋 В докладе расскажу, как и зачем используют геоданные в маркетинге. Обсудим специфику сбора и процессинга пространственных данных, а также несколько ML моделей, с помощью которых можно делать выводы о том, насколько тот или иной участок подходит для целей бизнеса. Покажем, какие задачи можно решать в бизнесе.
— — —
🗓 17 сентября, начало в 19:00 мск, Пятница
🌐 ОНЛАЙН
Регистрация на мероприятие тут
Добавляйте в календарь, ссылка придет на почту перед началом митапа
В эту пятницу (17 сентября) ждем вас на нашем митапе
🔥 Будет большой рассказ про ГЕО-аналитику
@MLinMarketing
🔸19:00 - 20:00
🎤 Инесса Трегубова,
- Geodata analyst at Яндекс Лавка
- автор телеграм канала о гео данных @datainthecity
📋 Пространственная аналитика в задачах геомаркетинга
📋 В докладе расскажу, как и зачем используют геоданные в маркетинге. Обсудим специфику сбора и процессинга пространственных данных, а также несколько ML моделей, с помощью которых можно делать выводы о том, насколько тот или иной участок подходит для целей бизнеса. Покажем, какие задачи можно решать в бизнесе.
— — —
🗓 17 сентября, начало в 19:00 мск, Пятница
🌐 ОНЛАЙН
Регистрация на мероприятие тут
Добавляйте в календарь, ссылка придет на почту перед началом митапа
#geodata
" Построить модель любой может, куда сложнее найти для неё данные" - сказал мне недавно знакомый, который последние 3 года занимается моделями на стыке городской экономики и транспорта. Хотя это справедливо для любой отрасли, для города это особенно актуально.
Дело в том, что у городских данных нет единого владельца: часть данных принадлежит органам власти, часть есть у компаний, например такси, или девелопмента, и совсем немного данных у жителей города. Как результат неполные данные негативно влияют на качество принятия решений
В такой ситуации инициативы по развитию открытых источников данных как эта : http://osm-competition.tilda.ws/ супер важны.
OpenStreetMap - это источник данных об инфраструктуре, которым пользуются абсолютно все: от студента геофака до Яндекса. Построить граф дорог, получить информацию о высотности зданий в районе, посчитать число деревьев на улице итд - вся эта возможно сделать с помощью данных OpenStreetMap (OSM) и часто только с помощью данных OSM. И поэтому обидно, когда найдя статью по моделированию динамического ограничения скорости в Лондоне или Цюрихе, ты не можешь повторить ее на российский городах, потому что для них в OSM нет данных.
Еще одно "за" поучаствовать в конкурсе- это хорошая возможность научиться рисовать карты руками для, тех кто как и я , этого раньше не делал. Авторы сделали подробную инструкцию по добавлению объектов на OSM. Пожалуй, лучшую на русском языке из тех, что я видела в интернете.
" Построить модель любой может, куда сложнее найти для неё данные" - сказал мне недавно знакомый, который последние 3 года занимается моделями на стыке городской экономики и транспорта. Хотя это справедливо для любой отрасли, для города это особенно актуально.
Дело в том, что у городских данных нет единого владельца: часть данных принадлежит органам власти, часть есть у компаний, например такси, или девелопмента, и совсем немного данных у жителей города. Как результат неполные данные негативно влияют на качество принятия решений
В такой ситуации инициативы по развитию открытых источников данных как эта : http://osm-competition.tilda.ws/ супер важны.
OpenStreetMap - это источник данных об инфраструктуре, которым пользуются абсолютно все: от студента геофака до Яндекса. Построить граф дорог, получить информацию о высотности зданий в районе, посчитать число деревьев на улице итд - вся эта возможно сделать с помощью данных OpenStreetMap (OSM) и часто только с помощью данных OSM. И поэтому обидно, когда найдя статью по моделированию динамического ограничения скорости в Лондоне или Цюрихе, ты не можешь повторить ее на российский городах, потому что для них в OSM нет данных.
Еще одно "за" поучаствовать в конкурсе- это хорошая возможность научиться рисовать карты руками для, тех кто как и я , этого раньше не делал. Авторы сделали подробную инструкцию по добавлению объектов на OSM. Пожалуй, лучшую на русском языке из тех, что я видела в интернете.
osm-competition.tilda.ws
Конкурс OSM карт
Forwarded from ML in Marketing - events & meetups
🧞♂️ ВИДЕО с ML in Marketing Meetup
@MLinMarketing
📋 Тема: Пространственная аналитика в задачах геомаркетинга
📋 Описание: В докладе расскажу, как и зачем используют геоданные в маркетинге. Обсудим специфику сбора и процессинга пространственных данных, а также несколько ML моделей, с помощью которых можно делать выводы о том, насколько тот или иной участок подходит для целей бизнеса. Покажем, какие задачи можно решать в бизнесе.
🎤 Инесса Трегубова,
- Geodata analyst at Яндекс Лавка
- автор телеграм канала о геоданных @datainthecity
🎬 Видео на youtube
📥 Презентация
— — —
Кстати, вопросы по докладу можно задавать тут же в комментариях ;)
— — —
Тут же в комментариях опубликуем запись с QnA сессии, ее нет на youtube
@MLinMarketing
📋 Тема: Пространственная аналитика в задачах геомаркетинга
📋 Описание: В докладе расскажу, как и зачем используют геоданные в маркетинге. Обсудим специфику сбора и процессинга пространственных данных, а также несколько ML моделей, с помощью которых можно делать выводы о том, насколько тот или иной участок подходит для целей бизнеса. Покажем, какие задачи можно решать в бизнесе.
🎤 Инесса Трегубова,
- Geodata analyst at Яндекс Лавка
- автор телеграм канала о геоданных @datainthecity
🎬 Видео на youtube
📥 Презентация
— — —
Кстати, вопросы по докладу можно задавать тут же в комментариях ;)
— — —
Тут же в комментариях опубликуем запись с QnA сессии, ее нет на youtube
В приложение к записи лекции и разговору об OpenStreetMap даю ссылку на свой скрипт на питоне, где показаны 3 способа как выгружать данные из OpenStreetMap и какие базовые операции можно совершать над геоданными.
И еще раз напоминаю про конкурс, где вы можете внести вклад в расширение базы данных OSM по России. Это очень важная инициатива , поскольку полнота данных - один из факторов качественной аналитики
И еще раз напоминаю про конкурс, где вы можете внести вклад в расширение базы данных OSM по России. Это очень важная инициатива , поскольку полнота данных - один из факторов качественной аналитики
GitHub
all_geodata_scripts/Демострация работы с геоданными.ipynb at f5edd3648b94f194f8202219d0eac94088173a64 · Ines2607/all_geodata_scripts
Contribute to Ines2607/all_geodata_scripts development by creating an account on GitHub.
👍1
#spatialmodels
Твиттер подбросил на днях статью о квантификации городской морфологии с помощью открытых библиотек питона.
Три плюса данной статьи:
1. весь текст есть в открытом доступе и на гитхабе выложены все рабочие ноутбуки авторов
2. внутри есть перечень и обзор основных библиотеки питона для геопространственного анализа с ссылками на статьи, где можно найти примеры их применения
3. она содержит список метрик для оценки городской морфологии
Автор пишет о том, что в основном все существующие школы, методологии изучения городской среды и инструменты сосредоточены на анализе сетки улиц по графу в отрыве от особенностей застройки.
В качестве примера использования этих метрик он сравнивает между собой группы городов, относящиеся к разным историческим периодам.
Мои собственные наблюдения:
1. Взяла на заметку способ схематизации морфологии с помощью диаграммы Вороного ( Voronoi Tessellation)
2. Статья наводит на вопрос о добавленной ценности приведенных в статье "морфометрик" . Кажется что особенности застройки тесно связаны с такими признаками уличной сети, как плотность улиц, связность и проходимость, поэтому честным было бы добавить более популярные метрики и посмотреть на их фоне, какую новую информацию о городе несут "морфометрики"
Твиттер подбросил на днях статью о квантификации городской морфологии с помощью открытых библиотек питона.
Три плюса данной статьи:
1. весь текст есть в открытом доступе и на гитхабе выложены все рабочие ноутбуки авторов
2. внутри есть перечень и обзор основных библиотеки питона для геопространственного анализа с ссылками на статьи, где можно найти примеры их применения
3. она содержит список метрик для оценки городской морфологии
Автор пишет о том, что в основном все существующие школы, методологии изучения городской среды и инструменты сосредоточены на анализе сетки улиц по графу в отрыве от особенностей застройки.
В качестве примера использования этих метрик он сравнивает между собой группы городов, относящиеся к разным историческим периодам.
Мои собственные наблюдения:
1. Взяла на заметку способ схематизации морфологии с помощью диаграммы Вороного ( Voronoi Tessellation)
2. Статья наводит на вопрос о добавленной ценности приведенных в статье "морфометрик" . Кажется что особенности застройки тесно связаны с такими признаками уличной сети, как плотность улиц, связность и проходимость, поэтому честным было бы добавить более популярные метрики и посмотреть на их фоне, какую новую информацию о городе несут "морфометрики"
Wiley Online Library
Evolution of Urban Patterns: Urban Morphology as an Open Reproducible Data Science
The recent growth of geographic data science (GDS) fuelled by increasingly available open data and open source tools has influenced urban sciences across a multitude of fields. Yet there is limited a...
На днях на coursera вышел курс "Умный город" от МФТИ в рамках специализации "Цифровые города будущего" , в котором мы с моими коллегами постарались с разных точек зрения посмотреть на то, что сегодняшний мир называет " Smart city" и как цифровое развитие города влияет на повседневную жизнь его жителей .
Курс сделан для максимально широкой аудитории, поэтому несмотря на наличие юридической и аналитической частей никакой специальной подготовки он не требует.
Фидбек очень приветствуется:)
Курс сделан для максимально широкой аудитории, поэтому несмотря на наличие юридической и аналитической частей никакой специальной подготовки он не требует.
Фидбек очень приветствуется:)
Forwarded from посттёма
Завтра стартует классная конференция Urban Tech Summit в Cornell Tech про городские технологии, умные города, устойчивость и влияние пандемии.
Кроме уже привычных тем развития технологий, кейсов и public policy есть интересные исследовательские дискуссии, посвященные справедливости, неравенству и скрытым рискам, которые несёт в себе урбантех. Буду слушать и вам рекомендую!
Конференция пройдет 8 – 10 ноября. Программа тут, нужно предварительно зарегистрироваться.
Кроме уже привычных тем развития технологий, кейсов и public policy есть интересные исследовательские дискуссии, посвященные справедливости, неравенству и скрытым рискам, которые несёт в себе урбантех. Буду слушать и вам рекомендую!
Конференция пройдет 8 – 10 ноября. Программа тут, нужно предварительно зарегистрироваться.
Scnyurbantech
Program SCNY Urban Tech Summit 2021 —
Program of SCNY Urban Tech Summit 2021 New York, Roosevelt Island, Cornell Tech
Последние месяцы моя работа тесно связана с построением модели оценки потенциала локации. За это время я перечитала с десяток статей, где используются методы от обычной линейной регрессии до Марковский цепей и агентских моделей (agent -based models) . Но несмотря на это вопросов у меня намного больше, чем ответов. Так что в нескольких постах ниже попробую поделиться некоторыми своими выводами и сомнениями, ожидая получить комментарии от тех, кому раньше приходилось сталкиваться с этими моделями на практике
#ABM Почему в задачах оценки потенциала локации не работает "голая" регрессия?
Расскажу на примере.
Где-то месяц назад я слушала лекцию Градплана Москвы о расчете экономического потенциала нового ЖК. Основная идея: оценить устойчивость развития планируемого ЖК и определить окупят ли доходы в городскую казну от ЖК расходы на его содержание.
Значительную часть выступления занял рассказ про базовый инвестиционный анализ с расчетом срока окупаемости и моделированием денежных потоков– ничего нового для тех, кто хотя бы раз строил фин модель.
Более интересной была 2-ая часть: в ней докладчик рассказывал про модель оценки влияния различных факторов на стоимость 1 кв. м. по административным районам Москвы (то что, называют в западной литературе hedonic modelling), которую институт разработал в июле этого года.
В основе лежит линейная регрессия, точнее регрессии – по одной на район -в качестве параметров которых выступают такие факторы, как возраст здания, расстояние до станции метро, наличие культурного объекта поблизости и тд (часть можно разглядеть на фото). Если предположить (в докладе этого не упоминалось), что выборка репрезентативна (одинаковое кол-во информации о цене кв м для построек разного возраста), факторы, включенные в модель статзначимы и линейно независимы друг от друга, а остатки прогноза не зависят от цены за кв м, то кажется, что модель должна быть рабочей.
Так в чем же проблема? А проблема в том, что именно показывает модель и как ее можно использовать. На самом деле все, что можно с помощью нее узнать, это степень с которой в конкретный период времени в конкретном районе факторы, связанные с качеством инфраструктуры, локацией и характеристиками постройки влияли на цену жилья.
Почему этого недостаточно?
1. Во-первых, потому что институт занимается оценкой потенциала территорий на 5-7 лет вперед, а значит и цифры им нужны не сегодняшние, а прогнозные. Учитывая короткий период для построения модели и отсутствия динамических факторов , ожидать высокой точности не приходится. Кстати, сам докладчик сказал, что уже в октябре модель построенная в июле, начинает ошибаться – что говорить о точности через год.
2. Эту модель так же не получится использовать, чтобы предсказать стоимость жилья в новом ЖК внутри района. Учитывая конкуренцию при предложении цены, с появлением нового игрока произойдет перевзвешивание коэффициентов перед ключевыми параметрами модели, и она потеряет свою точность. Нужна 2-ая модель, которая бы на исторической выборке оценивала бы дельту ошибки возникающей при появлении нового ЖК.
3. Также, эту модель не получится использовать, что оценить как повлияли инфраструктурные изменения внутри городской территории на стоимость жилья. Трудно представить, что при сдвиге остановки автобуса на 1 м стоимость 1 кв м вокруг изменится на 11тыс руб. Для оценки вклада нужна другая модель, которая бы на этой динамике обучалась.
Вывод из этого можно сделать следующий: для задачи прогноза развития территорий нужно использовать специальный класс моделей, который умеет не только объяснять текущие и прошлые зависимости, но и «симулировать будущее». В разных источниках можно увидеть разные названия для этой группы - чаще всего используют (geo)simulation models или land-use (change) models. Про них отдельно.
Расскажу на примере.
Где-то месяц назад я слушала лекцию Градплана Москвы о расчете экономического потенциала нового ЖК. Основная идея: оценить устойчивость развития планируемого ЖК и определить окупят ли доходы в городскую казну от ЖК расходы на его содержание.
Значительную часть выступления занял рассказ про базовый инвестиционный анализ с расчетом срока окупаемости и моделированием денежных потоков– ничего нового для тех, кто хотя бы раз строил фин модель.
Более интересной была 2-ая часть: в ней докладчик рассказывал про модель оценки влияния различных факторов на стоимость 1 кв. м. по административным районам Москвы (то что, называют в западной литературе hedonic modelling), которую институт разработал в июле этого года.
В основе лежит линейная регрессия, точнее регрессии – по одной на район -в качестве параметров которых выступают такие факторы, как возраст здания, расстояние до станции метро, наличие культурного объекта поблизости и тд (часть можно разглядеть на фото). Если предположить (в докладе этого не упоминалось), что выборка репрезентативна (одинаковое кол-во информации о цене кв м для построек разного возраста), факторы, включенные в модель статзначимы и линейно независимы друг от друга, а остатки прогноза не зависят от цены за кв м, то кажется, что модель должна быть рабочей.
Так в чем же проблема? А проблема в том, что именно показывает модель и как ее можно использовать. На самом деле все, что можно с помощью нее узнать, это степень с которой в конкретный период времени в конкретном районе факторы, связанные с качеством инфраструктуры, локацией и характеристиками постройки влияли на цену жилья.
Почему этого недостаточно?
1. Во-первых, потому что институт занимается оценкой потенциала территорий на 5-7 лет вперед, а значит и цифры им нужны не сегодняшние, а прогнозные. Учитывая короткий период для построения модели и отсутствия динамических факторов , ожидать высокой точности не приходится. Кстати, сам докладчик сказал, что уже в октябре модель построенная в июле, начинает ошибаться – что говорить о точности через год.
2. Эту модель так же не получится использовать, чтобы предсказать стоимость жилья в новом ЖК внутри района. Учитывая конкуренцию при предложении цены, с появлением нового игрока произойдет перевзвешивание коэффициентов перед ключевыми параметрами модели, и она потеряет свою точность. Нужна 2-ая модель, которая бы на исторической выборке оценивала бы дельту ошибки возникающей при появлении нового ЖК.
3. Также, эту модель не получится использовать, что оценить как повлияли инфраструктурные изменения внутри городской территории на стоимость жилья. Трудно представить, что при сдвиге остановки автобуса на 1 м стоимость 1 кв м вокруг изменится на 11тыс руб. Для оценки вклада нужна другая модель, которая бы на этой динамике обучалась.
Вывод из этого можно сделать следующий: для задачи прогноза развития территорий нужно использовать специальный класс моделей, который умеет не только объяснять текущие и прошлые зависимости, но и «симулировать будущее». В разных источниках можно увидеть разные названия для этой группы - чаще всего используют (geo)simulation models или land-use (change) models. Про них отдельно.
Ребята делают очень классный полезный продукт, попросили поделиться новостью об открытой вакансии
Forwarded from Городские проекты
Ищем фронтенд-разработчика (React) в команду Карты ДТП!
Карта ДТП развивается и обрастает новыми функциями. Например, в октябре заработал отдельный раздел «Статистика», где отображаются данные о ДТП в различных разрезах.
Теперь мы идём дальше и хотим реализовать интерактивный интерфейс, чтобы пользователи могли оставлять свои комментарии или уточнять оригинальные данные ГИБДД. И в этом нам можете помочь вы!
Кого ищем?
Фронтендера с опытом React. Опыт работы с онлайн-картами будет плюсом. Сотрудничаем проектно по задачам. Работа оплачивается.
Что делать?
Реализовывать новые фичи по ТЗ, закрывать баги на фронтенде, кратко описывать необходимую документацию по функционалу и разработке в вики о проекте.
Какой хотим результат?
— Перейти на SPA и автоматизировать деплой
— Реализовать интерфейс комментариев в карточках ДТП
— Также есть задачи по визуализации данных: как со знанием SQL для создания материальных представлений, кэширующих результаты запросов, так и без знания SQL для доработки дашбордов с помощью GUI платформы Metabase из админ-панели через браузер.
При желании, после успешного выполнения текущих задач можно будет продолжить сотрудничество.
Все подробности — у @alexander_mart.
Карта ДТП развивается и обрастает новыми функциями. Например, в октябре заработал отдельный раздел «Статистика», где отображаются данные о ДТП в различных разрезах.
Теперь мы идём дальше и хотим реализовать интерактивный интерфейс, чтобы пользователи могли оставлять свои комментарии или уточнять оригинальные данные ГИБДД. И в этом нам можете помочь вы!
Кого ищем?
Фронтендера с опытом React. Опыт работы с онлайн-картами будет плюсом. Сотрудничаем проектно по задачам. Работа оплачивается.
Что делать?
Реализовывать новые фичи по ТЗ, закрывать баги на фронтенде, кратко описывать необходимую документацию по функционалу и разработке в вики о проекте.
Какой хотим результат?
— Перейти на SPA и автоматизировать деплой
— Реализовать интерфейс комментариев в карточках ДТП
— Также есть задачи по визуализации данных: как со знанием SQL для создания материальных представлений, кэширующих результаты запросов, так и без знания SQL для доработки дашбордов с помощью GUI платформы Metabase из админ-панели через браузер.
При желании, после успешного выполнения текущих задач можно будет продолжить сотрудничество.
Все подробности — у @alexander_mart.
#ABM
Альтернативой регрессионным моделям в задаче прогнозирования могут быть агентские модели или Agent-based models. Однако наивно будет считать, что используя термин Agent-based models (ABM) авторы разных статей имеют ввиду один и тот же подход, а используя один и тот же подход называют его одинаково. Вот список некоторых словосочетаний, которые мне встретились в англоязычных статьях, описывающих модели либо синонимичные, либо включающие в себя ABM, либо входящие в группу ABM: urban modelling, geosimulation models, cellular automata, individual-based models, multi-agent systems, land use model, spatio-temporal models, microsimulation, Monte-Carlo simulations. Последнее было особенно неожиданно встретить среди ABM, потому что изучая этот метод в рамках эконометрики в университете мы никогда не говорили про "агентов".
Список получился достаточно большой, и уверена, что неполный. Причин для такого "биоразнообразия" несколько: во-первых, разные области применения моделей : от биологии и физики до экономики и логистики. Во-вторых, каждое из названий подчеркивает некое уникальное свойство метода : например, cellular automata представляет каждого агента ввиде ячейки ( cell), состояние которой меняется в зависимости от состояния соседних ячеек ( вот тут можно почитать про примеры из экономики и дорожного регулирования ) или land use model - модель симулирует развитие территории, например, нового района города на 10-20 лет вперед, на основе сегодняшнего поведения горожан, застройщиков и городских властей при застройке и заселении территории ( например, как здесь ).
Из-за такого разнообразия сложно сформулировать исчерпывающее определение, что такое ABM , но можно сказать о некоторых их свойствах.
1. Например, все эти модели построены на изучении системы снизу- вверх, то есть анализируя и моделируя поведение каждого объекта (агента) по отдельности, они агрегируют результаты и делают вывод о работе системы в целом
2. Все модели изучают как влияние отдельного объекта на среду, так и изменение среды на поведение объекта
3. На основе установленных в прошлом закономерностей модели симулируют события в будущем
Альтернативой регрессионным моделям в задаче прогнозирования могут быть агентские модели или Agent-based models. Однако наивно будет считать, что используя термин Agent-based models (ABM) авторы разных статей имеют ввиду один и тот же подход, а используя один и тот же подход называют его одинаково. Вот список некоторых словосочетаний, которые мне встретились в англоязычных статьях, описывающих модели либо синонимичные, либо включающие в себя ABM, либо входящие в группу ABM: urban modelling, geosimulation models, cellular automata, individual-based models, multi-agent systems, land use model, spatio-temporal models, microsimulation, Monte-Carlo simulations. Последнее было особенно неожиданно встретить среди ABM, потому что изучая этот метод в рамках эконометрики в университете мы никогда не говорили про "агентов".
Список получился достаточно большой, и уверена, что неполный. Причин для такого "биоразнообразия" несколько: во-первых, разные области применения моделей : от биологии и физики до экономики и логистики. Во-вторых, каждое из названий подчеркивает некое уникальное свойство метода : например, cellular automata представляет каждого агента ввиде ячейки ( cell), состояние которой меняется в зависимости от состояния соседних ячеек ( вот тут можно почитать про примеры из экономики и дорожного регулирования ) или land use model - модель симулирует развитие территории, например, нового района города на 10-20 лет вперед, на основе сегодняшнего поведения горожан, застройщиков и городских властей при застройке и заселении территории ( например, как здесь ).
Из-за такого разнообразия сложно сформулировать исчерпывающее определение, что такое ABM , но можно сказать о некоторых их свойствах.
1. Например, все эти модели построены на изучении системы снизу- вверх, то есть анализируя и моделируя поведение каждого объекта (агента) по отдельности, они агрегируют результаты и делают вывод о работе системы в целом
2. Все модели изучают как влияние отдельного объекта на среду, так и изменение среды на поведение объекта
3. На основе установленных в прошлом закономерностей модели симулируют события в будущем
SpringerLink
The Application Fields of Cellular Automata
Cellular automata theory is a kind of new ideas, different from the traditional thoughts and methods on treating system problems. For many problems that were difficult for traditional methods to find a solution, cellular automaton has made new progresses.…
#geodata
У меня по работе переодически возникает необходимость быстро собрать данные о населении в какой-либо стране с детализацией до района или квартала. Благодаря этому сформировался набор источников, которые чаще всего помогают мне найти ответ на вопрос, где кто живет.
1. Лучший источник данных для такой задачи - это перепись населения. В отличие от России большинство стран агрегируют данные по небольшим статистическим территориям плюс минус равным по размеру населения ( обычно до 1000 человек), в крайнем случае по административным районам . Там можно найти информацию о доходах людей, семейном положении, возрасте, вероисповедании, уровне образования, наличии доступа к интернету, мобильной связи и тд. Найти данные переписи можно на портале открытых данных страны или на официальном сайте статистистического агенства.
Основной минус переписи- редкое обновление данных ( обычно раз в 10 лет), поэтому некоторые страны проводят промежуточные опросы между переписями, где они обновляют отдельные наиболее важные показатели, опрашивая небольшую. но репрезентативную выборку людей. Например, так делает Великобритания или ЮАР , правда последние предоставляют данные только на уровне региона, что все равно заставляет использовать данные переписи.
2. Второй источник, который приходит в голову - это OSM. Из открытых карт можно скачать локации жилых зданий и зная средний размер домохозяйств в разных регионах посчитать население. Проблема только в том, что далеко не у всех зданий указана высотность - ее приходится интерполировать, либо ставить среднее значение - из-за чего погрешность может оказаться достаточно большой.Плюс, в OSM данные о застройке могут отставать на 1-2 года. В итоге такие данные хорошо подходят только для задачи сравнения плотности населения на разных территориях.
3. Информацию о плотности населения публикуют международные агрегаторы:
1. WorldPop - собирают данные о населении стран Африки, Центральной и Южной Америке, Азии . Детализация по сеткам 1 км и 100м на основе данных переписи и спутниковым снимкам застройки. Также у них на сайте есть инструмент, который позволяет загрузить пользовательскую геометрию и настроить среднее число жителей на 1 домохозяйство.
2. HDX ( Humanitarian data exchange) - международная платформа для обмена данными между всеми странами. По факту - это агрегатор датасетов с национальных порталов открытых данных + данные компаний. Например, здесь можно найти датасеты Фейсбука - особенно много у них полезной информации по развивающимся странам
3. Иногда полезные датасеты попадаются на data.world
4. О стоимости жилья в разных районах городов можно судить по данным insideairbnb - проект, который парсит данные об объявлениях на airbnb и публикует в виде геодатасетов.
5. По идее для оценки экономической активности районов полезно выглядят данные Uber Movements, но мне они ниразу не пригодились
6. Мой любимый неформальный источник информации о городах - сайт номадист. Самый быстрый способ понять, где находятся в городе бедные кварталы, а где туристические районы и районы для "богатеньких буратино"
Думаю, что у некоторых из вас есть свой список источников данных о демографии зарубежом , поэтому, если не жалко поделиться, пишите в чат - буду расширять список
Добавление от читателей:
7. https://www.kontur.io/portfolio/population-dataset/ - собранный из разных источников датасет с плотностью населения по всему миру. Масштаб 1 ячейки информации - 100*100 м
8."10% и 20% анонимизированные выборки переписи 2002 и 2010. Это не совсем то же самое, про что у тебя в пункте 1, но там есть код муниципалитета, в принципе, что-то посчитать должно быть возможно (особенно на 20%)"
У меня по работе переодически возникает необходимость быстро собрать данные о населении в какой-либо стране с детализацией до района или квартала. Благодаря этому сформировался набор источников, которые чаще всего помогают мне найти ответ на вопрос, где кто живет.
1. Лучший источник данных для такой задачи - это перепись населения. В отличие от России большинство стран агрегируют данные по небольшим статистическим территориям плюс минус равным по размеру населения ( обычно до 1000 человек), в крайнем случае по административным районам . Там можно найти информацию о доходах людей, семейном положении, возрасте, вероисповедании, уровне образования, наличии доступа к интернету, мобильной связи и тд. Найти данные переписи можно на портале открытых данных страны или на официальном сайте статистистического агенства.
Основной минус переписи- редкое обновление данных ( обычно раз в 10 лет), поэтому некоторые страны проводят промежуточные опросы между переписями, где они обновляют отдельные наиболее важные показатели, опрашивая небольшую. но репрезентативную выборку людей. Например, так делает Великобритания или ЮАР , правда последние предоставляют данные только на уровне региона, что все равно заставляет использовать данные переписи.
2. Второй источник, который приходит в голову - это OSM. Из открытых карт можно скачать локации жилых зданий и зная средний размер домохозяйств в разных регионах посчитать население. Проблема только в том, что далеко не у всех зданий указана высотность - ее приходится интерполировать, либо ставить среднее значение - из-за чего погрешность может оказаться достаточно большой.Плюс, в OSM данные о застройке могут отставать на 1-2 года. В итоге такие данные хорошо подходят только для задачи сравнения плотности населения на разных территориях.
3. Информацию о плотности населения публикуют международные агрегаторы:
1. WorldPop - собирают данные о населении стран Африки, Центральной и Южной Америке, Азии . Детализация по сеткам 1 км и 100м на основе данных переписи и спутниковым снимкам застройки. Также у них на сайте есть инструмент, который позволяет загрузить пользовательскую геометрию и настроить среднее число жителей на 1 домохозяйство.
2. HDX ( Humanitarian data exchange) - международная платформа для обмена данными между всеми странами. По факту - это агрегатор датасетов с национальных порталов открытых данных + данные компаний. Например, здесь можно найти датасеты Фейсбука - особенно много у них полезной информации по развивающимся странам
3. Иногда полезные датасеты попадаются на data.world
4. О стоимости жилья в разных районах городов можно судить по данным insideairbnb - проект, который парсит данные об объявлениях на airbnb и публикует в виде геодатасетов.
5. По идее для оценки экономической активности районов полезно выглядят данные Uber Movements, но мне они ниразу не пригодились
6. Мой любимый неформальный источник информации о городах - сайт номадист. Самый быстрый способ понять, где находятся в городе бедные кварталы, а где туристические районы и районы для "богатеньких буратино"
Думаю, что у некоторых из вас есть свой список источников данных о демографии зарубежом , поэтому, если не жалко поделиться, пишите в чат - буду расширять список
Добавление от читателей:
7. https://www.kontur.io/portfolio/population-dataset/ - собранный из разных источников датасет с плотностью населения по всему миру. Масштаб 1 ячейки информации - 100*100 м
8."10% и 20% анонимизированные выборки переписи 2002 и 2010. Это не совсем то же самое, про что у тебя в пункте 1, но там есть код муниципалитета, в принципе, что-то посчитать должно быть возможно (особенно на 20%)"
WorldPop
Gridded population estimate datasets and tools.
Gridded population estimates are particularly useful as they provide decision-makers with the flexibility to aggregate population estimates into different spatial units.
#spatialmodels
Python библиотеки для размещения объектов
Недавно в своем разговоре с научным руководителем из Глазго я упомянула, что по работе часто решаю задачи связанные с зонированием и размещением объектов, при этом метрики для оптимизации могут отличаться в зависимости от кейса. Он посоветовал мне познакомиться с одним модулем библиотеки pysal на python, в создании которого он сам принимал участие и с помощью которого, можно автоматизировать часть из моих задач. Называется модуль spopt. Вот ссылка на документацию, где также есть питоновские ноутбуки с примерами, а вот на ссылка на статью, где описана общая логика алгоритмов.
На этих выходных, я, наконец - спасибо простуде - нашла достаточно времени, чтобы потестисть один из методов, и результат вполне устроил.
Метод : Max-p regionalisation.
Его задача - сгруппировать пространственные единицы в как можно большее число кластеров так, чтобы эти кластеры были как можно более однородными по характеристикам, чтобы каждый элемент внутри соприкосался хотя бы с одним другим элементом и чтобы суммарное значение какого-то показателя, например, численности населения, было не меньше установленного порога. Подробный алгоритм описан здесь, а пример можно найти здесь
Метод подходит, когда у вас не очень большое число полигонов( 200 алгоритм еще считал при условии 4 ед в кластере ,а вот на 300 падал с ошибкой) и при этом они хорошо связаны друг с другом - нет анклавов. Например, для задачи разделения города или района на участки в рамках 1 поликлинники. В отличие от применения k-means кластеры получатся не такими близкими по площади, но зато они будут максимально близки по числу квартир, обслуживаемых одним врачом.
Единственное ограничение, которое мне удалось обнаружить - это ошибка в расчетах, если в данных есть анклав, где сумма всех его элементов меньше заданного порога. Чтобы избавиться от ошибки, мне пришлось исключать эту область из расчета и потом вручную добавлять ее как отдельный кластер.
Python библиотеки для размещения объектов
Недавно в своем разговоре с научным руководителем из Глазго я упомянула, что по работе часто решаю задачи связанные с зонированием и размещением объектов, при этом метрики для оптимизации могут отличаться в зависимости от кейса. Он посоветовал мне познакомиться с одним модулем библиотеки pysal на python, в создании которого он сам принимал участие и с помощью которого, можно автоматизировать часть из моих задач. Называется модуль spopt. Вот ссылка на документацию, где также есть питоновские ноутбуки с примерами, а вот на ссылка на статью, где описана общая логика алгоритмов.
На этих выходных, я, наконец - спасибо простуде - нашла достаточно времени, чтобы потестисть один из методов, и результат вполне устроил.
Метод : Max-p regionalisation.
Его задача - сгруппировать пространственные единицы в как можно большее число кластеров так, чтобы эти кластеры были как можно более однородными по характеристикам, чтобы каждый элемент внутри соприкосался хотя бы с одним другим элементом и чтобы суммарное значение какого-то показателя, например, численности населения, было не меньше установленного порога. Подробный алгоритм описан здесь, а пример можно найти здесь
Метод подходит, когда у вас не очень большое число полигонов( 200 алгоритм еще считал при условии 4 ед в кластере ,а вот на 300 падал с ошибкой) и при этом они хорошо связаны друг с другом - нет анклавов. Например, для задачи разделения города или района на участки в рамках 1 поликлинники. В отличие от применения k-means кластеры получатся не такими близкими по площади, но зато они будут максимально близки по числу квартир, обслуживаемых одним врачом.
Единственное ограничение, которое мне удалось обнаружить - это ошибка в расчетах, если в данных есть анклав, где сумма всех его элементов меньше заданного порога. Чтобы избавиться от ошибки, мне пришлось исключать эту область из расчета и потом вручную добавлять ее как отдельный кластер.
#geotools #geodata
Интересную статью выдал мне medium под вечер понедельника и внес немного баланса во вселенную. В статье автор показывает, как с помощью несложных манипуляций с OSM и геотеггированными фото становится возможным слежка за Большим Братом. Именно так, на мой взгляд, и должны работать открытые данные - давать информацию о действиях властей, которую они сами открыто афишировать не планируют, тем самым позволяя обществу контролировать власти в ответ на их контроль. У меня только один вопрос: даже если выборка неполная, точно ли локации военных баз - эта та информация, которая должна быть в открытом доступе на OSM?🤔
Интересную статью выдал мне medium под вечер понедельника и внес немного баланса во вселенную. В статье автор показывает, как с помощью несложных манипуляций с OSM и геотеггированными фото становится возможным слежка за Большим Братом. Именно так, на мой взгляд, и должны работать открытые данные - давать информацию о действиях властей, которую они сами открыто афишировать не планируют, тем самым позволяя обществу контролировать власти в ответ на их контроль. У меня только один вопрос: даже если выборка неполная, точно ли локации военных баз - эта та информация, которая должна быть в открытом доступе на OSM?🤔
Medium
How to find locations to check for Russian military build-up?
Methods for Investigating where Russian troops accumulated along Ukraine border
Forwarded from Geodatamess
Попробую возродить канал после некоторой паузы в последние месяцы.
Во-первых, запись выступления на SPb DH week в этом году про методы визуализации пространственных данных
https://youtu.be/3mNfeob175k
Еще раз большое спасибо организаторам за приглашение, очень жаль, что пришлось перенести мою лекцию в онлайн.
Во-вторых, материалы для практических занятий по дисциплине “Геоинформатика и геоинформационные системы” для студентов направления 07.04.04 «Градостроительство» (Институт дизайна и урбанистики, ИТМО, в котором мне посчастливилось поработать в прошлом семестре)
https://baltti.github.io/gis-itmo/
Кажется, это самые подробные материалы, которые я когда либо готовила по своим занятиям.
Во-первых, запись выступления на SPb DH week в этом году про методы визуализации пространственных данных
https://youtu.be/3mNfeob175k
Еще раз большое спасибо организаторам за приглашение, очень жаль, что пришлось перенести мою лекцию в онлайн.
Во-вторых, материалы для практических занятий по дисциплине “Геоинформатика и геоинформационные системы” для студентов направления 07.04.04 «Градостроительство» (Институт дизайна и урбанистики, ИТМО, в котором мне посчастливилось поработать в прошлом семестре)
https://baltti.github.io/gis-itmo/
Кажется, это самые подробные материалы, которые я когда либо готовила по своим занятиям.
YouTube
Неделя DH в Петербурге 2022. Лекция "Визуализация пространственных данных"
В лекции будет рассмотрена работа с картографическими проекциями для визуализации.
Лектор: Татьяна Балтыжакова, к.т.н., доцент кафедры инженерной геодезии Горного университета, ассистент Института дизайна и урбанистики ИТМО, автора канала Geodatamess.
Лектор: Татьяна Балтыжакова, к.т.н., доцент кафедры инженерной геодезии Горного университета, ассистент Института дизайна и урбанистики ИТМО, автора канала Geodatamess.
