Forwarded from Канал Алексея Радченко
В сервисе DataLens от Яндекса есть возможность посмотреть и выгрузить данные по ДТП, которые отметили сами пользователи сервиса (не данные от ГИБДД). Работает немного криво (иногда пропадает кнопка выгрузки и нет фильтра на прошлые периоды, хотя данные есть), но все равно отличные данные для курсового проекта или небольшого исследования вашего района - напишите если будете что-то делать, посмотрим вместе.
P.S. Все жду когда скачать данные можно будет и на московском Продвижении.
P.S. Все жду когда скачать данные можно будет и на московском Продвижении.
Тут ребята из 2ГИС выпустили новый пост о работе дизайнеров карт. Если в первом они рассказали про работу «в полях», то в этом — больше про роль дизайнера при создании карты, чей вклад, как пользователи, мы скорее всего редко замечаем.
Когда ты пользователь, ты не задумываешься о сложном выборе дизайнера "между лавочкой и Большим театром", но когда тебя, как аналитика просят разместить на карте результаты работы для заказчика, то начинаешь понимать всю сложность процесса: что главное для клиента, как передать разницу с помощью цветов и форм, как сделать карту понятной для человека без опыта в географии или аналитики.
Вобщем респект ребятам за хорошую работу
Когда ты пользователь, ты не задумываешься о сложном выборе дизайнера "между лавочкой и Большим театром", но когда тебя, как аналитика просят разместить на карте результаты работы для заказчика, то начинаешь понимать всю сложность процесса: что главное для клиента, как передать разницу с помощью цветов и форм, как сделать карту понятной для человека без опыта в географии или аналитики.
Вобщем респект ребятам за хорошую работу
Сегодня 3-ий пост по мотивам финальных проектов в рамках курса по геоаналитике.
Автор проекта @DrozdovLev исследовал, что влияет на решение людей добираться на работу на общественном транспорте. Результаты проекта планируется использовать для разработки стратегии по его улучшению и популяризации, в сотрудничестве с муниципалитетами и крупными компаниями.
Презентацию с красивыми картинками смотреть тут, описание проекта в посте ниже👇👇
Автор проекта @DrozdovLev исследовал, что влияет на решение людей добираться на работу на общественном транспорте. Результаты проекта планируется использовать для разработки стратегии по его улучшению и популяризации, в сотрудничестве с муниципалитетами и крупными компаниями.
Презентацию с красивыми картинками смотреть тут, описание проекта в посте ниже👇👇
Google Docs
Использование общественного транспорта для поездок на работу. Предсказательная модель на основе опроса и дополнительных геоданных
Использование общественного транспорта для поездок на работу. Предсказательная модель на основе опроса и дополнительных геоданных финальный проект курса "Пространственный анализ и моделирование в Python" Лев Дроздов [email protected]
Цель проекта: найти значимые факторы, влияющие на выбор общественного транспорта для поездок на работу, для разработки стратегии по его улучшению и популяризации.
Забегая вперед, скажу, что в целом подтвердилась важность доступности ж/д станции и гибкого графика работы в офисе - есть что порекомендовать муниципалитетам и крупным фирмам, чтобы улучшить опыт пользователей общественного транспорта и предоставить им большую транспортную гибкость. Через муниципалитеты - инфраструктурно или оптимизацией маршрутов, через частные компании - организацией шаттлов до станции.
Гипотеза: выбор транспорта зависит не только от личных данных работника, но также от географических и транспортных/городских данных.
Данные: проект основан на опросе ~800 работников бизнес-парков в Израиле, проведенном НКО "15 minutes", а также на дополнительных геоданных из открытых источников (список в презентации).
Методы:
1. XGBClassifier - для прогноза выбора вида транспорта работником. Для простоты оставил два варианта: на личном авто и на общественном транспорте.
2. Lasso (регрессия) - для того же самого. Точность получилась сопоставимая, хотя использовал его не по прямому назначению. У Lasso на выходе получается диапазон, я же категоризировал с помощью порогового значения. Альтернативный вариант - использовать Logistic Regression, в ней выбор порога встроен по умолчанию.
3. Global & Local Moran - для расчета пространственной корреляции остатков модели Lasso: в каких локациях модель ошибалась в классификации и в какую сторону.
Выводы:
• Global Moran для всей выборки получился совсем низкий, только для Тель Авива чуть больше - 0.17: корреляция низкая, ожидаемо выделяется южная часть города.
• Точность модели XGBoost (accuracy) - 0.75
• Сильнейшие предикторы выбора транспорта:
1. Расстояние до работы / время в пути - из-за дальних поездок по ж/д большее расстояние значит больше вероятность О.Т.
2. Часы работы - чем раньше начинается рабочий день, тем выше вероятность использования авто. Возможно из-за утренних пробок работники с машиной предпочитают начать рабочий день пораньше (утренние “часы пик” плотнее). Или же автомобиль удобнее из-за ранних часов начала работы.
3. Возраст работника - чем меньше, тем вероятнее О.Т.
4. Количество дней работы в офисе - чем меньше, тем вероятнее О.Т.
5. Среда вокруг дома на основе walk score index (он выше, если сетка дорог плотнее и больше POIs доступно). Высокий индекс - вероятнее использование О.Т
Пока не оправдавшие ожидания признаки (с 6-ти опрошенных территорий):
• транспортная доступность
• количество рейсов автобусов
• процент пользователей О.Т.
• плотность расположения остановок
• количество работников на км³
Эти признаки, к сожалению, только ухудшают модель, хотя так моделью мог бы учитываться “последний километр” до работы. “Первый километр”, со стороны дома, модель учитывает через walk score. Нужна выборка по разным территориям для большей точности модели.
Компонент пространства позволяет выявить территории с отклонениями в прогнозе. Вероятно, добавление какого-то характерного признака таких мест в модель улучшит результат. Может быть там какая-то повышенная плотность остановок или наоборот - больше парковок, чем в соседних районах.
Отмечу, что в Lasso в отличие от XGboostClassifier “количество дней в офисе” не стало значительным предиктором - какой-то другой параметр “объяснил” все за него - полагаю “расстояние”. По остальным признакам модели солидарны.
На будущее:
• хочется попробовать модель на большем количестве бизнес территорий
• выделить пользователей поезда в отдельную категорию - они едут издалека и могут продуктивно использовать это время
• заменить Lasso на Logistic Regression
Забегая вперед, скажу, что в целом подтвердилась важность доступности ж/д станции и гибкого графика работы в офисе - есть что порекомендовать муниципалитетам и крупным фирмам, чтобы улучшить опыт пользователей общественного транспорта и предоставить им большую транспортную гибкость. Через муниципалитеты - инфраструктурно или оптимизацией маршрутов, через частные компании - организацией шаттлов до станции.
Гипотеза: выбор транспорта зависит не только от личных данных работника, но также от географических и транспортных/городских данных.
Данные: проект основан на опросе ~800 работников бизнес-парков в Израиле, проведенном НКО "15 minutes", а также на дополнительных геоданных из открытых источников (список в презентации).
Методы:
1. XGBClassifier - для прогноза выбора вида транспорта работником. Для простоты оставил два варианта: на личном авто и на общественном транспорте.
2. Lasso (регрессия) - для того же самого. Точность получилась сопоставимая, хотя использовал его не по прямому назначению. У Lasso на выходе получается диапазон, я же категоризировал с помощью порогового значения. Альтернативный вариант - использовать Logistic Regression, в ней выбор порога встроен по умолчанию.
3. Global & Local Moran - для расчета пространственной корреляции остатков модели Lasso: в каких локациях модель ошибалась в классификации и в какую сторону.
Выводы:
• Global Moran для всей выборки получился совсем низкий, только для Тель Авива чуть больше - 0.17: корреляция низкая, ожидаемо выделяется южная часть города.
• Точность модели XGBoost (accuracy) - 0.75
• Сильнейшие предикторы выбора транспорта:
1. Расстояние до работы / время в пути - из-за дальних поездок по ж/д большее расстояние значит больше вероятность О.Т.
2. Часы работы - чем раньше начинается рабочий день, тем выше вероятность использования авто. Возможно из-за утренних пробок работники с машиной предпочитают начать рабочий день пораньше (утренние “часы пик” плотнее). Или же автомобиль удобнее из-за ранних часов начала работы.
3. Возраст работника - чем меньше, тем вероятнее О.Т.
4. Количество дней работы в офисе - чем меньше, тем вероятнее О.Т.
5. Среда вокруг дома на основе walk score index (он выше, если сетка дорог плотнее и больше POIs доступно). Высокий индекс - вероятнее использование О.Т
Пока не оправдавшие ожидания признаки (с 6-ти опрошенных территорий):
• транспортная доступность
• количество рейсов автобусов
• процент пользователей О.Т.
• плотность расположения остановок
• количество работников на км³
Эти признаки, к сожалению, только ухудшают модель, хотя так моделью мог бы учитываться “последний километр” до работы. “Первый километр”, со стороны дома, модель учитывает через walk score. Нужна выборка по разным территориям для большей точности модели.
Компонент пространства позволяет выявить территории с отклонениями в прогнозе. Вероятно, добавление какого-то характерного признака таких мест в модель улучшит результат. Может быть там какая-то повышенная плотность остановок или наоборот - больше парковок, чем в соседних районах.
Отмечу, что в Lasso в отличие от XGboostClassifier “количество дней в офисе” не стало значительным предиктором - какой-то другой параметр “объяснил” все за него - полагаю “расстояние”. По остальным признакам модели солидарны.
На будущее:
• хочется попробовать модель на большем количестве бизнес территорий
• выделить пользователей поезда в отдельную категорию - они едут издалека и могут продуктивно использовать это время
• заменить Lasso на Logistic Regression
Wikipedia
Moran's I
In statistics, Moran's I is a measure of spatial autocorrelation developed by Patrick Alfred Pierce Moran. Spatial autocorrelation is characterized by a correlation in a signal among nearby locations in space. Spatial autocorrelation is more complex than…
📈Тут у классных ребят появилась вакансия гис-аналитика 😍
В отделе продуктов и исследований лаборатории пространственных данных при МИИГАиК открылась вакансия гис-аналитика. Они делают стартап в сфере PropTech и сейчас расширяют команду. В команде уже работают студенты прошлых потоков моего курса)
Что нужно делать
- Собирать, обрабатывать и анализировать геоданные
- Писать новые и оптимизировать существующие пайплайны получения и обработки геоданных
- Поддерживать и развивать базу геоданных
- Автоматизировать и оптимизировать рабочие процессы, разрабатывать новые инструментов для анализа данных (Python)
- Выполнять запросы от смежных команд
Навыки
- Уверенное владение QGIS
- Владение Python (numpy, pandas, geopandas, shapely, osmnx/networkx, requests)
- Умение работать с базами данных (PostgreSQL)
- Базовые знания математики и статистики
- Знание основ HTML
- Понимание принципов работы DS и ML
- Базовая визуализация пространственных данных
- Умение видеть за числами и картами физический смысл и способность находить причины явлений
Условия
- Официальное трудоустройство по ТК РФ
- Уютный офис в центре Москвы (м. Курская)
- Сильная и классная команда, с которой можно быстро расти
- Гибридный график работы
- Интересные и нестандартные задачи
- Отсутствие дресс-кода
Пишите в лс @dorozhnij
В отделе продуктов и исследований лаборатории пространственных данных при МИИГАиК открылась вакансия гис-аналитика. Они делают стартап в сфере PropTech и сейчас расширяют команду. В команде уже работают студенты прошлых потоков моего курса)
Что нужно делать
- Собирать, обрабатывать и анализировать геоданные
- Писать новые и оптимизировать существующие пайплайны получения и обработки геоданных
- Поддерживать и развивать базу геоданных
- Автоматизировать и оптимизировать рабочие процессы, разрабатывать новые инструментов для анализа данных (Python)
- Выполнять запросы от смежных команд
Навыки
- Уверенное владение QGIS
- Владение Python (numpy, pandas, geopandas, shapely, osmnx/networkx, requests)
- Умение работать с базами данных (PostgreSQL)
- Базовые знания математики и статистики
- Знание основ HTML
- Понимание принципов работы DS и ML
- Базовая визуализация пространственных данных
- Умение видеть за числами и картами физический смысл и способность находить причины явлений
Условия
- Официальное трудоустройство по ТК РФ
- Уютный офис в центре Москвы (м. Курская)
- Сильная и классная команда, с которой можно быстро расти
- Гибридный график работы
- Интересные и нестандартные задачи
- Отсутствие дресс-кода
Пишите в лс @dorozhnij
У меня новости😊.
Полгода пролетели, и я открываю регистрацию на 3-ий поток онлайн-курса по пространственному анализу и моделированию в Python.
Второй запуск еще раз подтвердил актуальность материалов курса для специалистов с (неожиданно!) очень разным бекгруандом, а некоторым даже помог найти работу. По запросу участников курса мы решали задачи от прогноза лесных пожаров и рынка недвижимости в Дубае до размещения остановок каршеринга и складов доставки. Честно признаюсь,мне очень понравилось это разнообразие, так что я в предвкушении, какие еще кейсы мы сможем вместе решить с новыми участниками😁.
Важное
Темы, особенности курса, отзывы, тарифы: на сайте
Старт курса: 14 сентября 2023
Есть обязательный вступительный тест - ссылки на сайте.
Доступ получают первые, кто прошли тест и внесли предоплату.
Зачем тест
Знание python и основ мат статистики важно для вашего комфортного обучения и понимания тем. Курс интенсивный - времени на погружение в базу у вас не останется.
Что после теста
После теста вы получите или письмо с положительным решением и ссылкой на чат курса или письмо с дополнительными материалами и шансом подтянуть знания и попробовать ещё раз!)
До встречи на курсе😊
P.S. В чате канала есть ребята с первого и второго потока - маякните там, если у вас есть к ним вопросы - подскажут:)
Полгода пролетели, и я открываю регистрацию на 3-ий поток онлайн-курса по пространственному анализу и моделированию в Python.
Второй запуск еще раз подтвердил актуальность материалов курса для специалистов с (неожиданно!) очень разным бекгруандом, а некоторым даже помог найти работу. По запросу участников курса мы решали задачи от прогноза лесных пожаров и рынка недвижимости в Дубае до размещения остановок каршеринга и складов доставки. Честно признаюсь,мне очень понравилось это разнообразие, так что я в предвкушении, какие еще кейсы мы сможем вместе решить с новыми участниками😁.
Важное
Темы, особенности курса, отзывы, тарифы: на сайте
Старт курса: 14 сентября 2023
Есть обязательный вступительный тест - ссылки на сайте.
Доступ получают первые, кто прошли тест и внесли предоплату.
Зачем тест
Знание python и основ мат статистики важно для вашего комфортного обучения и понимания тем. Курс интенсивный - времени на погружение в базу у вас не останется.
Что после теста
После теста вы получите или письмо с положительным решением и ссылкой на чат курса или письмо с дополнительными материалами и шансом подтянуть знания и попробовать ещё раз!)
До встречи на курсе😊
P.S. В чате канала есть ребята с первого и второго потока - маякните там, если у вас есть к ним вопросы - подскажут:)
geopython.tilda.ws
Основы пространственного анализа в Python
Итак, 3-ий поток почти набран - ну и скорость у вас😃💪👌
Осталось несколько мест на "Необходимую базу" и пара дней, чтобы решиться:)
Если вы хотели погрузиться в геоанализ, советую не откладывать, потому как если и будет 4 поток, то не раньше следующего июня- PhD само себя не напишет))
Осталось несколько мест на "Необходимую базу" и пара дней, чтобы решиться:)
Если вы хотели погрузиться в геоанализ, советую не откладывать, потому как если и будет 4 поток, то не раньше следующего июня- PhD само себя не напишет))
Forwarded from Канал Алексея Радченко
Меня тут зацепил пост Ивана Бегтина про то, какие данные собирают производители автомобилей (советую читать статью, а не пост, она более взвешенная). Общий смысл, что данных собирается очень много, включая данные про про все перемещения и даже сексуальную жизнь. И хотя сначала я был разочарован что вся аналитика там строиться лишь по пользовательским соглашениям, мне стало любопытно что в пользовательских соглашениях в России, причем именно в сфере общественного транспорта. Вот что получилось:
1. Московский транспорт - ссылка на лицензионное соглашение ведет на https://api.mosgorpass.ru/license_agreement - у меня не открылось. Посмотреть не смог.
2. Помощник Москвы - тоже не открылось. Ведет на https://pakpm.mos.ru/api/help/privacy_policy.
3. Метро Москвы - Ссылка ведет на https://www.mosmetro.ru/app/oferta/new_oferta.pdf. Сайт выдает ошибку 404.
4. Моя Тройка - приложение Сбера по управлению картой тройка. Пишет что данных не собирается совсем - но описания снова нет - ошибка 404.
5. Приложение ЦППК (официальное?) - тут документ есть, но датирован аж 2018 годом и ведется от лица неизвестной компании Айтифорс, сайт которой уже не работает. Из еще более странного - это соглашение об обработке пользовательских данных, которое лежит в самом приложении - это явно внутренний документ описывающий взаимоотношения работодателя и его сотрудников, но никак не пользователей приложения.
6. Транспорт Подмосковья - соглашение с ООО ДатаПакс есть, но довольно формальное. Передача третьим лицам есть.
7. Яндекс Такси - самое подробное и детальное соглашение, нормально описывающее что именно будет собрано, с уточнением юрисдикций.
8. Социальное такси - тоже от московского дептранса. Тут соглашение есть, но максимально формальное и обезличенное. Документ в гуглдоке не имеет даже имени компании или адреса от лица кого это соглашение.
9. Транспорт Перми - приложения о персданных нет, ссылка на сайт разработчика.
10. Парковки Краснодара - ссылка битая - документа нет. Как впрочем и у 99% других приложений из регионов.
Вывод по общественному транспорту в итоге еще страшнее, чем с автомобилями. В случае тех, приложений, что вам предлагаю государственные органы власти и аффилированные компании вы даже не сможете узнать что и как делают с вашими персональными данными. Чем дальше от государства тем лучше и честнее представлена информация и тем прозрачнее политика работы с персональными данными.
1. Московский транспорт - ссылка на лицензионное соглашение ведет на https://api.mosgorpass.ru/license_agreement - у меня не открылось. Посмотреть не смог.
2. Помощник Москвы - тоже не открылось. Ведет на https://pakpm.mos.ru/api/help/privacy_policy.
3. Метро Москвы - Ссылка ведет на https://www.mosmetro.ru/app/oferta/new_oferta.pdf. Сайт выдает ошибку 404.
4. Моя Тройка - приложение Сбера по управлению картой тройка. Пишет что данных не собирается совсем - но описания снова нет - ошибка 404.
5. Приложение ЦППК (официальное?) - тут документ есть, но датирован аж 2018 годом и ведется от лица неизвестной компании Айтифорс, сайт которой уже не работает. Из еще более странного - это соглашение об обработке пользовательских данных, которое лежит в самом приложении - это явно внутренний документ описывающий взаимоотношения работодателя и его сотрудников, но никак не пользователей приложения.
6. Транспорт Подмосковья - соглашение с ООО ДатаПакс есть, но довольно формальное. Передача третьим лицам есть.
7. Яндекс Такси - самое подробное и детальное соглашение, нормально описывающее что именно будет собрано, с уточнением юрисдикций.
8. Социальное такси - тоже от московского дептранса. Тут соглашение есть, но максимально формальное и обезличенное. Документ в гуглдоке не имеет даже имени компании или адреса от лица кого это соглашение.
9. Транспорт Перми - приложения о персданных нет, ссылка на сайт разработчика.
10. Парковки Краснодара - ссылка битая - документа нет. Как впрочем и у 99% других приложений из регионов.
Вывод по общественному транспорту в итоге еще страшнее, чем с автомобилями. В случае тех, приложений, что вам предлагаю государственные органы власти и аффилированные компании вы даже не сможете узнать что и как делают с вашими персональными данными. Чем дальше от государства тем лучше и честнее представлена информация и тем прозрачнее политика работы с персональными данными.
Telegram
Ivan Begtin
Команда Mozilla опубликовала очередное интересное исследование по приватности, на сей раз приватности при использовании автомобилей 25 брендов и о том как вендоры собирают информацию [1] из которого можно узнать что:
- все без исключения вендоры собирают…
- все без исключения вендоры собирают…
Делюсь с вами подборкой источников геоданных, великодушно собранной для вас @Denis_Murataev.
Этими источниками Денис с коллегами регулярно пользуются в Институте Генплана, так что тут только проверенное. Если вы делаете исследования по России, возможно, в этом списке вы найдете ссылки на недостающие источники информации.
Краткое описание от автора
Что есть?
социально-демографические данные и геоданные, покрывающие всю территорию РФ.
Зачем?
Большинство данных используются как прокси на имеющиеся закрытые данные, для их верификации и при отсутствии официальных данных пропорциональной замены данных при анализе территории.
Все ли источники содержат готовые датасеты?
Нет, для некоторых источников данных необходимо написать парсеры.
Как пользоваться данными?
Все данные хранятся в базе и при исследовании территории агрегируются в минимальную территориальную единицу и ее “зону влияния” (throughput radius, KNN)
Этими источниками Денис с коллегами регулярно пользуются в Институте Генплана, так что тут только проверенное. Если вы делаете исследования по России, возможно, в этом списке вы найдете ссылки на недостающие источники информации.
Краткое описание от автора
Что есть?
социально-демографические данные и геоданные, покрывающие всю территорию РФ.
Зачем?
Большинство данных используются как прокси на имеющиеся закрытые данные, для их верификации и при отсутствии официальных данных пропорциональной замены данных при анализе территории.
Все ли источники содержат готовые датасеты?
Нет, для некоторых источников данных необходимо написать парсеры.
Как пользоваться данными?
Все данные хранятся в базе и при исследовании территории агрегируются в минимальную территориальную единицу и ее “зону влияния” (throughput radius, KNN)
glamorous-ambert-bd8 on Notion
Открытые данные | Notion
ДТП
А вот новость от одного из подписчиков про мероприятие по теме канала:
"Коллеги проводят вебинар 21 сентября в 15:00
"Маркетинг и аналитика на основе геоданных" Подробности по ссылке: https://webinar.platforma.id/
"Коллеги проводят вебинар 21 сентября в 15:00
"Маркетинг и аналитика на основе геоданных" Подробности по ссылке: https://webinar.platforma.id/
webinar.platforma.id
Маркетинг и аналитика на основе геоданных
Научитесь открывать, анализировать и расширять свой бизнес, основываясь на объективных данных
Недавно мире российский открытых геоданных появилась как будто чудесная новость : ЯК опубликовали открытый датасет "GeoDataReviews" с 500 тыс отзывов об организациях. Учитывая сколько парсингов написано для ЯК - давно пора)
Чем в теории полезен такой датасет:
- Для компаний это данные о конкурентах - организациях вокруг такого же профиля. Как минимум можно посчитать их количество вокруг, как максимум собрать эмоциональную оценку посетителей и сделать выводы об их сильных и слабых сторонах.
Для муниципалитетов и исследовательских институтов - это источник знаний о горожанах: где они чаще всего бывают, какие POIs наиболее или наименее привлекательные.
Однако по факту у датасета очень много НО, которые на мой взгляд делают его практически бесполезным.
Если не хочется читать НО, то вот ссылка на мой проект - можете там все сами посмотреть. В нем можно найти ноутбук с анализом и чисткой датасета, а также с семплом на 2400 адресов в формате geojson.
Теперь, что же не так с датасетом или как делать не надо):
Ощущение, что авторы файла специально старались максимально усложнить жизнь пользователю и сделать формат настолько неудобным, чтобы часть вообще отказалась его использовать: вроде бы открыли, но не для всех)
1. Во-первых, мы ничего не знаем о том каким образом были отобраны 500 тыс организаций - описание отсутствует. Например, проверка показала, что число организаций в датасете на дом не совпадает с ЯК, так же как и число отзывов (в основном 1/2 отзыва). Также непонятно можно ли верить популярность рубрик по городам. Уже этого достаточно, чтобы файл стал бесполезным)
2. Во-вторых, формат файла. "GeoReviews" не должны храниться в CSV/tsvk формате - для хранения геоданных есть специальные геоформаты. И что-то мне подсказывает, что в ЯК о них знают)
3. Из предыдущего пункта следует, что в этом файле нет, конечно, никаких координат. Ведь если вам очень надо, вы же без труда найдете как геокодировать 200к адресов?) Если нет, то заплатите яндексу или гуглу)). Что за селекцию на пользование геокодером предполагали авторы (у которых были координаты организаций) - непонятно.
4. Структура/содержимое файла: я несколько раз считала файл в python, чтобы убедиться, что мне не кажется) В файле нет заголовков столбцов, зато каждая ячейка начинается так: 'адрес=', 'рейтинг = '. Да, несложно распарсить это в таблицу - но почему сразу не дать данные в нормальном формате?! И, да, как полагается, в 900 строчках перепутан порядок колонок - в коде я их поправила быстро, но все равно неприятно.
Какой вывод: я не знаю, какие цели преследовал Яндекс открывая эти данные, но так как это сделано - максимально обесценивает усилия. Постаралась немного упростить вам жизнь, сделав ноутбук с чисткой и анализом, надеюсь кому-то поможет:)
Чем в теории полезен такой датасет:
- Для компаний это данные о конкурентах - организациях вокруг такого же профиля. Как минимум можно посчитать их количество вокруг, как максимум собрать эмоциональную оценку посетителей и сделать выводы об их сильных и слабых сторонах.
Для муниципалитетов и исследовательских институтов - это источник знаний о горожанах: где они чаще всего бывают, какие POIs наиболее или наименее привлекательные.
Однако по факту у датасета очень много НО, которые на мой взгляд делают его практически бесполезным.
Если не хочется читать НО, то вот ссылка на мой проект - можете там все сами посмотреть. В нем можно найти ноутбук с анализом и чисткой датасета, а также с семплом на 2400 адресов в формате geojson.
Теперь, что же не так с датасетом или как делать не надо):
Ощущение, что авторы файла специально старались максимально усложнить жизнь пользователю и сделать формат настолько неудобным, чтобы часть вообще отказалась его использовать: вроде бы открыли, но не для всех)
1. Во-первых, мы ничего не знаем о том каким образом были отобраны 500 тыс организаций - описание отсутствует. Например, проверка показала, что число организаций в датасете на дом не совпадает с ЯК, так же как и число отзывов (в основном 1/2 отзыва). Также непонятно можно ли верить популярность рубрик по городам. Уже этого достаточно, чтобы файл стал бесполезным)
2. Во-вторых, формат файла. "GeoReviews" не должны храниться в CSV/tsvk формате - для хранения геоданных есть специальные геоформаты. И что-то мне подсказывает, что в ЯК о них знают)
3. Из предыдущего пункта следует, что в этом файле нет, конечно, никаких координат. Ведь если вам очень надо, вы же без труда найдете как геокодировать 200к адресов?) Если нет, то заплатите яндексу или гуглу)). Что за селекцию на пользование геокодером предполагали авторы (у которых были координаты организаций) - непонятно.
4. Структура/содержимое файла: я несколько раз считала файл в python, чтобы убедиться, что мне не кажется) В файле нет заголовков столбцов, зато каждая ячейка начинается так: 'адрес=', 'рейтинг = '. Да, несложно распарсить это в таблицу - но почему сразу не дать данные в нормальном формате?! И, да, как полагается, в 900 строчках перепутан порядок колонок - в коде я их поправила быстро, но все равно неприятно.
Какой вывод: я не знаю, какие цели преследовал Яндекс открывая эти данные, но так как это сделано - максимально обесценивает усилия. Постаралась немного упростить вам жизнь, сделав ноутбук с чисткой и анализом, надеюсь кому-то поможет:)
GitHub
GitHub - yandex/geo-reviews-dataset-2023
Contribute to yandex/geo-reviews-dataset-2023 development by creating an account on GitHub.
👍1
Forwarded from Картетика.Канал
#cartetika_event #mapacon барабанная дробь....
Мы делаем конференцию «МАПАКОН»!
29 марта 2024 года в день рождения Картетики состоится онлайн-конференция про всё, что связано с геотехнологиями!
Мы будем говорить про ГИС-технологии, ДЗЗ, образование и работу в нашей сфере, и про всё-всё-всё, что волнует вас и нас.
Сегодня мы торжественно и с лёгким волнением открываем сбор заявок на ваши доклады. Всю подробную информацию, а также форму для заявок можно найти на странице конференции. Форму записи для слушателей мы откроем чуть позже.
Для кого эта конференция?
- для технических специалистов в области ГИС, ДЗЗ, геодезии и картографии, геологии, экологии, урбанистики и транспорта, маркетинга, дизайна, географии, археологии;
- для представителей "гео-бизнеса" и работодателей в сфере геотехнологий;
- для преподавателей и студентов гео-направлений;
- для всех интересующихся геотехнологиями.
С нетерпением ждём ваши заявки! 🥳
Мы делаем конференцию «МАПАКОН»!
29 марта 2024 года в день рождения Картетики состоится онлайн-конференция про всё, что связано с геотехнологиями!
Мы будем говорить про ГИС-технологии, ДЗЗ, образование и работу в нашей сфере, и про всё-всё-всё, что волнует вас и нас.
Сегодня мы торжественно и с лёгким волнением открываем сбор заявок на ваши доклады. Всю подробную информацию, а также форму для заявок можно найти на странице конференции. Форму записи для слушателей мы откроем чуть позже.
Для кого эта конференция?
- для технических специалистов в области ГИС, ДЗЗ, геодезии и картографии, геологии, экологии, урбанистики и транспорта, маркетинга, дизайна, географии, археологии;
- для представителей "гео-бизнеса" и работодателей в сфере геотехнологий;
- для преподавателей и студентов гео-направлений;
- для всех интересующихся геотехнологиями.
С нетерпением ждём ваши заявки! 🥳
👍2
Думаю, что вы все знаете, что в Израиле сейчас идет война. Если вы хотите и готовы финансово помочь, вот ссылки для пожертвований организациям, поддерживающим армию и пострадавшее население. Переводы доступны в том числе из-за рубежа.
👎5👍1
Forwarded from Стартап Нейшн и 12 чеков 🇮🇱🙏
Ссылка для способов помочь финансово, особенно из-за границы
Чтобы делиться на работе или с неравнодушными знакомыми по всему миру
Ссылка 👈
Чтобы делиться на работе или с неравнодушными знакомыми по всему миру
Ссылка 👈
helpisrael on Notion
ISRAEL NEEDS YOUR HELP | Notion
Here is a page collecting links of major organizations for you to help.
👎3👍1
Я с классной новостью, точнее спойлером, которая поможет укрепить и расширить наше маленькое и уютное гео аналитическое коммьюнити😊
Я заметила, что самый большой интерес на курсе вызывает разбор реальных задач бизнеса, на 2ом месте - нетворкинг и обсуждение вариантов решения.
Очень хотелось, чтобы это вышло за рамки курса, поэтому в первых неделях декабря мы вместе с @romanovgleb и @mashulkap проведём 2х недельный #GeoConnect.
Что такое #GeoConnect?
Это 2 недели мастер-классов, командное решение бизнес-задачи по геоаналитике и data science, нетворкинг, и поощрительные призы от нашего партнера Wildberries.
Следите за обновлениями в канале, собирайте команду и бронируйте время в своих календарях: 30.11 - 10.12 🤟
Я заметила, что самый большой интерес на курсе вызывает разбор реальных задач бизнеса, на 2ом месте - нетворкинг и обсуждение вариантов решения.
Очень хотелось, чтобы это вышло за рамки курса, поэтому в первых неделях декабря мы вместе с @romanovgleb и @mashulkap проведём 2х недельный #GeoConnect.
Что такое #GeoConnect?
Это 2 недели мастер-классов, командное решение бизнес-задачи по геоаналитике и data science, нетворкинг, и поощрительные призы от нашего партнера Wildberries.
Следите за обновлениями в канале, собирайте команду и бронируйте время в своих календарях: 30.11 - 10.12 🤟
👍3
#geoconnect #geocontest
Всем привет. Мы готовы объявить о начале регистрации на GeoConnect!
Читать подробности и регистрироваться тут: https://geowb.ru/
Важное ☝️
Даты: 30 ноября - 10 декабря
Общая задача: определить факторы, влияющие на объемы выручки в пунктах выдачи заказов Wildberries
Размер команды: от 1 человека
2 трека:
- Дата инстайты - для тех, кто считает, что все неслучайно
-Kaggle competition - для тех, кто умеет делать r2=2
После регистрации не забудьте добавиться в чат, указанный на странице после регистрации😊
Всем привет. Мы готовы объявить о начале регистрации на GeoConnect!
Читать подробности и регистрироваться тут: https://geowb.ru/
Важное ☝️
Даты: 30 ноября - 10 декабря
Общая задача: определить факторы, влияющие на объемы выручки в пунктах выдачи заказов Wildberries
Размер команды: от 1 человека
2 трека:
- Дата инстайты - для тех, кто считает, что все неслучайно
-Kaggle competition - для тех, кто умеет делать r2=2
После регистрации не забудьте добавиться в чат, указанный на странице после регистрации😊
👏19
#geoconnect
Всем доброе утро.
Напоминаем, что от тех, кто планирует решать задачу в рамках Geoconnect и зарегистрировался на трек "Дата инсайты", сегодня до конца дня ждём тестовое задание📄.
Без него участвовать в конкурсе не получится🤷♀
Всем доброе утро.
Напоминаем, что от тех, кто планирует решать задачу в рамках Geoconnect и зарегистрировался на трек "Дата инсайты", сегодня до конца дня ждём тестовое задание📄.
Без него участвовать в конкурсе не получится🤷♀
🔥2😱1
#phd_insights #intro
Придумала на днях после очередной консультации, что возможно, многим из вас будет интересно узнать про мой PhD трек, про который я толком здесь ничего не написала, хотя с того момента, как желание писать тезис превратилось в осязаемую головную боль, прошел уже год.
Удовлетворять ваше любопытство буду под хештегом #phd_insights. Здесь будет все: от поиска позиции и PhD -рутины до инсайтов и гипотез исследования.
Задача для вас: если вам интересна эта тема - поставьте, пожалуйста, лайк под этим постом, и, если есть пожелания, о чем хотите узнать, пишите, в комментариях
Придумала на днях после очередной консультации, что возможно, многим из вас будет интересно узнать про мой PhD трек, про который я толком здесь ничего не написала, хотя с того момента, как желание писать тезис превратилось в осязаемую головную боль, прошел уже год.
Удовлетворять ваше любопытство буду под хештегом #phd_insights. Здесь будет все: от поиска позиции и PhD -рутины до инсайтов и гипотез исследования.
Задача для вас: если вам интересна эта тема - поставьте, пожалуйста, лайк под этим постом, и, если есть пожелания, о чем хотите узнать, пишите, в комментариях
❤63👍29🔥15