Победить в двух хакатонах за три дня: миссия выполнима!

Научный сотрудник ВШУ Егор Котов и выпускник факультета экономических наук ВШЭ Юрий Кульчицкий выиграли два хакатона по анализу пространственных данных Росреестра

20-21 октября 2018 г. в МИИГАиК прошёл хакатон РЕЕСТР-Hack – соревнование команд, нацеленное на поиск новых идей в области ГИС, картографии и кадастра, посвященное 10-тилетию Росреестра.

В номинации «Лучшее решение в сфере кадастровых данных» от компании Геоскан победу одержала команда «ГИС-терия» – научный сотрудник ВШУ Егор Котов и выпускник факультета экономических наук ВШЭ Юрий Кульчицкий – с проектом «Алгоритм автоматического обновления базы данных Геопортала».

Мы успешно разработали прототип обновления данных, сопоставления изменений в Росреестре с базой нарушений. Во время презентации мы провели онлайн-демонстрацию работы алгоритма. На глазах жюри мы запустили исполнение кода, который в ходе нашей пятиминутной презентации получал из Росреестра данные на новую тестовую территорию и к концу презентации автоматически показал результат анализа и сопоставления кадастровых участков и зафиксированных нарушений.

– Егор Котов

23 октября в Москве в рамках бизнес-форума Russian Artificial Intelligence Forum состоялся  RAIF Hackathon. Это был завершающий, очный этап хакатона. Всего было подано 322 заявки на участие. 51 команда вышла в финал по трём номинациям. В рамках финального этапа участникам были выданы дополнительные данные и предоставлено время для их анализа. После 4 часов доработки команды защитили свои проекты перед жюри, состоящим из экспертов крупных компаний российского рынка. Егор и Юрий работали над решением задачи Росреестра параллельно с четырьмя командами-конкурентами.

В данной работе мы занимались решением задачи предсказания стоимости кадастровой оценки объектов недвижимости. Идея задания заключалась в том, что сейчас кадастровую оценку производят вручную в отношении каждого объекта недвижимости при помощи одной из утвержденных методик. На это ежегодно уходят тысячи и десятки тысяч человеко-часов. Если можно построить модель, которая автоматически оценивает так же, как профессиональный оценщик, то эти человеко-часы можно сэкономить.

При подборе переменных и построении модели мы использовали знания об устройстве системы расселения и внутреннем устройстве городов, принципах полицентрического развития. В работе использовались преимущественно открытые данные OpenStreetMap, а также инструменты анализа данных с открытым исходным кодом – R, Python, QGIS.

Мы анализировали территорию целого региона – Чувашской Республики, это более 700 тыс. объектов недвижимости. Для работы с таким количеством пространственных данных мы приняли ряд неординарных решений и допущений, которые позволили сократить время расчетов ключевых переменных модели, в том числе расстояний до мест значительной концентрации точек интереса, относящихся к объектам обслуживания, торговле, социального обслуживания и др. Для моделирования мы применяли линейную регрессию для первичной оценки качества модели на выбранных переменных и быстрой оценки значимости переменных, а затем перешли к моделированию при помощи модели случайного леса (Random Forest) с предварительной обработкой данных при помощи fastai.

– Егор Котов