Клаудио Сильва: «Будущее за междисциплинарным подходом, способным решать комплексные проблемы городов»

Клаудио Сильва (Claudio T. Silva)

Клаудио Сильва (Claudio T. Silva)
© Высшая школа урбанистики

В рамках летней программы Высшей школы урбанистики «Адаптивный город» Москву посетил Клаудио Сильва — профессор Нью-Йоркского университета (New York University), специалист в сфере компьютерных технологий и больших данных. Сильва участвует в междисциплинарных проектах, которые затрагивают такие области, как биотехнология, нейробиология, физика, орнитология, анализ спортивных игр и городских перемен. Сильва повлиял на многих исследователей, работающих с big data, и одна из причин этого влияния  стремление устранить разрыв между академическими научными изысканиями и их практическим применением.

Расскажите, что привело вас к изучению и визуализации больших данных?

Примерно 30 лет назад я приехал в Калифорнию по программе обмена и решил в качестве одного из курсов выбрать программирование. В библиотеке я нашел очень занимательную книгу, ее автор был кандидатом наук по информационным технологиям. И тогда я сказал себе, что тоже хочу получить такую степень. Если честно, я понятия не имел, что такое информационные технологии на самом деле.

Через несколько лет я поступил в университет и сначала выбрал инженерное дело и юриспруденцию, но вскоре поменял специализацию на математику. И все это время я держал в голове, что хочу получить кандидатскую степень по информационным технологиям. Для этого я получил степень бакалавра математики [B.S. in Mathematics from Federal University of Ceara, Brazil — ВШУ], а затем окончил магистратуру и аспирантуру по информационным технологиям [M.S. and Ph.D. in Computer Science from the State University of New York at Stony Brook — ВШУ], а затем был постдоком [Временная ставка научного сотрудника после защиты диссертации — ВШУ] по прикладной математике и статистике с фокусом на вычислительную геометрию. Я считаю, что математика и информационные технологии отлично сочетаются.

А вот как я увлекся визуализацией — забавная история. Одна из причин, почему я так интересуюсь компьютерами — я люблю игрушки. И когда я был студентом магистратуры, времена были другие и компьютеры были гораздо больше. У нас на кафедре был очень крутой компьютер — графическое устройство ввода-вывода. Я спросил, с кем мне надо работать, чтобы иметь к нему доступ. Так все и получилось: мой научный руководитель предоставил мне доступ к этому устройству. Оно могло производить очень красивые визуализации. Мне это было очень интересно, потому что в одном месте пересекались геометрия, математика и информационные технологии.

Это было начало. После, в течение долгих лет, я работал над крупномасштабными визуализациями научных данных. Примерно в конце 2000-х годов я получил приглашение переехать в Нью-Йорк от Центра Графики Городского Университета Нью-Йорка [City University of New York, сокр. CUNY — ВШУ]. Но примерно в то же время Нью-Йоркский университет открыл инженерный кампус в Бруклине. Это очень заинтересовало мою жену [Джулиана Фрейре — профессор информационных технологий и инженерии, глава магистратуры центра анализа данных Нью-Йоркского Университета — ВШУ] и в итоге мы присоединились к Нью-Йоркскому Университету. Когда мы переехали в Нью-Йорк, я решил, что хочу заниматься анализом городских данных, но это было даже до того, как образовался Центр Городских Исследований и Прогресса [Center for Urban Science and Progress создан на базе Нью-Йоркского университета в апреле 2012 года по инициативе тогда действующего мэра Майкла Блумберга — ВШУ]. Поэтому, когда я узнал о формировании этого центра, я присоединился к его команде и помогаю его развитию и сегодня.

Клаудио Т. Сильва (Claudio T. Silva) // фото: Высшая школа урбанистики
Клаудио Сильва (Claudio T. Silva) // фото: Высшая школа урбанистики

Как сегодня обстоят дела с большими данными в целом? Какие отрасли пользуются выкладками big data? Какие отрасли получили вторую жизнь, а в какие большим данным только предстоит внедриться?

Когда люди говорят о больших данных, они обычно подразумевают только один аспект — их объем. Но другая сторона больших данных — это их сложность. Мне кажется, каждая индустрия претерпела или перетерпит коренную перестройку из-за пересечения с большими данными. Революция больших данных — это возможность сбора информации, которой в последние десятилетия стало очень много как таковой. Сейчас объемы информации растут в постоянной прогрессии. Впрочем, многие сферы деятельности, особенно если мы посмотрим на научную сферу, уже давно оперируют большими данным и большими объемами сложной информации. Поэтому большие данные в нынешнем их восприятии больше всего изменили то, что находится ближе к индивидуальному пользователю. Это ваши личные данные, которые вы можете получить о себе: от ваших перемещений до данных о состоянии здоровья.

Если говорить о внедрении больших данных, то наиболее развитые области это, как ни странно, наиболее старые, особенно в научной среде — так называемый суперкомпьютер. Но если вы спросите меня, в каких сферах наибольший потенциал, то это сферы, в которых большие данные влияют на то, как люди принимают решения каждый день. Многое из этого относится к городским данным, но не только. Например, есть данные образцов биологической ткани. По-моему, существует множество разных сфер, которые только выиграют от этой революции!

А к чему, на ваш взгляд, может привести развитие технологий и больших данных?

Во-первых, способы машинного обучения станут более автоматизированными. Нам не придется так долго настраивать алгоритмы. Во-вторых, чем больше мы работаем с данными, тем лучше будут эти самые алгоритмы, а процесс обработки данных будет быстрее. Я думаю, уже скоро мы перейдем от анализа одного-двух массивов данных к одновременному анализу десятков или сотен разных типов данных и сможем учитывать множество условий для решения задач. В каком-то смысле это одна из очень интересных тем для меня — идея связных моделей.

Сейчас мы изучаем транспортные потоки и берем для анализа только данные передвижений, иногда данные о погоде, потому что она влияет на загруженность дорог. Но когда нам надо решить проблему пробок, то один из самых дорогих способов  это построить больше дорог. Но что если в какой-то момент вы уже не можете строить новые эстакады? Тогда одним из решений может быть полное изменение того, как работает город, улучшение его циркуляции. Можно уменьшить количество машин, переместив, допустим, 10 тысяч человек в другое место. Это будет связной моделью, где вы теперь принимаете во внимание ограничения рынка жилья и одновременно данные о транспорте. Такое решение потребует гораздо более широкого подхода, чем сейчас. Потому что сейчас все мы занимаемся своими узкими категориями — кто-то эксперт по транспорту, другой — городской планировщик, а третий — архитектор. Будущее за междисциплинарным подходом, способным решать комплексные проблемы и предсказывать сценарии развития городов.

Клаудио Сильва (Claudio T. Silva) // фото: Высшая школа урбанистики
Клаудио Сильва (Claudio T. Silva) // фото: Высшая школа урбанистики

Есть ли необходимость в контроле развития и этическом осмыслении больших данных, особенно в контексте обобщений повседневной жизни человека?

Это очень важная тема  неприкосновенность частной жизни при использовании данных. Забавно, что люди по-разному реагируют на этот вопрос в зависимости от того, что они получают благодаря большим данным. В некоторой степени вам все равно, что какой-то сервис, например Google, отслеживает информацию о вас, до тех пор, пока он не может точно сказать, что вы  это вы. Поясню. Для большинства приемлемо, что есть алгоритм, который собирает частную информацию и использует ее чтобы помочь вам. Через какое-то время алгоритм запоминает, например, что вы искали хороший ресторан, и он вам понравился. А еще что вы любите японскую еду и ненавидите индийскую. Если программа учтет ваши предпочтения  она вам поможет.

Но в то же время, допустим, вы не хотите, чтобы все знали это. Или даже вы хотите сохранить это в тайне. Наверное, есть определенные личные вещи, которые вам нравятся и которые не нравятся, и поэтому вы не хотите, чтобы можно было просмотреть личные данные вашего профайла. Я считаю, что пользователь должен иметь постоянный контроль, чтобы была возможность пойти на сайт и удалить все личные данные. И, конечно же, должен быть контроль над тем, кто может использовать ваши данные, а кто нет. Но на самом деле я не уверен, что знаю ответ на ваш вопрос. Чем больше мы думаем над этой проблемой, тем больше неизвестных в ней появляется, и тем меньше мы принимаем во внимание то, что на самом деле знаем.

Как большие данные повлияли на урбанистику? И как изменились городские исследования с доступностью big data?

Мне кажется, мы еще находимся в самом начале изменений, но они уже есть. Например, в Нью-Йоркском университете работает много специалистов, которые занимаются городскими исследованиями, потому что есть некая естественная тяга к изучению города. Если вы заглянете во все эти лаборатории, то убедитесь, что доступность и необходиомсть больших данных вездесуще.

Но мы заметили одну вещь, большинство этих исследователей не являются специалистами в области информационных технологий или анализа данных. Поэтому инструменты, которыми они пользуются, часто бывают рудиментарными  просто из-за того, что они не знают, как сделать это лучше. Я уверен, что нам еще предстоит многому научиться благодаря взаимному влиянию специалистов по анализу данных и узкопрофильных специалистов, которые вместе попытаются понять, как лучше всего использовать уже имеющиеся данные. И есть еще один аспект  много данных, которые узкопрофильные специалисты хотят использовать, но не знают, как получить к ним доступ. Частично это происходит из-за того, что данные действительно труднодоступны, но отчасти и из-за того, что технологии еще не позволяют делать то, что нужно ученым. Они не могут получить нужные массивы данных или не могут с ними работать, потому что эти массивы или огромные, или слишком сложные. Повторюсь, мы еще стоим у истоков развития этой области, но у меня нет сомнений в том, что она произведет фундаментальные изменения в том, как проводятся все городские и социальные исследования.

Клаудио Сильва (Claudio T. Silva) // фото: Высшая школа урбанистики
Клаудио Сильва (Claudio T. Silva) // фото: Высшая школа урбанистики

Расскажите о своих проектах. Например, VisTrails, Urbane, TLCVis?

VisTrails  это проект, которому я посвятил много времени, и это часть большой работы, направленной на воспроизводимость (reproducibility) и отслеживание истории происхождения источников (provenance) исследований. Идея заключается в том, что если вы делаете исследование, то вы хотите быть уверены, что другие смогут извлечь из него пользу и проверить, насколько оно правильно, или, по крайней мере, смогут его повторить. У всех есть недочеты в работе. И это становится огромной проблемой, потому что мы находим несметное количество исследований, в которых были допущены ошибки — методологические, ошибки сбора данных и т.д. Иногда это действительно важные исследования, связанные с применением лекарств и их эффективностью. Поэтому мы до сих пор усиленно занимаемся этим проектом чтобы направить решение этой проблемы в строну воспроизводимых исследований.

Другие проекты, которые связаны с визуализацией и анализом городских данных, это TLCVis и Urbane. Urbane  это, по сути, новая версия проекта TLCVis, только вместо одного массива данных о передвижениях такси, мы пытаемся его усложнить и дополнить другими данными до того, как добавить данные о поездках. Наша цель  проанализировать большое количество массивов данных. Для этого нам необходимо иметь три компонента: визуализацию, машинное обучение и сбор данных.

Помимо городской тематики, я работаю над проектом про спортивную аналитику. Да, я преданный спортивный болельщик! В частности, мы работали над системой отслеживания движений игроков бейсбола и над реконструкцией игр. Это проект, которым мы занимаемся совместно с Отделом специализированных медиа Лиги бейсбола (MLB, Major League Baseball). И это один из тех проектов, где лежащая в основе технология будет применяться и к другим областям. Потому что во многом это попытка объяснить поведение человека через наблюдение.

Еще один интересный проект  это UrbanGenome. Мы сотрудничаем с центром геномики [Недавно возникшее направление науки, объектом изучения которой являются геномы  ВШУ] и системной биологии Нью-Йоркского университета для разработки улучшенной визуализации данных. В рамках другого проекта мы сотрудничаем с искусствоведами из музея коллекции Фрика [The Frick Collection — частная коллекция старой западноевропейской живописи, расположенная на Пятой авеню в Нью-Йорке  ВШУ], чтобы создать инструменты для работы с огромным количеством изображений. У них собранно более полутора миллионов произведений искусства, и наша задача  организовать, проиндексировать и создать систему поиска по коллекции.

На самом деле, у этих проектов много общего. Все они, как правило, пытаются решить одну из фундаментальных научных задач. Полученные результаты можно будет применять в других областях. Например, проект с коллекцией произведений искусства: нам в любом случае надо придумать, как работать с большими коллекциями, потому что в тех же городских исследованиях есть огромные архивы изображений, которые надо анализировать.

Какое у вас сложилось впечатление о Москве и Екатеринбурге? Интересен ваш взгляд со стороны на транспорт, навигацию, устройство улиц и пешеходных пространств?

Мне очень понравилось в России. Поездка выдалась загруженной, и я, наверное, разговаривал с бо'льшим количеством людей, чем когда-либо в жизни! Мне было интересно поехать из мегаполиса в город меньшего размера и увидеть контраст и сельский ландшафт. У меня всегда было много коллег и друзей из России, но, побывав здесь, я стал понимать происходящее глубже.

К сожалению, я не могу сказать, что у меня было достаточно времени понять Москву  я ни разу не гулял по городу один. Но что меня особенно впечатлило, так это то, насколько город чистый, особенно по сравнению с Нью-Йорком. Нью-Йорк очень-очень грязный город. Еще в Москве поражающая архитектура. К примеру, самый красивый торговый центр, который я видел в жизни, рядом с Красной площадью. Я не отъезжал далеко от центра и поэтому не могу сказать ничего про окраины. Еще меня удивило, как много новых машин. Вообще, в Москве все выглядит новее и чище, чем в других городах. Может, у меня сложилось такое впечатление из-за района где я жил [Отель «Балчуг Кемпански Москва» — ВШУ], или это действительно верно для города в целом. Когда вы выезжаете из центра Москвы, появляются здания, которые для меня очень сложно идентифицировать по функции. Было бы интересно в этом разобраться. И еще, конечно, у вас потрясающее метро! Станции очень просторные и понятная навигация. Опять-таки там очень чисто, что нельзя сказать про метро в Нью-Йорке. Хотя, может, это потому, что в Нью-Йоркском метро около 600 станций, и оно работает круглосуточно. А московское метро работает круглосуточно?

Нет.

Вот видите, теперь понятно  у них есть время убраться.

Клаудио Сильва (Claudio T. Silva) // фото: Высшая школа урбанистики
Клаудио Сильва (Claudio T. Silva) // фото: Высшая школа урбанистики

Я знаю, что вы были в офисе «Яндекса», какое у вас сложилось впечатление? Отличается ли внешне работа компании от похожих компаний в США?

Да, я был впечатлен не только их зданием и кампусом, но и тем, насколько люди компетентны. Я смог посмотреть несколько демоверсий их разработок и, когда я разговаривал с инженерами, я не могу сказать, что почувствовал какую-то разницу между Россией и США. По моему поверхностному наблюдению (я все-таки был в России только 6 дней), люди здесь настолько же хорошо информированы, как в США. И я могу это сказать не только про сотрудников «Яндекса», а про всех, с кем мне довелось встретиться. Мир сейчас все-таки очень связан. И ученые, и чиновники, которых я встретил, были восприимчивы к новой информации.

Интервью подготовили Анна Сиприкова, дизайн-менеджер Project for Public Spaces, и Филипп Кац, аналитик, студент NYU CUSP.