Городские пожары, особенно пожары в зданиях, представляют собой потенциально опасные инциденты, которые могут иметь разрушительные последствия. Только в 2018 году в Нью-Йорке произошло 27 053 структурных пожара, в результате которых погибли 88 мирных жителей. Хотя пожарные службы работали над сокращением времени реагирования и проведением инспекций по оценке рисков, чтобы лучше выявлять уязвимые или подверженные риску объекты, есть много препятствий на пути к устранению этого риска в целом.

Поскольку это один из основных способов Пожарные службы решают вопросы пожарных рисков посредством инспекций имущества для проведения оценки рисков, анализ данных может помочь в оптимизации этого процесса, выявляя области с наибольшим риском возникновения пожаров.

Итак, в моем главном проекте для Генеральной Ассамблеи я хотел использовать машинное обучение, чтобы посмотреть, смогу ли я ответить на два вопроса:

  • Насколько точно с помощью машинного обучения мы можем предсказать, возникнет ли структурный пожар на переписном участке в течение данного года?
  • Насколько точно мы можем предсказать количество строительных пожаров, которые произойдут на данном переписном участке в течение данного года?

Этот проект начался с первоначального обзора имеющихся данных и научных исследований, которые могут быть полезны для прогнозирования риска возгорания конструкции. Прочитав несколько разных статей и изучив доступность соответствующих наборов данных на Портале открытых данных Нью-Йорка, я остановился на трех основных наборах данных, которые, казалось, предоставляют достаточно информации для построения работающей модели пожарного риска. Эти наборы данных были:

Набор данных Инциденты, на которые реагируют пожарные компании был источником данных о пожарах в период с января 2013 года по декабрь 2018 года. Доступ к этому набору данных был осуществлен через API открытых данных Нью-Йорка, он был очищен и отфильтрован для включения только определенных 100-уровневых пожарных кодов (относящихся к структурных пожаров или пожаров в зданиях) и около 200 кодов уровней (относящихся к избыточному давлению, разрывам, взрывам или перегреву, как в случае с котлами или трубами). Набор данных включал различные географические идентификаторы, но поскольку эти идентификаторы были в более крупном масштабе, чем было бы полезно для прогнозов пожаров, я решил использовать название улицы и почтовый индекс, предоставленные для геокодирования инцидентов, чтобы определить местонахождение переписного участка, в котором произошел инцидент. Используя API геокодирования ArcGIS, я смог получить приблизительные координаты почти для каждого инцидента в наборе данных. Одно предостережение заключается в том, что в наборе данных было указано только название улицы, на которой произошел инцидент, и не было номера дома или здания. Таким образом, геокодирование может быть настолько точным только с координатами для каждого инцидента. Однако этот шаг позволил выполнить пространственное объединение с шейп-файлом участков переписи населения Нью-Йорка, предоставленным Департаментом городского планирования. Таким образом, каждый инцидент можно было отнести к одному из 2166 переписных участков Нью-Йорка. Затем подсчеты инцидентов были агрегированы по участкам переписи и по годам и месяцам, чтобы уменьшить размер набора данных и дать возможность делать прогнозы в одном и том же пространственном и временном масштабе.

Затем этот набор данных был объединен с набором данных MapPLUTO, версией шейп-файла набора данных PLUTO для всех объектов в Нью-Йорке. Шейп-файл MapPLUTO также был пространственно объединен с шейп-файлом переписного участка, чтобы отнести каждое свойство к переписному участку. Отдельные характеристики объектов недвижимости были также агрегированы по переписным участкам, при этом выполнялись расчеты, чтобы гарантировать, что признаки были агрегированы надлежащим образом. После этого слияние с данными о пожарах дало набор данных с количеством инцидентов на каждом участке в месяц, а также с характеристиками собственности в этом переписном участке.

Затем этот набор данных был объединен с данные взяты из набора данных «Выборочные характеристики жилья», проведенного в рамках 5-летнего обзора американского сообщества. Переменные из набора данных ACS были выбраны на основе их предполагаемой значимости для прогнозирования риска пожара и были рассчитаны как процент от общей совокупности для каждой функции.

После объединения этих наборов данных были созданы две формы набора данных. , один с агрегированным количеством инцидентов по месяцам, а другой с агрегированным количеством инцидентов по годам. Оба этих набора данных затем были пропущены через три модели классификации: классификатор случайного леса, адаптивный классификатор ускорения и классификатор XG Boost. Модель классификации преобразовала в двоичную форму подсчет инцидентов для каждого переписного участка, просто указав, произошел ли пожар на этом переписном участке за каждый период времени. Кроме того, для набора данных об инцидентах, агрегированных по годам, был запущен регрессор случайного леса, чтобы спрогнозировать количество пожаров, которые могут произойти на каждом участке переписи за каждый год.

Производительность модели оценивалась по двум параметрам: точность и отзывчивость. Точность, чтобы измерить точность прогнозов модели, и напомнить, потому что при прогнозировании риска пожара мы хотим уменьшить количество ложноотрицательных результатов (на участках переписи, согласно прогнозам, не будет возгораний в течение определенного периода времени, которые в конечном итоге будут иметь пожары).

Модели классификации, основанные на данных, агрегированных по месяцам, показали не лучшие результаты, чем базовая скорость возгорания (пожары: 23,7%, отсутствие пожаров: 76,3%).

Классификатор случайного леса

  • Точность: 0,784
  • Напомним: 0,0335

Классификатор AdaBoost

  • Точность: 0,836
  • Напомним: 0,203

Классификатор XG Boost

  • Точность: 0,825
  • Напомним: 0,266

Вероятно, это связано с внутренней трудностью прогнозирования риска пожара в месячном масштабе времени.

Модели классификации, основанные на данных, агрегированных по годам, давали гораздо более точные прогнозы, чем модели на месяц.

Классификатор случайного леса

  • Точность: 0,883
  • Напомним: 0,947

Классификатор AdaBoost

  • Точность: 0,803
  • Напомним: 0,96

Классификатор XGBoost

  • Точность: 0,828
  • Напомним: 0,963

Все эти модели имели гораздо более высокую степень запоминаемости, чем модели ежемесячной классификации, что означает, что у них было относительно небольшое количество ложноотрицательных классификаций. Кроме того, похоже, что все модели оценивают аналогичные характеристики как важные для прогнозирования риска пожара. Некоторые из этих характеристик включают количество жилых единиц, средний возраст зданий, процент квартир, которые были заняты арендаторами, и процент зданий, использующих нефть или керосин в качестве основного топлива для отопления.

Случайно Модель регрессии лесов также использовалась для годовых данных о происшествиях, прогнозируя количество происшествий, которые могут произойти на каждом участке в течение данного года. Этот регрессор случайного леса показал умеренно хорошие результаты с оценкой R-квадрат 0,711 и скорректированным R-квадратом 0,698. Требуется дополнительное уточнение этой регрессионной модели для повышения точности прогнозов.

Заключение и дальнейшие действия

Прогнозирование происшествий с пожарами в ежемесячном масштабе времени - сложная задача, и мне, вероятно, потребуется гораздо больше исследований данных о происшествиях с пожарами, чтобы добиться успеха. Тем не менее, большая часть исследований, с которыми я столкнулся, были сосредоточены на прогнозировании риска пожара в годовой шкале времени, на выявлении областей, которые могут возникнуть в следующем году, для оценки рисков и инспекций пожарных служб. Одними из наиболее важных факторов для прогнозирования риска возникновения пожара для всех моделей были средний возраст здания, процент жилых единиц, которые арендуются арендаторами, и тип топлива, используемого для обогрева зданий.

Был ряд факторов. дополнительные наборы данных, которые я хотел включить в этот проект, но не смог из-за нехватки времени. Дальнейшая работа над этим проектом будет включать включение нарушений Департамента строительства, 311 жалоб, дополнительных данных о классах зданий и землепользования, а также данных инспекций FDNY.

Кроме того, я хотел бы использовать больше моделей для лучшего решения пространственных проблем. и временные размеры этих данных. Некоторые модели, которые я хотел бы включить, - это STARMA (пространственно-временная модель ARMA), кластеризация k-средних (для изучения кластеризации инцидентов с пожарами) и модель регрессии Пуассона (для лучшего прогнозирования количества дискретных инцидентов за период времени). .

Ссылка на репозиторий Github для этого проекта: https://github.com/NoahChristiansen/Fire-Risk-NYC