Введение:

Сверточные нейронные сети (CNN) произвели революцию в глубоком обучении, продемонстрировав замечательную производительность в таких задачах, как классификация изображений, обнаружение объектов и обработка естественного языка. Два важнейших метода, используемых в CNN, — это опрос и заполнение. Эти методы играют жизненно важную роль в улучшении извлечения признаков и пространственного разрешения, позволяя сети изучать значимые представления из входных данных. В этой статье представлено глубокое понимание опроса и заполнения в контексте CNN, подчеркнуто их значение и предоставлены диаграммы для облегчения понимания.

Объединение:

Объединение, также известное как субдискретизация, представляет собой операцию субдискретизации, которая уменьшает пространственные размеры карт объектов. Это помогает извлечь наиболее важные функции при одновременном снижении вычислительной сложности. Двумя наиболее распространенными методами объединения являются максимальное объединение и среднее объединение.

Максимальное объединение включает в себя разделение входной карты объектов на непересекающиеся области и выбор максимального значения в каждой области. Этот процесс сохраняет наиболее важные функции, отбрасывая менее важную информацию. Рисунок 1 иллюстрирует процесс максимального объединения в CNN, где окно объединения 2x2 скользит по входной карте объектов и выводит максимальное значение в каждой области.

Input Feature Map             Max Pooling
 _______ _______              _______
|   4   |   5   |            |   5   |
|_______|_______|   -->      |_______|
|   8   |   3   |            |   8   |
|_______|_______|            |_______|
Figure 1: Max Pooling operation with a 2x2 pooling window in a CNN

Объединение средних значений вычисляет среднее значение в каждой области объединения, обеспечивая более плавный эффект понижения дискретизации. Этот метод полезен, когда не требуется точная локализация признаков.

Заполнение:

Заполнение включает в себя добавление дополнительных пикселей или значений вокруг входного изображения или карты объектов. Это помогает сохранить пространственное разрешение и предотвратить потерю информации во время сверточных операций. Заполнение обычно применяется до и после сверточных слоев, чтобы гарантировать, что выходная карта объектов имеет тот же размер, что и входная.

Существует два типа заполнения: допустимое заполнение и одинаковое заполнение. Допустимое заполнение (нулевое заполнение) не добавляет дополнительных пикселей к входным данным и создает выходную карту объектов с уменьшенными пространственными размерами. Напротив, одно и то же заполнение добавляет дополнительные пиксели вокруг входных данных, сохраняя те же пространственные размеры на выходной карте объектов. На рис. 2 показано применение того же дополнения в CNN, где карта входных объектов дополняется нулями, чтобы сохранить ее размер во время свертки.

Input Feature Map          Padded Feature Map
 _______ _______           _______ _______ _______
|   4   |   5   |         |   0   |   0   |   0   |
|_______|_______|         |_______|_______|_______|
|   8   |   3   |   -->   |   0   |   8   |   3   |
|_______|_______|         |_______|_______|_______|
Figure 2: Same Padding operation with zero-padding in a CNN

Заполнение обеспечивает сохранение пространственной информации, что имеет решающее значение в задачах, где важна точная локализация признаков, таких как обнаружение объектов.

Объединение опроса и заполнения. Объединение и заполнение часто используются в сочетании для извлечения высокоуровневых функций и поддержания пространственного разрешения во всей CNN. Применяя объединение после сверточных слоев, сеть уменьшает пространственные размеры и фокусируется на наиболее важных функциях. Затем применяется заполнение, чтобы последующие сверточные слои могли эффективно обрабатывать карты объектов, сохраняя при этом их размер.

Вывод:

Опрос и дополнение являются фундаментальными методами в CNN, которые улучшают извлечение признаков и сохраняют пространственное разрешение. Опрос уменьшает пространственные размеры, позволяя сети сосредоточиться на основных функциях. Заполнение, с другой стороны, сохраняет пространственную информацию и предотвращает потерю информации во время свертки. Комбинируя эти методы, CNN могут эффективно извлекать значимые признаки, сохраняя при этом необходимое пространственное разрешение для точного анализа. Понимание операций опроса и заполнения имеет решающее значение для разработки и обучения надежных архитектур CNN.