Искусственный интеллект (2) — обучение с учителем, обучение без учителя и обучение с подкреплением

В машинном обучении используется ряд алгоритмов для решения сложных задач. Каждый из этих алгоритмов можно отнести к определенной категории. Различные типы алгоритмов машинного обучения:

  • Контролируемое обучение
  • Обучение без учителя
  • Обучение с подкреплением

Теперь давайте посмотрим на определения каждого из этих методов обучения. Обучение с учителем использует размеченные данные для обучения моделей машинного обучения. Данные метки означают, что результат вам уже известен. Модель просто должна сопоставить входы с выходами. Примером контролируемого обучения может быть обучение машины изображению животного. Здесь вы можете видеть, что у нас есть обученная модель, которая идентифицирует изображение кошки, собаки или курицы.

Обучение без учителя использует немаркированные данные для обучения машин. Неразмеченные данные означают, что нет фиксированной выходной переменной. Модель учится на данных, обнаруживает закономерности и особенности данных и возвращает результат. Вот пример метода обучения без учителя, который использует изображения транспортных средств, чтобы классифицировать их как автобус, легковой автомобиль или грузовик. Таким образом, модель обучается, идентифицируя части транспортного средства, такие как длина и ширина транспортного средства, передняя и задняя торцевые крышки, кровельные покрытия, типы используемых колес и т. д. На основе этих признаков модель классифицирует изображение как автобус или автомобиль или грузовик.

Обучение с подкреплением обучает машину выполнять подходящие действия и максимизировать вознаграждение в конкретной ситуации. Он использует агента и среду для создания действий и вознаграждений. Агент имеет начальное и конечное состояния. Могут быть разные пути для достижения конечного состояния, как в лабиринте. В этом методе обучения нет предопределенной целевой переменной. Когда мы рассматриваем пример с собакой, у нас есть владелец собаки и сама «собака» (Агент). Теперь, когда хозяин собаки находится в саду с собакой, он выбрасывает палку. Это выбрасывание палки является «состоянием» для агента, и теперь собака побежит за палкой, которая быть «действием».

Результатом будет благодарность или еда для собаки от владельца, что будет «наградой» в результате действия, и если собака не пойдет за палкой для другого альтернативного действия, тогда она может получить «наказание». Таким образом, это и есть обучение с подкреплением.

Теперь для каждой проблемы обучения с подкреплением есть несколько предопределенных компонентов, которые помогают лучше представить и понять проблему. Ниже приведены компоненты,

Агент. Агент выполняет действия; как упоминалось ранее в нашем примере, собака является агентом

Действие (A): у агента есть набор действий A, из которых он выбирает, какое действие выполнить. Точно так же, как собака, которая решила, идти ли за палкой, просто смотрит на палку или прыгает на позицию.

Коэффициент скидки.Коэффициент скидки умножается на будущие вознаграждения, обнаруженные агентом, чтобы уменьшить влияние выбора действия агента. Чтобы упростить это, с помощью коэффициента скидки мы делаем будущие вознаграждения менее ценными, чем немедленные вознаграждения. Это заставляет агента самому смотреть на краткосрочные цели. Таким образом, чем меньше значение коэффициента дисконтирования, тем более незначительными станут будущие вознаграждения, и наоборот.

Окружающая среда: это окружение агента, в котором он движется. В примере с собакой среда состоит из владельца и сада, в котором находится собака. Это окружающая среда, которая дает агенту его вознаграждение в качестве выходных данных, основанных на текущем состоянии агента и действиях в качестве входных данных.

Состояние.Состояние — это непосредственная ситуация, в которой находятся агенты по отношению к другим важным вещам в окружении, таким как инструменты, препятствия, враги и призы/награды. Здесь собака обязана

Награда(R):награда – это результат, который агент получает в ответ на действия агента. Например, собака получает корм для собак в качестве награды, если собака (агент) возвращает палку, в противном случае она получает выговор как награду. >наказание, если он этого не хочет.

Политика. Здесь политика — это стратегия, которую агент использует для определения действий, которые следует предпринять на основе текущего состояния. По сути, агент сопоставляет состояния с действиями, т. е. определяет действия, которые обеспечивают максимальное вознаграждение в отношении состояний. Говоря о примере с собакой, когда собака узнает, что собачий корм будет дан в качестве награды, если она вернет палку, помня об этом, собака создаст свою собственную политику, чтобы получить максимальную награду.

Алгоритмы машинного обучения

Теперь давайте рассмотрим различные алгоритмы машинного обучения, которые относятся к этим методам обучения. Некоторые из наиболее часто используемых алгоритмов обучения с учителем:

  • Линейная регрессия
  • Логистическая регрессия
  • Машина опорных векторов
  • K ближайших соседей
  • Дерево решений
  • Случайный лес
  • Наивный байесовский метод

Примеры алгоритмов обучения без учителя:

  • кластеризация k-средних
  • Иерархическая кластеризация
  • DBSCAN
  • Анализ основных компонентов

Примеры алгоритмов обучения с подкреплением:

  • Q-обучение
  • Монте-Карло
  • САРСА
  • Сеть Deep Q

Теперь давайте посмотрим на подход, в котором работают эти методы машинного обучения. Таким образом, контролируемое обучение берет помеченные входные данные и сопоставляет их с известными выходными данными, что означает, что вы уже знаете целевую переменную. Неконтролируемое обучение находит закономерности и анализирует тенденции в данных для получения результатов. Таким образом, модель пытается маркировать данные на основе особенностей входных данных. В то время как обучение с подкреплением следует методу проб и ошибок, чтобы получить желаемое решение. После выполнения задания агент получает награду. Например, мы можем научить собаку ловить палку. Если собака научится ловить палку, вы дадите ей вознаграждение, например, печенье.

Процесс обучения для каждого из контролируемого, неконтролируемого и обучения с подкреплением.

Методы обучения с учителем нуждаются во внешнем контроле для обучения моделей машинного обучения, отсюда и название «контролируемый». Им нужно руководство и дополнительная информация, чтобы вернуть результат.

Методы неконтролируемого обучения не требуют контроля для обучения моделей, которые они изучают самостоятельно, и прогнозирования результатов.

Методы обучения с подкреплением не требуют контроля для обучения моделей машинного обучения, поэтому давайте сосредоточимся на типах проблем, которые можно решить с помощью этих трех типов методов машинного обучения.

Обучение с учителем обычно используется для задач классификации и регрессии. Неконтролируемое обучение используется для проблем кластеризации и ассоциации. Обучение с подкреплением основано на вознаграждении, поэтому за каждую задачу, если каждый шаг выполнен, агент получает вознаграждение. И если задача не будет выполнена правильно, будет использован штраф.

Несколько приложений, которые используют контролируемое, неконтролируемое обучение и обучение с подкреплением.

Как я упоминал ранее, обучение с учителем используется для решения задач классификации и регрессии, например, вы можете предсказать погоду на конкретный день на основе значений влажности, осадков, скорости ветра и давления. Вы можете использовать алгоритмы обучения с учителем для прогнозирования продаж на следующий месяц или следующий квартал для различных продуктов. Точно так же вы можете использовать его для анализа цен на акции или определения, является ли раковая клетка злокачественной или доброкачественной.

В алгоритмах обучения без учителя у нас есть сегментация клиентов. Основываясь на предпочтениях, антипатиях и интересах поведения клиентов, вы можете сегментировать и группировать похожих клиентов в группу. В анализе оттока клиентов мы также используем неконтролируемое обучение.

Алгоритмы обучения с подкреплением широко используются в игровой индустрии для создания игр, а также для обучения роботов выполнению человеческих задач.

Я думаю, вы лучше поймете, что такое обучение с учителем, обучение без учителя и обучение с подкреплением. Увидимся в другом уроке.

Спасибо!

Если вы хотите узнать об искусственном интеллекте, используйте эту ссылку, чтобы перейти к моему первому руководству из этой серии.