BIRCH : РЕШЕНИЕ ДЛЯ КЛАСТЕРИЗАЦИИ БОЛЬШИХ БАЗ ДАННЫХ

Согласно Википедии:

Береза — тонколиственное листопадное лиственное дерево рода Betula семейства Betulaceae, к которому также относятся ольха, лещина и грабы. Он тесно связан с буково-дубовым семейством Fagaceae. Род Betula включает от 30 до 60 известных таксонов, 11 из которых занесены в Красный список исчезающих видов МСОП 2011 года.

Береза, которую мы собираемся здесь обсудить, неэта береза.

Извините, ботаники, вы можете отправиться в другие места, чтобы узнать об этом. Теперь давайте обсудим нашу основную тему. Чтобы изучить алгоритм березы, во-первых, мы должны знать, что такое кластеризация.

Что такое кластеризация?

Алгоритмы кластеризации — это тип алгоритма машинного обучения, который используется для разделения набора данных на группы или кластеры похожих точек данных. Цель алгоритмов кластеризации состоит в том, чтобы найти шаблоны и структуры в данных, которые не очевидны, и сгруппировать точки данных таким образом, чтобы они отражали эти шаблоны и структуры.

Существует множество различных алгоритмов кластеризации, каждый из которых имеет свои сильные и слабые стороны. Существуют различные типы методов кластеризации. В основном они основаны либо на расстоянии, либо на вероятности. Некоторые из них :

Подход с разделением – это алгоритм, который делит набор данных на заданное количество кластеров путем многократного присвоения каждой точки данных кластеру с ближайшим средним значением. Это быстро и эффективно, но может быть чувствительно к начальному размещению кластеров.
Иерархическая кластеризация – это алгоритм, который строит иерархию кластеров, при этом каждый кластер делится на более мелкие кластеры, пока все точки данных не окажутся в своем собственном кластере. Это более медленный алгоритм, чем алгоритм k-средних, но он более надежен и может обрабатывать большие наборы данных.
Кластеризация на основе плотности – это алгоритм, который идентифицирует кластеры, находя области набора данных с высокой плотностью точек данных. Он эффективен при поиске кластеров произвольной формы и устойчив к шуму и выбросам.
Подход с добавочной кластеризацией — это способ обработки динамически растущего набора данных. Он пытается свести к минимуму усилия по сканированию и вычислению вновь добавленных точек данных. Очень важно эффективно хранить и использовать знания о существующих результатах кластеризации для добавочной кластеризации.

Из них метод Берча представляет собой неконтролируемый алгоритм кластеризации, основанный на подходе иерархической кластеризации, который используется для поиска естественных кластеров в наборе данных. Это быстрый и эффективный алгоритм, который легко реализовать и который может обрабатывать большие наборы данных. В случае большинства методов кластеризации они усложняются, когда мы используем большие наборы данных. Birch — одно из решений, которое мы можем использовать для кластеризации точек данных в больших наборах данных.

ЧТО НЕОБХОДИМО ПОМНИТЬ

Дерево CF (дерево функций кластеризации)

Метод Birch работает путем построения древовидной структуры, называемой деревом CF (дерево кластерных признаков). Дерево CF строится путем итеративного добавления точек данных в дерево, начиная с одного узла, представляющего кластер. Когда в дерево добавляется новая точка данных, она сравнивается с существующими узлами в дереве. Если точка данных достаточно похожа на существующий узел, она добавляется в кластер, представленный этим узлом. Если точка данных недостаточно похожа ни на один из существующих узлов, она добавляется в дерево как новый кластер.

Алгоритм Берча состоит из четырех фаз:

Этап 1 включает в себя создание начального дерева CF (функция кластеризации) в памяти.
Этап 2 (необязательный) включает перестроение меньшего дерева CF с конечными элементами исходного дерева.
Этап 3 включает использование глобального или полуглобального алгоритма кластеризации для кластеризации листовых записей дерева CF.
Этап 4 (необязательно) включает в себя дальнейшее уточнение кластеров путем повторного сканирования данных.

Параметры алгоритма BIRCH

Порог. Порог – это максимальное количество точек данных, которое может содержать подкластер в листовом узле дерева CF.
Коэффициент ветвления. Этот параметр указывает максимальное количество подкластеров CF в каждом узле (внутреннем узле).
n кластеров: количество кластеров, которое будет возвращено после завершения всего алгоритма BIRCH, т. е. количество кластеров после последнего шага кластеризации. Если установлено значение None, последний этап кластеризации не выполняется и возвращаются промежуточные кластеры.

2. Функция кластеризации

Функция кластеризации — это тройное обобщение информации, которую мы храним о кластере. Дерево CF представляет собой сбалансированное по высоте дерево, которое собирает и управляет функциями кластеризации и содержит необходимую информацию о заданных данных для дальнейшей иерархической кластеризации. Это избавляет от необходимости работать со всеми входными данными. Функция кластеризации (CF) кластера представляет собой трехмерный вектор, обобщающий информацию о кластерах объектов. Это как,

Где,

n = количество элементов в подкластерах

LS = векторная сумма точек данных

SS = сумма квадратов точек данных

Например, если у нас есть кластер,

c = {1,2,3,4}

Тогда соответствующая функция кластеризации будет:

Здесь n (количество элементов в подкластерах) = 4

LS (векторная сумма точек данных) = 1+2+3+4 = 10

SS (сумма квадратов точек данных) = 1²+2²+3²+4² = 30

Мы можем сделать то же самое для поиска функции кластеризации для двумерных объектов. Мы также можем получить статистику кластера, такую как центр тяжести, радиус и диаметр соответствующего кластера.

Для N-мерной точки данных в кластере: {Xi}, где i = 1,2, …. N, то центр тяжести соответствующего кластера будет Xo,

Здесь числитель — это сумма точек данных в кластере, равная LS. Таким образом, мы можем записать это как:

Точно так же радиус кластера ( R ), среднее расстояние от точек-членов до центроида, можно определить по формуле:

и диаметр (D) кластера, среднее попарное расстояние внутри кластера будет:

Точно так же, если есть центроиды двух кластеров, то центроидное евклидово расстояние и центроидное манхэттенское расстояние двух кластеров будут следующими:

Функции кластеризации также подчиняются «теореме аддитивности». Предположим, что CF₁= (N₁, LS₁ ,SS₁) и CF₂ = (N₂, LS₂ ,SS₂) являются векторами CF двух непересекающихся кластеров. Тогда вектор CF кластера, образованного слиянием двух непересекающихся кластеров, равен:

3. Работа алгоритма Берча

Вот шаги, связанные с работой алгоритма Берча:

Предварительная обработка. Первый шаг алгоритма Birch — предварительная обработка данных. Это включает в себя очистку и форматирование данных, чтобы обеспечить их готовность к анализу.
Построение дерева CF. Следующим шагом является построение дерева CF (функции кластеризации), которое представляет собой древовидную структуру данных, используемую для представления набора данных. Дерево CF строится путем создания корневого узла и последующего добавления к нему подузлов до тех пор, пока все точки данных не будут представлены в дереве.
Кластеризация.После построения дерева CF алгоритм Birch использует его для кластеризации данных. Алгоритм начинается с корневого узла и сравнивает расстояние между точками данных и центроидом узла. Если расстояние находится в пределах определенного порога, точка данных добавляется к узлу. Если расстояние больше порога, создается новый подузел и к нему добавляется точка данных. Этот процесс повторяется до тех пор, пока все точки данных не будут назначены узлу.
Объединение.После кластеризации точек данных алгоритм Birch объединяет похожие узлы для формирования более крупных кластеров. Это делается путем сравнения расстояния между центроидами узлов и проверки того, находится ли оно в пределах определенного порога. Если это так, узлы объединяются в один кластер.
Уточнение. Последний шаг алгоритма Берча – уточнение кластеров путем удаления выбросов и обеспечения однородности кластеров. Это делается путем сравнения расстояния между точками данных в кластере и центроидом кластера. Точка данных удаляется из кластера, если расстояние слишком велико.

4. Преимущества перед другими алгоритмами кластеризации

Метод Берча имеет ряд преимуществ перед другими алгоритмами кластеризации. 1. Это быстро и эффективно, так как требуется только один проход по данным.

2. Он также обрабатывает большие наборы данных и может обрабатывать зашумленные или неполные данные.

3. Кроме того, он может идентифицировать кластеры разных размеров и форм и устойчив к выбросам.

5. Приложения

Одним из основных применений метода Берча является интеллектуальный анализ данных и машинное обучение, где он используется для группировки схожих точек данных для дальнейшего анализа.
Он также использовался в таких областях, как обработка изображений, обработка естественного языка и анализ социальных сетей.
Создание итеративного и интерактивного инструмента классификации пикселей
Сжатие изображения.

6. ЗАКЛЮЧЕНИЕ

Таким образом, метод Берча — это мощный и эффективный алгоритм кластеризации, который широко используется в интеллектуальном анализе данных и машинном обучении. Его способность обрабатывать большие наборы данных, обрабатывать зашумленные или неполные данные и идентифицировать кластеры разных размеров и форм делает его ценным инструментом для различных приложений.

ССЫЛКИ

Чжан Т., Рамакришнан Р. и Ливни М. (1996). БЕРЕЗА. Запись ACM SIGMOD, 25(2), 103–114. https://doi.org/10.1145/235968.233324
Чжан, Т. (1997, 1 июня). BIRCH: новый алгоритм кластеризации данных и его приложения. СпрингерЛинк. https://link.springer.com/article/10.1023/A:1009783824328?error=cookies_not_supported&code=91832e7f-6009-48a0-93b0-939176788278
Верма, Ю. (2021, 11 ноября). Руководство по алгоритму кластеризации BIRCH (с кодами Python). Журнал Analytics India. https://analyticsindiamag.com/guide-to-birch-clustering-algorithmwith-python-codes/
Гикс для гиков. (2022, 20 июня). ML | БЕРЕЗА Кластеризация. https://www.geeksforgeeks.org/ml-birch-clustering/
Далал, В. (2022, 26 февраля). Алгоритм BIRCH с рабочим примером — Vipul Dalal. Середина. https://medium.com/@vipulddalal/birch-algorithm-with-working-example-a7b8fe047bd4
Сваруп, К. С. (2022b, 29 декабря). Обзор алгоритма BIRCH — Kottapalli Sai swaroop. Середина. https://medium.com/@kottapalli.cs22/an-overview-of-birch-algorithm-81a0512eeff4

BIRCH : РЕШЕНИЕ ДЛЯ КЛАСТЕРИЗАЦИИ БОЛЬШИХ БАЗ ДАННЫХ

Вопросы по теме