Как работает инструмент Изокластер (Iso Cluster)
Инструмент Изокластер (Iso Cluster) использует модифицированную процедуру кластеризации с итеративной оптимизацией, также известную как методика мигрирующего среднего. Алгоритм распределяет все ячейки на заданное пользователем число индивидуальных унимодальных групп в многомерном пространстве входных каналов. Этот инструмент чаще всего используется при подготовке к классификации без обучения.
Префикс изо, используемый в названии алгоритма классификации 'изодата', - это аббревиатура метода итеративной самоорганизации выполнения кластеризации. Этот тип кластеризации использует процесс, в ходе которого, при каждой итерации, с каждым из существующих центров кластеров соотносятся все ячейки, и для каждого класса пересчитываются новые средние значения. Оптимальное число классов, которые должны быть определены, как правило, неизвестно. Следовательно, рекомендуется сначала ввести заведомо избыточное число классов, проанализировать полученные кластеры, а затем запустить функцию еще раз с меньшим числом классов.
Алгоритм Изокластер - это итеративный процесс, применяемый для вычисления минимального Евклидова расстояния при отнесении каждой ячейки-кандидата к определенному кластеру. Процесс начинается с того, что программным обеспечением каждому кластеру присваивается одно произвольное среднее значение (количество кластеров определяется вами). Каждая ячейка соотносится с ближайшим из этих средних (расположенных в многомерном атрибутивном пространстве). Основываясь на атрибутивных расстояниях для ячеек, помещенных в определенный кластер, после первой итерации для каждого кластера пересчитываются новые средние. Процесс повторяется: каждая ячейка будет отнесена в многомерном атрибутивном пространстве к ближайшему среднему, и для каждого кластера, на основании ячеек, попавших в него после очередной итерации, вычисляются новые средние значения. Вы можете определить число итераций процесса через параметр Число итераций (Number of iterations). Это значение должно быть достаточно большим для того, чтобы после запуска заданного числа итераций, миграция ячеек из одного кластера в другой была минимальной; то есть все кластеры были стабильны. При увеличении числа кластеров, число итераций должно быть также увеличено.
Установленное Число классов (Number of classes) - это максимальное число кластеров, которые могут быть созданы в процессе кластеризации. Однако число кластеров в выходном файле сигнатур может отличаться от значения, установленного для числа классов. Это происходит в следующих случаях:
- Значения в данных и начальные средние кластеров распределены неравномерно. В определенных диапазонах значений ячеек, частота появления событий для таких кластеров может быть близка к нулю. Следовательно, существует возможность того, что изначально установленные средние для кластеров не наберут в кластер достаточное количество ячеек.
- После завершения всех итераций, кластеры, состоящие из ячеек, количество которых меньше, чем установленный Минимальный размер класса (Minimum class size), будут удалены.
- После того, как кластеры становятся стабильными, и их статистические значения совпадают, кластеры объединяются с соседними кластерами. Некоторые кластеры могут быть так близки между собой в атрибутивном пространстве, и их статистика может быть так похожа, что сохранение таких кластеров означает ненужное разделение данных.
Пример:
Ниже приведен образец файла сигнатур, создаваемого инструментом Изокластер. Файл начинается с заголовка, содержащего комментарии, поясняющие значения параметров, использованных при выполнении кластеризации.
Имена классов являются дополнительной опцией: они вводятся после создания файла с использованием текстового редактора. Имя каждого класса, если оно введено, должно представлять собой одну строку, длиной не более 14 буквенно-цифровых символов.
# Signatures Produced by Clustering of # Stack redlands # number_of_classes=6 max_iterations=20 min_class_size=20 # sampling interval=10 # Number of selected grids /* 3 # Layer-Number Grid-name /* 1 redlands1 /* 2 redlands2 /* 3 redlands3 # Type Number of Classes Number of Layers Number of Parametric Layers 1 4 3 3 # =============================================================== # Class ID Number of Cells Class Name 1 1843 # Layers 1 2 3 # Means 22.8817 60.7656 34.8893 # Covariance 1 169.3975 -69.7444 179.0808 2 -69.7444 714.7072 10.7889 3 179.0808 10.7889 284.0931 # --------------------------------------------------------------- # Class ID Number of Cells Class Name 2 2495 # Layers 1 2 3 # Means 38.4894 132.9775 61.8104 # Covariance 1 414.9621 -19.0732 301.0267 2 -19.0732 510.8439 102.8931 3 301.0267 102.8931 376.5450 # --------------------------------------------------------------- # Class ID Number of Cells Class Name 3 2124 # Layers 1 2 3 # Means 70.3983 82.9576 89.2472 # Covariance 1 264.2680 100.6966 39.3895 2 100.6966 523.9096 75.5573 3 39.3895 75.5573 279.7387 # ------------------------------------------------------------ # Class ID Number of Cells Class Name 4 2438 # Layers 1 2 3 # Means 105.8708 137.6645 130.0886 # Covariance 1 651.0465 175.1060 391.6028 2 175.1060 300.8853 143.2443 3 391.6028 143.2443 647.7345
Литература
Ball, G. H., and D. J. Hall. 1965. A Novel Method of Data Analysis and Pattern Classification. Menlo Park, California: Stanford Research Institute.
Richards, J. A. 1986. Remote Sensing Digital Image Analysis: An Introduction.. Berlin: Springer–Verlag.