Кластерний аналіз
Відео: Ф`ючерс Євро Кластерний аналіз Практика Частина 1 CK
При проведенні географічних досліджень, як правило, виникає проблема об`єднання за подібністю (кластеризація) об`єктів, які характеризуються великою кількістю ознак, виражених у різних одиницях виміру. Для цієї мети використовується кластерний аналіз. Оскільки кластерний аналіз займається класифікацією об`єктів, а факторний досліджує зв`язки між ними, то обидва методи доповнюють один одного і між ними іноді важко провести чіткі межі.
Методологічні особливості кластерного аналізу зводяться до виявлення єдиної міри, що охоплює ряд досліджуваних ознак. Ці ознаки об`єднуються за допомогою метрики (відстані) в один кластер подібності группіруемих об`єктів.
Стан будь-якого об`єкта може бути описано з використанням багатовимірного ознаки, або багатовимірної випадкової величини (х1, х2, ..., хn). Прикладом кількісних ознак при зонуванні території міста може служити площа будівель (х1), кількість історичних пам`яток (х2), кількість промислових підприємств (х3) і т. Д. Їх можна об`єднати в один якісний ознака - інфраструктурні умови міста. Таким способом стан будь-якого об`єкта може бути описано за допомогою багатовимірного ознаки.
Дослідження декількох аналогічних об`єктів (міст) зобов`язує проводити розбиття сукупності об`єктів на однорідні групи, т. Е. Провести їх класифікацію за подібністю ознак (х1, х2 ...). Змістовна постановка задачі при кластерному аналізі полягає в наступному. Є деяка сукупність об`єктів, які характеризуються рядом ознак. Об`єкти необхідно розбити на кілька кластерів (класів) таким чином, щоб об`єкти з одного класу були подібними за характеризують їх ознаками, наприклад, порівняння ландшафтів, виявлення подібних тенденцій в розвитку економічних суб`єктів.
Залежно від спеціальності і природи використовуваних методів дослідники називають класифікацію багатовимірних спостережень як розпізнавання образів з учителем (чисельної таксономії), кластераналізом без учителя, дискримінантний аналізом.
Таксономічні методи класифікації об`єктів грунтуються на виділенні груп об`єктів найбільш близьких в багатовимірному просторі. Для визначення ступеня подібності об`єктів обчислюються таксономические відстані між ними. Якщо дослідник має перед собою образи майбутніх груп - навчальні вибірки, то угруповання виконується методом дискримінантного аналізу. При відсутності навчальних вибірок використовується кластерний аналіз (В. В. Глинський, В. Г. Іонін, 1998). На відміну від дискримінантного аналізу (С. А. Айвазян та ін., 1984), відсутність класифікованих навчальних вибірок в кластерному аналізі значно ускладнює вирішення завдання класифікації.
При відносній формалізації методів кластерного аналізу вони носять евристичний (теоретичний) характер, реалізують принцип здорового глузду. Для оцінки подібності об`єктів за рядом ознак використовують три типи заходів:
• коефіцієнт подібності - для угруповання об`єктів і ознак, якщо рівні показників є дійсно цілими числами;
• коефіцієнти зв`язку - частіше застосовуються для угруповання ознак з використанням коефіцієнта кореляції;
• показники відстані - характеризують ступінь взаємної віддаленості ознак і застосовуються в основному для кластеризації об`єктів-ознаки об`єктів повинні бути незалежними, що попередньо можна уточнити за допомогою кореляційного аналізу.
Багатовимірне спостереження може бути інтерпретовано геометрично у вигляді точки в багатовимірному просторі. Геометрична близькість точок в просторі означає близькість фізичних станів об`єктів, їх однорідність. Вирішальним в інтерпретації залишається вибір масштабу метрики, т. Е. Завдання відстані між об`єктами, які об`єднують або роз`єднують об`єкти. В результаті розбиття об`єктів на групи за подібністю ознак утворюються кластери (таксони, образи). Необхідність розбиття сукупності об`єктів на однорідні групи виникає при проведенні соціально-економічних, землевпорядних, географічних досліджень і т. Д.
Вибір метрики (міри близькості) є найважливішим моментом дослідження, який визначає остаточний варіант розбиття об`єктів на групи. Це залежить від мети дослідження, фізичної та статистичної природи вектора спостережень (х), повноти апріорних відомостей про характер імовірнісного розподілу х.
У завданнях кластераналіза широко використовуються наступні метрики: Евкліда, Махаланобіса, Хемминга, міри близькості задаються потенційної функцією. Евклідова метрика найбільш уживана.
Ці метрики застосовуються в наступних випадках:
• спостереження х витягуються з генеральнихсукупностей, описуваних багатовимірним нормальним законом з ковариационной матрицею (спільне зміна двох ознак), де компоненти х взаємно незалежні і мають однакову дисперсію;
• компоненти х1, х2, ..., хр вектора спостережень х однорідні за своїм фізичним змістом і все важливі;
• факторний простір збігається з геометріческім- поняття близькості об`єктів відповідно збігається з поняттям геометричної близькості в цьому просторі.
Таким чином, при вирішенні задач класифікації можуть бути використані різні міри схожості між об`єктами. Вибір метрики залежить від виду інформації, що характеризує об`єкти в просторі ознак і вимагає ретельного критичного аналізу.
Покажемо на загальних прикладах основні прийоми кластерного аналізу. На підставі даних, що містяться в безлічі х, необхідно розбити безліч об`єктів I на т кластерів (підмножин) так, щоб кожен об`єкт Ii належав лише одній підмножині розбиття, а об`єкти, що належать одному кластеру, були подібними. Об`єкти, що належать різним кластерам, повинні бути різнорідними (несхожі). Завдання полягає в тому, щоб згрупувати п країн за рівнем розвитку з урахуванням природних факторів. Для виконання поставленого завдання краще підходить кластерний аналіз, ніж інші методи з використанням угруповання.
При суб`єктивному розбитті безлічі показників на групи залишається невідомим, чи дійсно таке розбиття оптимально. Ще не розроблений задовільний статистичний критерій, який дозволив би оцінити проведене розбиття і приналежність даного показника до певної групи. У практичній роботі дослідника це може призвести до помилки в таких складних питаннях, як угруповання ландшафтів, їх класифікація та районування. Лише проведення кластерного аналізу на моделях з чіткою структурою є найбільш об`єктивним.
Число кластерів визначається в ході розбиття наявного обсягу сукупності. При великому числі варіант в сукупності користуються методом випадкового відбору Загальна розсіювання безлічі кластерів буде тим більше, чим вище частка допустимих розбиття. Знаходимо необхідне число розбиття S в залежності від значень ймовірності Р і заданої частки допустимих розбиття в множині всіх можливих beta-.
В якості запобіжного різнорідності розглядається міра приналежності. При вирішенні завдань кластерного аналізу приймаються наступні умови: а) вибрані характеристики допускають бажане розбиття на кластери- б) одиниці виміру (масштаб) обрані правильно (це обумовлено тим, що розбиття на кластери залежить від вибору масштабу). Найбільш прямий спосіб розв`язання задачі полягає в повному переборі всіх можливих розбиттів на кластери і знаходженні такого, яке веде до оптимального (мінімального) значення цільової функції. Цільова функція як критерій оптимальності являє собою деякий функціонал, що виражає рівні можливості різних розбиття і угруповань. Наприклад, в якості цільової функції може бути використана внутригрупповая сума квадратів відхилень. Наведемо приклад кластеризації за допомогою повного перебору (всі можливі варіанти поєднань). Якщо число об`єктів п = 8, кластерів т = 4, то число возможnot-них розбиття становить 1701, т. Е. Існує 1701 спосіб розбити 8 об`єктів на 4 кластери (табл. 3.2). Число розбиття можна визначити також за формулою.
Розбиття в кінцевому підсумку повинно задовольняти критерію оптимальності, т. Е. Цільовому функціоналу (цільової функції).
Метод дендритів. Досліджувані об`єкти, розділені на кластери, можна зобразити у вигляді дендрограмми, яка представляє собою графічне зображення матриці відстаней або подібності. Такий аналіз об`єктів дослідження носить назву методу дендритів. Маючи п об`єктів, можна побудувати велику кількість дендрограмм, які відповідають обраної процедури кластеризації. Для конкретної матриці відстаней або подібності існує тільки одна дендрограмма.
Уявімо Дендрограмма з шістьма об`єктами (n = 6) (рис. 3.1). Об`єкти 1 і 3 найбільш близькі, т. Е. Найменш віддалені один від одного, тому об`єднуються в один кластер на рівні подібності, що дорівнює 0,9 (утворюють 1й крок). Об`єкти 4 і 5 об`єднуються при рівні подібності 0,8 (2й крок). На 3м і 4м кроках процесу утворюються кластери 1, 3, 6 і 5, 4, 2, що відповідають рівню подібності відповідно 0,7 і 0,6. Остаточно всі об`єкти групуються в один кластер при рівні подібності 0,5.
Вид дендрограмми залежить від вибору міри схожості або відстані і методу кластеризації. Наприклад, розроблені алгоритми кластерного аналізу, що дозволяють проводити класифікацію (угруповання) багатовимірних спостережень (рядків і стовпців матриці х) за допомогою таких заходів подібності: вибіркового коефіцієнта кореляції, модуля вибіркового коефіцієнта кореляції, косинуса кута між векторами, модуля косинуса кута між векторами, евклідова відстані і т.д.
Виділяються групи взаємопов`язаних ознак (див. Рис. 3.2). Достовірно позитивно пов`язані температура і вміст оксидів заліза і гідрокарбонатіона. На середньому рівні позитивно пов`язані волога, рухомі форми органічної речовини і анаеробні бактерії. Ще одну групу утворюють концентрація лужноземельних елементів і вуглекислоти грунтового повітря. Порівняння дендрограмм показує, що досліджувані ознаки хвойної і Дрібнолисті фації однотипні. Це свідчить про внутрішню однорідності протікають в них процесів і підтверджує їх генетичну єдність. На поклади, як похідною від природних ландшафтів, спостерігаються менш тісні зв`язки між показниками всередині фації.