Аналіз існуючих алгоритмів кластеризації даних. Переваги та недоліки

DOI: 10.31673/2412-9070.2020.061719

  • Тихонов Є. С. (Tykhonov Ye. S.) Державний університет телекомунікацій, м. Київ
  • Тихонова К. В. (Tykhonova K. V.) Державний університет телекомунікацій, м. Київ

Анотація

Аналіз алгоритмів кластеризації даних все частіше стає популярною практикою, прийнятою багатьма організаціями з метою створення цінної інформації з великих обсягів даних. Чимала кількість досліджень ставлять собі за мету організацію отриманих даних у наочні структури. Фактично, кластерний аналіз є набором різноманітних алгоритмів класифікації. Техніка кластеризації застосовується в найрізноманітніших галузях, зокрема психології, біології, педагогіці, маркетингу, інформаційних технологіях. Кластеризація — це поділ даних на групи подібних об’єктів. Кластеризацію застосовують для розуміння отриманих даних, обсяг яких є проблематичним для аналізу людиною. Завдяки цьому алгоритми кластеризації стали інструментами мета-навчання для аналізу дослідницьких даних. Кожна група, що називається кластером, визначається як сукупність об’єктів, які мають більш високий ступінь схожості один з одним порівняно з об’єктами, що не належать до одного набору. Тип використовуваного алгоритму кластеризації залежить від програми та набору даних, що застосовуються в цьому полі. Числовий набір даних порівняно просто реалізувати, оскільки дані — це незмінно реальні числа і можуть використовуватися для статистичних застосувань. Важливо розуміти різницю між кластеризацією (непідконтрольную класифікацією) та дискримінаційним аналізом (контрольованою класифікацією). На першому етапі дослідники вдосконалювали деякі алгоритми кластеризації даних, на другому — впроваджували нові, а на третьому — вивчали та порівнювали різні алгоритми кластеризації даних. У статті проведено класифікацію та аналіз існуючих алгоритмів кластерного аналізу, також розглянуто переваги та недоліки цих алгоритмів.

Ключові слова: кластеризація; кластерний аналіз; ієрархічна кластеризіція; неієрархічна кластеризіція; алгоритм кластеризації за допомогою представників (CURE); алгоритм мінімального кістякового дерева (MST); алгоритм збалансованого ітеративного скорочення і кластеризації за допомогою ієрархій (BIRCH); алгоритм k-середніх (k-means); алгоритм розділення навколо медоїдів (PAM); алгоритм скупчення з нахилом (CLOPE).

Список використаної літератури
1. Чубукова І. А. Data Mining: навч. посіб.: Інтернет-університет інформаційних технологій. БІНОМ: Лабораторія знань, 2006. 382 с.
2. Rokach Lior, Oded Maimon. «Clustering methods» Data mining and knowledge discovery handbook. Springer US, 2005. Р. 321–352.
3. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim. CURE: An Efficient Clustering Algorithm for Large Databases.
4. Tian Zhang, Raghu Ramakrishnan, Miron Livny. BIRCH: An Efficient Data Clustering Method for Very Large Databases.
5. Akerkar R. Big data computing. CRC Press, Taylor & Francis Group, Florida, USA, 2014.

Номер
Розділ
Статті