В данной статье рассматриваются теоретические основы и принципы работы основных методов кластерного анализа данных, используемых в задачах интеллектуальной аналитики. Подробно анализируются работы ряда исследователей в области кластеризации, описан прогресс в разработке и применении классических и новейших подходов к группировке структурно сложных, разнородных данных с использованием аппарата статистики, нейронных сетей, математического моделирования. Рассмотрены математические основания иерархических, вероятностных, плотностных, графовых и других методов кластеризации, теоретически доказана эффективность их применения на разных типах данных в зависимости от поставленных аналитических целей. Отдельное внимание уделено проблематике кластеризации больших объемов разнородной информации в условиях возрастания скорости поступающих данных и требований к оперативности их обработки. Продемонстрирован потенциал гибридных нейросетевых и распределенных методов кластеризации для эффективного масштабируемого анализа Big Data в высокопроизводительных вычислительных системах. Показано, что несмотря на значительный прогресс, ряд фундаментальных вопросов в данной области остается открытым и требует дальнейших междисциплинарных исследований на стыке статистики, математики и компьютерных наук.
Комментарии