Метод определения оптимального количества кластеров на основе бутстреп-анализа
Читать статью полностью
Метод определения оптимального количества кластеров на основе бутстреп-анализа(1,48 MB)Аннотация
В статье рассматривается метод определения оптимального количества кластеров путем множественного повторения выборок данных на основе бутстреп-анализа. Рассмотрены основные понятия и характеристики, применяемые при проведении данного типа анализа, рассмотрены основные индексы кластеризации, позволяющие оценивать количество кластеров в данных. Произведен натурный эксперимент и получены свойства, открывающиеся в процессе применения метода. Данный метод может применяться во многих областях современной науки и техники, в том числе в военной сфере.
Ключевые слова:
кластеризация – clusterization; индекс – index; бутстреп-анализ – bootstrap analysis; центральная предельная теорема – central limit teorem.
Список литературы
1. Henning, C. Cluster-wise assessment of cluster stability / C. Henning // Computational Statistics & Data analysis. – 2007. – Vol. 52, Iss. 1. – P. 258–271.
2. Menzel, K. Bootstrap with Clustering in Two or More Dimensions / K. Menzel // Cornell University. Statistics. – 2017. – arXiv: 1703.03043.
3. Zumel, N. Practical Data Science with R / N. Zumel, J. Mount. – New York : Manning, 2019. – 568 p.
4. Lai, H. C. Bootstrap Confidence Intervals for Multilevel Standardized Effect Size / H.C. Lai // Multivariate Behavioral Research. – 2021. –Vol. 56 (4). – P. 558–578.
5. Сивоголовко, Е. В. Методы оценки качества четкой кластеризации / Е.В. Сивоголовко // Компьютерные инструменты в образовании. – 2011. – № 4. – С. 14–30
6. Torrente, A. Initializing k-means clustering by bootstrap and data depth / A. Torrente, J. Romo // Journal of classification. – 2021. – Vol. 38 (2). – P. 232–256.
7. Вентцель, Е. С. Теория вероятностей / Е.С. Вентцель. – Москва: Издательский центр «Академия», 2003. – 576 с.
8. Шитиков, В. К. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R / В.К. Шитиков, Г.С. Розенберг. – Толльяти : Кассандра, 2013. –314 с.
9. Loy, A. Bootstrapping Clustered Data in R using lmeresampler / A. Loy, J. Korobova // The R Journal. – 2023. – P. 103–120.
10. Wickham, H. R for data science / H. Wickham, G. Grolemund. – Sebastopol : O’Reilly, 2023. – 518 p.