Порівняння алгоритмів побудови кластерної моделі на базі набору даних (dataset), отриманого з bigdata

DOI: 10.31673/2412-9070.2025.013274

  • Гашко А. О. (Hashko A. O.) Державний університет інформаційно – комунікаційних технологій, Київ
  • Стражніков А. А. (Strazhnikov A. A.) Державний університет інформаційно – комунікаційних технологій, Київ

Анотація

MeanShift — це популярний алгоритм кластеризації, який використовується в широкому діапазоні програм машинного навчання. Його суттєвим недоліком є повільна швидкість алгоритму, пов`язана з необхідністю витрачати параметр квадратичної складності (квадратичний час) на виконання однієї ітерації. Доповнивши алгоритм MeanShift за допомогою методу злиття режимів на основі кластеризації середнього зсуву, обґрунтовуючи даний підхід тим, що він дозволяє інтерпретувати ймовірнісну кластеризацію на основі спорідненості щільності ядер ваги. Також цей вид підключення дозволив принципово оптимізувати ядра ваги і також дозволив використовувати ядра ваги нефіксованого розміру відповідно до локальних структур даних. На цій основі роботу вдається пришвидшити в рази. На відміну від класичного MeanShift, комбінований підхід базується на лінійному часі виконання за кількістю точок та експоненціальний за розміром.
Метою цієї статті є висвітлення читачам для огляду процесу, а саме: як кластеризація середнього зсуву може бути застосована для побудови моделі, а також висвітлення переваг використання не класичного підходу до методики середнього зсуву порівняно з традиційними методами.
Ми намагатимемось створити узагальнений список криптотранзакцій, щоб надати користувачеві аналітику щодо ризиковості криптогаманця або окремої крипто-транзакції. Також проведемо порівняння впливу різних параметрів і функцій на вміст кластерів. Запропонований спосіб знижує витрати на обчислення, зберігаючи прийнятний рівень отриманих результатів кластеризації, як і стандартна процедура середнього зміщення. Продемонструємо ефективність методу на послідовності векторів, що не є сталими та змінюються в часі.
Даний експеримент показує, що отримане значення середнього зсуву за допомогою нашої методики розрахунку відстані, перевершує отримані значення середнього зсуву за допомогою класичних методів роботи з неочевидними та неструктурованими значеннями. Для уточнення зав’язків між кластерами та підвищення точності сортування були використані такі параметри: ринкова капіталізація та деякі інші фіатні показники, які можна використовувати у майбутніх дослідженнях.

Ключові слова: кластеризація, машинне навчання, BigData, blockchain, крипто переказ, Mean Shift Clustering, інформаційні системи.

Номер
Розділ
Статті