Мультимодальна система розпізнавання емоційних станів у режимі реального часу на основі глибоких згорткових мереж
DOI: 10.31673/2412-9070.2026.026805
Анотація
У статті обґрунтовано концепцію мультимодальної інтелектуальної системи розпізнавання емоційних станів людини в режимі реального часу на основі динамічних тривимірних згорткових нейронних мереж 3D-CNN та методів некерованого машинного навчання. Наукова новизна роботи полягає у розробці підходу для автономного вилучення просторово-часових ознак, що мінімізує залежність від попередньо розмічених наборів даних та підвищує адаптивність системи до індивідуальних особливостей невербальної експресії. Вагомим внеском являється технічне вдосконалення інструментарію MediaPipe через інтеграцію модифікованого алгоритму детекції антропомет ричних маркерів, спеціалізованого на виявленні специфічних патернів дитячої міміки.
Методологічне рішення базується на двоканальній архітектурі для паралельного аналізу міміки та кінематики тіла, що дозволяє нівелювати ризики оклюзії та складних ракурсів зйомки. Використання 3D-CNN забезпечує обробку відеоданих як цілісних просторово-часових структур, а процес автоматичної генерації псевдоміток у межах некерованої кластеризації латентного простору дає змогу системі автономно структурувати базові емоційні категорії. Експериментальна апробація із застосуванням стратегії пізнього злиття модальностей Late Fusion підтвердила стійкість моделі до зашумлених сигналів та складного освітлення. Результати дослідження доводять, що запропонована модель забезпечує високу швидкість обробки даних для функціонування в реальному часі, що робить її придатною для впровадження в інтелектуальні освітні платформи, педіатричну діагностику та системи безпеки.
Ключові слова: розпізнавання емоцій, мультимодальна система, 3D-CNN, некероване навчання, пізнє злиття, реальний час, комп’ютерний зір, невербальна поведінка, кластеризація ознак, міміка обличчя.