Гібридний підхід до стегоаналізу на основі мультимодальних великих мовних моделей та згорткових нейронних мереж
DOI: 10.31673/2412-9070.2026.027616
Анотація
У статті розглянуто гібридний підхід до стегоаналізу цифрових зображень, що поєднує можливості спеціалізованих згорткових нейронних мереж (ЗНМ) для низько-рівневого виявлення статистичних аномалій із семантичним аналізом мультимодальних великих мовних моделей (МВМM). Запропонований підхід спрямований на подолання трьох фундаментальних обмежень існуючих монолітних ЗНМ-детекторів: низької здатності до узагальнення на невідомі стеганографічні алгоритми, відсутності контекстного аналізу мультимодальних метаданих та непрозорості процесів прийняття рішень. Архітектура гібридної системи реалізована у середовищі TensorFlow/Keras із використанням трьох ЗНМ-архітектур - MobileNetV2, ResNet50 та EfficientNetB0 – модифікованих спеціалізованими вхідними шарами фільтрації на основі ядра Лапласа та банку фільтрів SRM для виділення стеганографічно значущих залишкових сигналів. Інтеграція із мовними моделями реалізована через локальне розгортання Ollama у середовищі Google Colab із використанням моделей Gemma 3:4b, Gemma 3:12b та Llama 3.2 Vision 11B. Остаточне рішення формується через механізм «м'якого» злиття (Decision Fusion) зважених виходів ЗНМ- та ВМM-компонент, де вагові коефіцієнти динамічно коригуються залежно від виявленого семантичного контексту зображення.
Експериментальна перевірка виконана на синтезованому наборі даних на базі CIFAR-10 (LSB-вбудовування) та на еталонному наборі ALASKA2. Найвищу точність виявлення забезпечила конфігурація ResNet50 + Gemma 3:12b: 95.8% на CIFAR-10 і 91.7% на ALASKA2. Отримані результати свідчать про перспективність гібридного підходу для підвищення точності, узагальнюваності та інтерпретованості систем стегоаналізу.
Ключові слова: стегоаналіз, стеганографія, згорткові нейронні мережі, великі мовні моделі, MobileNetV2, ResNet50, EfficientNet, Gemma3, Llama, Ollama, гібридна архітектура.