Дослідження впливу аномалій та дублікатів у наборах даних аерозйомки на якість глибокого навчання

DOI: 10.31673/2412-9070.2026.022704

  • Приставка П. О. (Prystavka P.) Київський національний університет імені Тараса Шевченка, Державний університет «Київський авіаційний інститут»
  • Чолишкіна О. Г. (Cholyshkina O.) Київський національний університет імені Тараса Шевченка
  • Подскребко О. С. (Podskrebko O.) Київський національний університет імені Тараса Шевченка
  • Боришкевич М. І. (Boryshkevich M.) Державний університет «Київський авіаційний інститут»

Анотація

Якість навчальних наборів даних є одним із ключових чинників ефективності моделей глибокого навчання у задачах автоматизованої обробки аерозображень. Наявність аномальних та дубльованих спостережень у вибірках аерозйомки призводить до спотворення статистичних характеристик даних, зниження ентропії розподілу та погіршення узагальнювальної здатності нейромережевих моделей. У статті досліджено вплив таких спотворень на результати багатокласової класифікації зображень і проаналізовано ефективність різних статистичних методів виявлення аномалій у компактному латентному просторі.
Для формування інформативного представлення зображень використано згортковий автоенкодер, що відображає дані у низьковимірний латентний простір, придатний для подальшого статистичного аналізу. Виявлення аномальних спостережень здійснювалося із застосуванням методу трьох сигм, методу асиметрії та ексцесу, а також багатовимірного варіаційного ряду. Окремо проаналізовано вплив вилучення дублікатів зображень. Оцінювання якості навчальних даних виконувалося на основі ентропійних характеристик латентного простору та показників точності згорткової нейронної мережі ResNet50.
Експериментальні результати показали, що вилучення аномальних спостережень позитивно впливає на точність класифікації на тестовій вибірці, при цьому найефективнішим виявився метод трьох сигм, який забезпечив приріст точності до 2,1 %. Встановлено, що очищення даних супроводжується підвищенням ентропії латентного простору, що свідчить про зростання інформаційної насиченості та рівномірності розподілу спостережень і корелює з покращенням узагальнювальної здатності моделі. Отримані результати підтверджують доцільність використання статистичного аналізу латентних представлень для підвищення якості навчальних наборів аерозйомки.

Ключові слова: аерозйомка, аномальні дані, дублікати зображень, глибоке навчання, згорткові нейронні мережі, автоенкодер, латентний простір, ентропія даних, класифікація зображень, узагальнювальна здатність.

Номер
Розділ
Статті