Методи очищення даних для прогнозування інвестицій в освіту

DOI: 10.31673/2412-9070.2025.061205

  • Бажан Т. О. (Bazhan T.) Державний університет інформаційно – комунікаційних технологій, Київ
  • Криворучко В. Ф. (Kryvoruchko V.) Державний університет інформаційно – комунікаційних технологій, Київ

Анотація

У статті розглядається актуальність очищення даних у контексті прогнозування інвестицій в освітню галузь, підкреслюючи, що якість вхідних даних є вирішальною для точності та надійності прогностичних моделей машинного навчання. Неякісні дані призводять до спотворення виявлених закономірностей та, як наслідок, до помилкових прогнозів інвестицій, що може негативно позначитися на розподілі фінансових ресурсів та розвитку освітньої системи. Специфіка освітніх даних, їхня різноманітність та схильність до помилок обумовлюють гостру потребу у ретельному очищенні.
На основі аналізу наявної літератури виявлено, що, хоча існує значний обсяг досліджень, присвячених загальним методам очищення даних та застосуванню машинного навчання в освіті, бракує цілеспрямованих робіт, що детально вивчають ефективність різних методів очищення даних саме для підвищення точності прогнозування інвестицій в освітню сферу. Це підкреслює наукову новизну та актуальність проведеного дослідження.
Метою дослідження є розробка та обґрунтування ефективного методу очищення даних, спрямованого на підвищення точності прогнозування інвестицій в освіту. Для досягнення цієї мети було поставлено низку завдань, включаючи аналіз існуючих методів, їхній порівняльний аналіз, виявлення найбільш придатних підходів, розробку можливих удосконалень, створення блок-схеми запропонованого методу та формування практичних рекомендацій.
У роботі детально розглянуто фундаментальний етап очищення даних у пайп-лайні машинного навчання, який передує створенню та навчанню моделей. Представлено порівняльний аналіз основних методів очищення даних, таких як обробка відсутніх значень (видалення рядків/стовпців, імпутація середнім/медіаною/модою, імпутація прогнозуванням), виявлення та обробка викидів (візуалізація, статистичні методи, алгоритми машинного навчання, перетворення викидів), видалення дублікатів, виправлення помилок та невідповідностей (перевірка правопису/формату, узгодження джерел, валідація за правилами), а також масштабування та нормалізація даних (Min-Max Scaling, StandardScaler) та перетворення типів даних.
Запропоновано виділення найкращих методів очищення для прогнозування інвестицій в освіту, враховуючи специфіку освітніх даних. До них віднесено комплексну обробку відсутніх значень, робастні методи виявлення та обробки викидів, ретельне виявлення та усунення дублікатів, строгу валідацію даних на основі правил та обмежень предметної області, а також узгодження форматів та перетворення типів даних. Обговорено можливості для вдосконалення методів очищення, зокрема розробку гібридних підходів, врахування контексту освітніх даних, автоматизацію процесу очищення з використанням машинного навчання, створення інтерактивних інструментів та оцінку впливу методів очищення на якість прогнозів.
Надано практичні рекомендації щодо використання методів очищення даних для прогнозів інвестицій в освіту, акцентуючи увагу на розумінні специфіки освітніх даних (їхнє походження, ієрархічна структура, часові залежності, категоріальні ознаки, чутливість до змін у політиці), комплексній обробці відсутніх значень, робастному виявленні та обробці викидів, специфічних методах очищення для освітніх даних (стандартизація категоріальних ознак, контроль консистентності між рівнями, валідація застандартами), інтеграції та узгодженні даних з різних джерел, а також на оцінці впливу очищення на якість прогнозів. Підкреслюється важливість залучення експертів з освітньої галузі на всіх етапах процесу.
У висновках зазначено, що якісне очищення даних є критично важливим для побудови надійних прогностичних моделей у сфері інвестицій в освіту. Запропонований комплексний підхід, що поєднує обробку відсутніх значень та робастні методи виявлення й обробки викидів, дозволяє значно покращити якість вхідних даних та підвищити точність прогнозів. Перспективи подальших досліджень включають апробацію методу на більших обсягах реальних даних та порівняння його ефективності з іншими підходами.

Ключові слова: очищення даних; якість даних; машинне навчання; прогнозування інвестицій; освітні дані; моделі прогнозування. 

Номер
Розділ
Статті