Оптимізація гіперпараметрів для машинного навчання

DOI: 10.31673/2412-9070.2024.021822

  • Алексіна Л. Т. (Aleksina L. T.) Державний університет інформаційно-комунікаційних технологій, Київ
  • Бондарчук А. П. (Bondarchuk A. P.) Державний університет інформаційно-комунікаційних технологій, Київ

Анотація

Не існує єдиного найкращого алгоритму оптимізації гіперпараметрів. Різні алгоритми оптимізації відповідають різноманітним завданням оптимізації гіперпараметрів із відмінними обмеженнями. Для прискорення оптимізації гіперпараметрів потрібно розпаралелити навчальні виконання різних випробувань, запровадити розподілене навчання, достроково зупиняючи безперспективні випробування. Рекомендується використовувати бібліотечний підхід для підтримання послуги оптимізації гіперпараметрів. Серед бібліотек оптимізації гіперпараметрів із відкритим вихідним кодом поки що найкращою є Ray Tune.
Оптимізація гіперпараметрів (ОГП) — це процес виявлення набору гіперпараметрів, який дає оптимальну модель. Йдеться про оптимальну модель, яка мінімізує заздалегідь визначену функцію втрат на заданому наборі даних. Це є повторюваним процесом навчання моделі, за винятком того, що нейронна мережа щоразу тренується з різним набором гіперпараметрів та виявленням оптимального набору гіперпараметрів.
Під час пошуку за сіткою користувачі вказують обмежений набір значень для кожного гіперпараметра, а потім вибирають пробні гіперпараметри з декартового добутку цих значень. Після того, як сітку побудовано, розпочинаються випробування ОГП зі значеннями сітки. Пошук за сіткою буває невдалим, коли кількість гіперпараметрів або простір пошуку параметра збільшуються, оскільки в цьому разі необхідна кількість оцінок зростатиме в геометричній прогресії. Ще однією проблемою пошуку за сіткою є його неефективність. Оскільки такий пошук однаково трактує кожен набір кандидатів гіперпараметрів, він буде споживати багато обчислювальних ресурсів у неоптимальному просторі конфігурації, не витрачаючи при цьому достатньо обчислювальної потужності на оптимальний простір.

Ключові слова: гіперпараметр; оптимізація гіперпараметрів; безмодельний метод; байєсівський метод; метод множинності; бібліотека оптимізації гіперпараметрів.

Список використаної літератури
1. Wundervald B. Bayesian Linear Regression. June 2019. URL: https://www.researchgate.net/publication/333917874_Bayesian_Linear_Regression
2. Wang J. An Intuitive Tutorial to Gaussian Processes Regression. 22 September 2020. URL: https://arxiv.org/abs/2009.10862
3. Watanabe S. Tree-Structured Parzen Estimator: Understanding Its Algorithm Components and Their Roles for Better Empirical Performance. 21 April 2023. URL: https://arxiv.org/abs/2304.11127
4. Feurer M., Hutter F. Hyperparameter Optimization. 2019. URL: www.automl.org/wp-content/uploads/2019/05/AutoML_Book_Chapter1.pdf
5. Introduction to Loss Functions by DataRobot. 30 April 2018. URL: https://www.datarobot.com/blog/introduction-to-loss-functions/
6. Agrawal T. On Using Hyperopt: Advanced Machine Learning. 20 June 2018. URL: http://mng.bz/PxwR
7. Hyperopt Documentation. URL: http://hyperopt.github.io/hyperopt/scaleout/spark/
8. Ray Tune: Hyperparameter Tuning. URL: https://docs.ray.io/en/latest/tune/index.html
9. Ray Documentation. URL: https://docs.ray.io/en/latest/index.html
10. Running Distributed Experiments with Ray Tune. URL: http://mng.bz/71QQ
11. ASHA (tune.schedulers.ASHAScheduler). URL: http://mng.bz/JlwZ
12. Liam Li. Massively Parallel Hyperparameter Optimization. 12 December 2018. URL: http://mng.bz/wPZ5

Номер
Розділ
Статті