Дослідження ефективності застосування алгоритму машинного навчання для класифікації інтернет-­трафіку

DOI: 10.31673/2412-9070.2020.062932

  • Козиряцький А. П. (Kozyryatsʹkyy A. P.) Державний університет телекомунікацій, м. Київ
  • Жебка В. В. (Zhebka V. V.) Державний університет телекомунікацій, м. Київ
  • Дьоміна Л. О. (Dʹomina L. O.) Державний університет телекомунікацій, м. Київ
  • Тарасенко Д. О. (Tarasenko D. O.) Державний університет телекомунікацій, м. Київ

Анотація

Досліджено ефективність застосування алгоритму машинного навчання для класифікації інтернет-трафіку. Розглянуто алгоритм RF, який діє через побудову безлічі вирішальних дерев. Оцінено ефективність роботи алгоритму RF у задачах класифікації додатків за наявності і відсутності фонового мережного трафіку. Для збору необхідних для аналізу даних було організовано лабораторну мережу з кількох комп’ютерів. Один із комп’ютерів було підімкнено до глобальної мережі Інтернет і на його базі організовано безпроводову точку доступу. На цьому самому комп’ютері здійснювалося захоплення всього трафіку, що проходить через нього, за допомогою програми Wireshark. На інших комп’ютерах, підімкнених до точки доступу, було запущено різні додатки. Здійснювався перегляд веб-сторінок із використанням браузерів Google Chrome і Opera, за допомогою програми Skype проводилися відеодзвінки, виконувалося скачування файлів через торрент клієнта µTorrent, використання сервісу цифрового поширення комп’ютерних ігор Steam тощо. Здобуті дані зберігалися в форматі РСАР. Для приведення отриманих даних у відповідність до вимог розв’язуваного завдання здійснювалося попереднє оброблення даних. В експерименті було проведено побудову випадкового лісу і оцінювання якості класифікації на заданій вибірці. Дослідним шляхом було відібрано найбільш прийнятні параметри алгоритму. Експериментально вибрано, що ліс складається з п’яти дерев із максимально можливою глибиною. Найбільшу ефективність алгоритм має для даних, що належать до DNS трафіку. Крім перевірки роботи алгоритму на тестовій вибірці, що має такий самий класовий склад, як і навчальна, оцінювання його якості проводилося також за наявності фонового трафіку, тобто в разі, коли тестова вибірка містила екземпляри класів, відсутніх у навчальній вибірці.

Ключові слова: машинне навчання; інтернет-трафік; алгоритм RF; програма Wireshark; ефективність; метрики.

Список використаної літератури
1. Weyrich M., Ebert C. Reference architectures for the internet of things // IEEE Software. 2018. Vol. 33, № 1. P. 112–116.
2. Lightweight, payload-based traffic classification: An experimental evaluation / F. Risso, M. Baldi, O. Morandi [et al.] // Proc. IEEE ICC, 2018. P. 5869–5875.
3. Sen S., Spatscheck O., Wang D. Accurate Scalable In-Network Identification of P2P Traffic Using Application Signatures // Proc. of the 13th international conference on World (WWW’04). New York, NY, USA, 2016. P. 512–521.
4. ICAP [Електронний ресурс]: [Інтернет-портал]. URL: https://tools.ietf.org/html/rfc3507 (дата звернення 20.10.2020). Internet Content Adaptation Protocol (ICAP)
5. QUIC [Електронний ресурс]: [Інтернет-портал]. URL: https://tools.ietf.org/html/draft-tsvwg-quic-protocol-00 (дата звернення 25.10.2020). QUIC: A UDPBased Secure and Reliable Transport for HTTP/2 draft-tsvwg-quic-protocol-00

Номер
Розділ
Статті