Прискорення збору та аналізу даних за допомогою інструментів асинхронного програмування у Web Scraping

DOI: 10.31673/2412-9070.2024.032327

  • Данильченко В. М. (Danylchenko V. M.) Державний університет інформаційно-комунікаційних технологій, Київ
  • Отрох С. І. (Otrokh S. I.) Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", Київ
  • Ключук В. П. (Klyuchuk V. P.) Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", Київ
  • Сарафанніков О. В. (Sarafannikov O. V.) Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", Київ

Анотація

Підкреслено важливість та актуальність використання технологій web scraping для збору важливої інформації. Досліджено можливості застосування асинхронних інструментів для швидкого та дієвого збору даних із сайтів великого масштабу. Подано докладний опис процесу розроблення та порівняння швидкодії програмних алгоритмів із використанням мови програмування Python та бібліотек «Requests», «Asyncio», «Aiohttp» та «BeautifulSoup». Запропоновано високошвидкісний метод збору інформації, який можна використовувати в різноманітних випадках: починаючи зі збору новин і завершуючи нагромадженням даних для моделі штучного інтелекту.

Ключові слова: асинхронне програмування; Web scraping; Python; Requests; Asyncio; Aiohttp; BeautifulSoup.

Список використаної літератури
1. Data usage trends [Електронний ресурс] // Utilities One. URL: https://utilitiesone.com/data-usage-trends-are-people-using-more-or-less-data-over-time (дата звернення: 10.03.2024).
2. Sheremeta A. Web scraping: importance, techniques, and applications in 2024 [Електронний ресурс] // DataForest. URL: https://dataforest.ai/blog/what-is-web-scraping-and-how-can-it-benefit-your-business (дата звернення: 10.03.2024)
3. What are the practical uses and advantages of web scraping? [Електронний ресурс] // WebHarvy. URL: https://www.webharvy.com/articles/web-scraper-use-cases.html (дата звернення: 10.03.2024).
4. Requests documentation [Електронний ресурс] // Requests: HTTP for Humans™. URL: https://requests.readthedocs.io/en/latest/ (дата звернення: 10.03.2024).
5. Beautiful Soup Documentation [Електронний ресурс] // Beautiful Soup. URL: https://beautiful-soup-4.readthedocs.io/en/latest/ (дата звернення: 10.03.2024).
6. Welcome to AIOHTTP [Електронний ресурс] // Aiohttp documentation. URL: https://docs.aiohttp.org/en/stable/ (дата звернення: 10.03.2024).
7. Asyncio – Asynchronous I/O [Електронний ресурс] // Python documentation. URL: https://docs.python.org/3/library/asyncio.html (дата звернення: 10.03.2024).
8. Асинхронне програмування: що це таке та його особливості [Електронний ресурс] // FoxmindEd. URL: https://foxminded.ua/asynkhronne-prohramuvannia/ (дата звернення: 10.03.2024).

Номер
Розділ
Статті