Дослідження систем розпізнавання тексту та вилучення даних з україномовних документів

DOI: 10.31673/2412-9070.2020.066163

  • Гордієнко К. О. (Hordiyenko K. O.) Державний університет телекомунікацій, м. Київ
  • Коба А. Б. (Koba A. B.) Державний університет телекомунікацій, м. Київ
  • Довженко Т. П. (Dovzhenko T. P.) Державний університет телекомунікацій, м. Київ

Анотація

Розглянуто наявне програмне забезпечення, основним завданням якого є вилучення інформації з оцифрованих документів. З усього програмного забезпечення відбиралося таке, що ґрунтується на технологіях нейронних мереж та глибокого навчання. Вилучення інформації з документів може відбуватися із застосуванням ручної праці операторів персональних комп’ютерів, що потребує багато часу і не виключає вплив людського фактора, а також оцифруванням документів із подальшим обробленням у програмному забезпеченні, яке ґрунтується на принципі підпорядкування документів шаблонам та правилам, що може впливати на швидкість оброблення даних і необхідність вносити зміни до налаштувань через зміну типу документа. У статті поставлено завдання дослідити наявне програмне забезпечення для вилучення даних із цифрових документів, засноване на технології нейронних мереж, та їх застосовність до україномовних документів. Для цього було створено простий набір рахунків-фактур, які завантажувались у систему. Розроблення системи для вилучення інформації з оцифрованих україномовних документів за допомогою нейронних мереж пришвидшить оброблення даних, надасть можливість для їх опрацювання залежно від сфери діяльності користувача цього програмного забезпечення. Визначено, що сьогодні немає систем, котрі можуть самостійно визначати, які дані необхідні для вилучення з україномовних документів. Наявні системи потребують створення програмного забезпечення, що відіграватимуть роль обкладинки для функціонала систем, які передають свою інформацію через REST API. Обґрунтовано, що найкращою системою є Google Form Parser, проте вона потребує постійного підімкнення до мережі Інтернет, що може стати серйозною перепоною для використання такого продукту в певних сферах діяльності.

Ключові слова: оптичне розпізнання символів; нейронні мережі; глибоке навчання; машинне навчання; вилучення даних.

Список використаної літератури
1. Lebourgeois F., Henry J.-L., Emptoz H. An OCR System for Printed Documents. 1992. Р. 83–86.
2. Sudharshan Chandra Babu from Nanonets (2020). Automating Receipt Digitization with OCR and Deep Learning [Електронний ресурс]. URL: https://nanonets.com/blog/receipt-ocr/
3. Семенов С. Как научить машину понимать инвойсы и извлекать из них данные [Електронний ресурс]. URL: https://habr.com/ru/company/abbyy/blog/440310/
4. Intellix – End-User Trained Information Extraction for Document Archiving / D. Schuster, K. Muthmann, D. Esser [et al.] // Proceedings of the International Conference on Document Analysis and Recognition, ICDAR. 10.1109/ICDAR.2013.28.
5. Azure vs AWS vs GCP (Part 2: Form Recognizers) [Електронний ресурс]. URL: https://cazton.com/blogs/executive/form-recognition-azure-aws-gcp.
6. Form Recognizer documentation [Електронний ресурс]. URL: https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer
7. Document AI Documentation [Електронний ресурс]. URL: https://cloud.google.com/document-ai/docs
8. Amazon Textract Developer Guide [Електронний ресурс]. URL: https://docs.aws.amazon.com/textract/latest/dg/what-is.html
9. Nanonets [Електронний ресурс]. URL: https://nanonets.com/

Номер
Розділ
Статті