ДОСВІД ЗАСТОСУВАННЯ ШТУЧНОГО ІНТЕЛЕКТУ В РОБОТІ З СЕРЕДНЬОВІЧНИМИ МАНУСКРИПТАМИ
DOI:
https://doi.org/10.15330/gal.39.171-179Ключові слова:
палеографія, штучний інтелект, комп’ютерний зір, розпізнавання рукописного тексту, машинне навчання.Анотація
У цій роботі наведено принципи та підходи застосування штучного інтелекту (ШІ) у роботі з рукописними історичними документами. З розвитком методів машинного навчання та комп’ютерного зору використання автоматизованих систем для аналізу, структурування та розпізнавання текстів зі сканованих документів набуває все більшого поширення, що підтверджується значною кількістю сучасних наукових досліджень у цій галузі. Використання подібних механізмів стає стандартом для великих архівних проєктів. Однак, попри значну кількість наявних інструментів, більшість з вже готових рішень орієнтовані переважно на обробку документів доби модерну, тоді як проблематика автоматизованої обробки середньовічних манускриптів залишається недостатньо дослідженою через варіативність письма та фізичні пошкодження матеріалів.
У статті ми проаналізували сучасні підходи застосування машинного навчання у роботі з розпізнаванням рукописних історичних текстів, зокрема методи детекції та сегментації структурних елементів документів, а також запропонували власне рішення комп’ютерної системи, здатне обробляти латино-мовні документи епохи Каролінгів та Оттонів IX–XI ст. Особлива складність роботи з документами цього періоду зумовлена специфікою каролінзького мінускула: наявність численних лігатур, виносних елементів та специфічних середньовічних скорочень – створює серйозні перешкоди для стандартних алгоритмів OCR. Водночас документи каролінзької доби мають високу джерельну цінність для історичних і палеографічних досліджень, оскільки фіксують ранні форми адміністративної, правової та писемної практики Західної Європи, а також відображають етапи становлення середньовічної документальної традиції.
Запропонована у цій роботі нами система є модульною та складається з чотирьох взаємопов’язаних моделей машинного навчання, кожна з яких виконує власну роль в загальному процесі обробки документа. Система забезпечує поетапне виявлення текстових рядків і слів, а також їх розпізнавання із застосуванням поєднання різних моделей для пошуку візуально й синтаксично подібних слів. Такий підхід дозволяє підвищити стійкість розпізнавання в умовах обмеженого навчального набору даних і забезпечує кращу адаптацію до особливостей середньовічного письма
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.