ДОСВІД ЗАСТОСУВАННЯ ШТУЧНОГО ІНТЕЛЕКТУ В РОБОТІ З СЕРЕДНЬОВІЧНИМИ МАНУСКРИПТАМИ

Автор(и)

DOI:

https://doi.org/10.15330/gal.39.171-179

Ключові слова:

палеографія, штучний інтелект, комп’ютерний зір, розпізнавання рукописного тексту, машинне навчання.

Анотація

У цій роботі наведено принципи та підходи застосування штучного інтелекту (ШІ) у роботі з рукописними історичними документами. З розвитком методів машинного навчання та комп’ютерного зору використання автоматизованих систем для аналізу, структурування та розпізнавання текстів зі сканованих документів набуває все більшого поширення, що підтверджується значною кількістю су­часних наукових досліджень у цій галузі. Використання подібних механізмів стає стандартом для вели­ких архівних проєктів. Однак, попри значну кількість наявних інструментів, більшість з вже готових рішень орієнтовані переважно на обробку документів доби модерну, тоді як проблематика автома­ти­зованої обробки середньовічних манускриптів залишається недостатньо дослідженою через варіатив­ність письма та фізичні пошкодження матеріалів.

У статті ми проаналізували сучасні підходи застосування машинного навчання у роботі з розпізнаванням рукописних історичних текстів, зокрема методи детекції та сегментації структурних елементів документів, а також запропонували власне рішення комп’ютерної системи, здатне оброб­ляти латино-мовні документи епохи Каролінгів та Оттонів IX–XI ст. Особлива складність роботи з документами цього періоду зумовлена специфікою каролінзького мінускула: наявність численних ліга­тур, виносних елементів та специфічних середньовічних скорочень – створює серйозні перешкоди для стан­дартних алгоритмів OCR. Водночас документи каролінзької доби мають високу джерельну цінність для історичних і палеографічних досліджень, оскільки фіксують ранні форми адмініст­ра­тивної, правової та писемної практики Західної Європи, а також відображають етапи становлення середньовічної документальної традиції.

Запропонована у цій роботі нами система є модульною та складається з чотирьох взаємо­пов’язаних моделей машинного навчання, кожна з яких виконує власну роль в загальному процесі обробки документа. Система забезпечує поетапне виявлення текстових рядків і слів, а також їх розпізнавання із застосуванням поєднання різних моделей для пошуку візуально й синтаксично подібних слів. Такий підхід дозволяє підвищити стійкість розпізнавання в умовах обмеженого навчального набору даних і забезпечує кращу адаптацію до особливостей середньовічного письма

##submission.downloads##

Опубліковано

2026-05-06