ДОСВІД ЗАСТОСУВАННЯ ШТУЧНОГО ІНТЕЛЕКТУ  В РОБОТІ З СЕРЕДНЬОВІЧНИМИ МАНУСКРИПТАМИ

Максим Волощук; Богдана Зарембовська

doi:10.15330/gal.39.171-179

Автор(и)

Максим Волощук https://orcid.org/0009-0005-4950-6234
Богдана Зарембовська https://orcid.org/0009-0002-7673-5970

DOI:

https://doi.org/10.15330/gal.39.171-179

Ключові слова:

палеографія, штучний інтелект, комп’ютерний зір, розпізнавання рукописного тексту, машинне навчання.

Анотація

У цій роботі наведено принципи та підходи застосування штучного інтелекту (ШІ) у роботі з рукописними історичними документами. З розвитком методів машинного навчання та комп’ютерного зору використання автоматизованих систем для аналізу, структурування та розпізнавання текстів зі сканованих документів набуває все більшого поширення, що підтверджується значною кількістю сучасних наукових досліджень у цій галузі. Використання подібних механізмів стає стандартом для великих архівних проєктів. Однак, попри значну кількість наявних інструментів, більшість з вже готових рішень орієнтовані переважно на обробку документів доби модерну, тоді як проблематика автоматизованої обробки середньовічних манускриптів залишається недостатньо дослідженою через варіативність письма та фізичні пошкодження матеріалів.

У статті ми проаналізували сучасні підходи застосування машинного навчання у роботі з розпізнаванням рукописних історичних текстів, зокрема методи детекції та сегментації структурних елементів документів, а також запропонували власне рішення комп’ютерної системи, здатне обробляти латино-мовні документи епохи Каролінгів та Оттонів IX–XI ст. Особлива складність роботи з документами цього періоду зумовлена специфікою каролінзького мінускула: наявність численних лігатур, виносних елементів та специфічних середньовічних скорочень – створює серйозні перешкоди для стандартних алгоритмів OCR. Водночас документи каролінзької доби мають високу джерельну цінність для історичних і палеографічних досліджень, оскільки фіксують ранні форми адміністративної, правової та писемної практики Західної Європи, а також відображають етапи становлення середньовічної документальної традиції.

Запропонована у цій роботі нами система є модульною та складається з чотирьох взаємопов’язаних моделей машинного навчання, кожна з яких виконує власну роль в загальному процесі обробки документа. Система забезпечує поетапне виявлення текстових рядків і слів, а також їх розпізнавання із застосуванням поєднання різних моделей для пошуку візуально й синтаксично подібних слів. Такий підхід дозволяє підвищити стійкість розпізнавання в умовах обмеженого навчального набору даних і забезпечує кращу адаптацію до особливостей середньовічного письма

Посилання

Aguilar S. (2025). From Codicology to Code: A Comparative Study of Transformer and YOLO-based Detectors for Layout Analysis in Historical Documents. DOI: 10.48550/arXiv.2506.20326. (in English).

Copeland B. J. Artificial intelligence. URL: https://www.britannica.com/technology/artificial-intelligence (in English).

Boillet M., Kermorvant Ch., Paquet Th. (2022). Robust text line detection in historical documents: learning and evaluation methods. International Journal on Document Analysis and Recognition (IJDAR). Vol. 25. P. 1–20. DOI: 10.1007/s10032-022-00395-7 (in English).

Stryker C., Kavlakoglu E. What is AI? DOI: https://www.ibm.com/think/topics/artificial-intelligence. (in English).

Simistira F., Seuret M., Eichenberger N., Garz A., Liwicki M., and Ingold R. (2016). DIVA-HisDB: A Precisely Annotated Large Dataset of Challenging Medieval Manuscripts. International Conference on Frontiers in Handwriting Recognition. P. 471–476 (in English).

NASA. What is Artificial Intelligence? DOI: https://www.nasa.gov/what-is-artificial-intelligence (in English).

Aguilar S. T., Jolivet V. Handwritten Text Recognition for Documentary Medieval Manuscripts. 2022. DOI: hal-03892163v1. (in English).

Clérice Th., Pinche A., Vlachou-Efstathiou M., Chagué A., Camps J.-B. et al. (2024). CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond. DOI: hal-04453952 (in English).

Voloshchuk, M., Zarembovska, B. (2024). Vykorystannia shtuchnoho intelektu (mashynnoho nav¬chan-nia) dlia rozchytky serednovichnykh istorychnykh dokumentiv. Students’ki istorychni zoshyty. Vol. 16. S. 116–125 (in Ukrainian).

ДОСВІД ЗАСТОСУВАННЯ ШТУЧНОГО ІНТЕЛЕКТУ В РОБОТІ З СЕРЕДНЬОВІЧНИМИ МАНУСКРИПТАМИ

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Ліцензія

Мова

Інформація