Датування на автоматі: Алгоритм історії

Незважаючи на всі зусилля фахівців, досі мільйони середньовічних рукописів очікують датування. Можливо, в цій грандіозній і копіткій праці істориків замінять комп'ютери.


Бюрократизм середньовічної Великобританії - справжній скарб для істориків. Кожен цивільний і релігійний акт, кожна зміна власника землі і власності тут ретельно фіксувалися протягом довгих століть. Зрозуміло, латиною.


В результаті в архівах Сполученого Королівства збереглося на сьогодні більше мільйона таких хартій, що малюють детальну картину життя - політики, економіки, суспільства в X - XIV ст. Вони здатні відкрити злети і падіння володіючих, церков, армій, торгових асоціацій - всю строкату гаму часу, що послідував за успіхом Першого Хрестового походу.

Словом, ці хартії мають значну наукову цінність - якщо б не одна біда: більшість з них не датуються точно, особливо ті, що відносяться до періоду нормандського правління між 1066 і 1307 рр. А без датування отримати справжню картину практично неможливо.

Довірити вирішення цієї проблеми комп'ютерам пропонують канадські вчені, які працюють над алгоритмом автоматичного датування середньовічних рукописів. Для цього в якості вихідного матеріалу вони пропонують взяти близько 10 тис. хартій, для яких датування вже проведено, а потім довірити алгоритму лінгвістичний пошук: як змінювалися в них латинські формулювання і словоформи з часом.

Наприклад, «моїм друзям, живим і мертвим» - amicorum meorum vivorum et mortuorum - використовувалася між 1150 і 1240 рр., але жодного разу після. А «до французів і англійців» - Francis et Anglicis - з'являється лише після втрати англійцями північної Нормандії в 1204 р. Статистичний аналіз охопить не тільки такі очевидні випадки, але і більш складні зміни словника і частоти вживання слів.

«Навчивши» комп'ютер таким чином, вчені для проби дали йому можливість датувати деякі документи в початковому наборі рукописів. Порівнявши текст з патернами змін у мові хартій, виявленими на першому етапі, алгоритм видав цілком прийнятні результати.

В якості експерименту комп'ютер отримав погано збережений манускрипт, наявний в бібліотеці Brock University і віднесений одними фахівцями до XIII, а іншими - до XIV ст. Більш уважні дослідження дали дати між 1235 і 1245 рр. - а комп'ютерний алгоритм позначив 1246 р.


На думку авторів, цей результат - лише початок. Подібний підхід може бути використаний для цілого ряду інших архівних досліджень. На основі словникових паттерів можливо припустити авторство документа і його походження і навіть визначити фальшивки.

Публікація MIT Technology Review/Physics arXiv Blog

COM_SPPAGEBUILDER_NO_ITEMS_FOUND