Граф об'єднав усіх персонажів «Зоряних Воєн»

За допомогою спеціальної комп'ютерної програми дослідники з Федеральної політехнічної школи Лозанни вивчили всесвіт «Зоряних Воєн». Їм вдалося встановити зв'язки між персонажами, співвідношення кількості представників рас і епохи, в яких жили герої саги. Про це повідомив у своєму блозі один з дослідників Кірелл Бенці (Kirell Benzi).


Вчені проводили роботу на основі даних з Wookieepedia, енциклопедії «Зоряних воєн». Для того щоб зібрати масив даних про персонажів і об'єднати їх у граф, вони написали спеціальну програму - веб-скрейпер - який проводив відбір персонажів і встановлював зв'язки між ними. Персонажі вважалися пов'язаними, якщо ім'я одного з них згадувалося на сторінці іншого.


В результаті, програма проаналізувала близько 20000 персонажів. Причому вона відкинула тих, хто не входив до категорії Individuals. Скрейпер встановив зв'язки між ними, співвідношення кількості рас у всесвіті Зоряних воєн і навіть епохи, в яких вони персонажі.

Найбільше зв'язків з іншими персонажами виявилося у Енакіна Скайвокера, Палпатіна і Люка Скайвокера. Найпопулярнішими епохами в сазі виявилися епоха Повстання і Розквіт Імперії. Всього дія саги, згідно з обчисленнями, охоплює понад 36 тисяч років.

Веб-скрейпер також визначав приналежність персонажів до епохів на основі даних масиву. Відсутню інформацію допомагав відновити спеціальний алгоритм. Наприклад, якщо даних про те, коли жив персонаж, не було на сторінці, алгоритм аналізував його найближчі зв'язки в графі і відносив персонажа до певної епохи.

Програма також визначила расову приналежність персонажів «Зоряних воєн». Всього в масиві даних вдалося виділити 640 рас, що живуть на 294 планетах. Найпопулярнішою расою виявилися люди, які склали майже 80 відсотків населення галактики. Також програма нарахувала 1,367 джедаїв і 724 ситхи.

Веб-скрейпер, написаний дослідниками, демонструє те, як програма може справлятися з великим невідсортованим масивом даних і самостійно відновлювати відсутні зв'язки. Вчені вважають, що подібна програма може бути використана при заповненні відсутніх даних в оцифрованих документах і архівах.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND