Гарвард оцифрував 6,4 мільйона судових справ для навчання ШІ

Бібліотека Школи права Гарвардського університету завершила проект Caselaw Access Project - збір відкритих даних про судові справи, що проходили на території США, повідомляє MIT Technology Review. Процес полягав у скануванні понад 40 мільйонів сторінок документів починаючи з XVII століття: всього в базу даних потрапили приблизно 6,4 мільйона судових справ. Ці дані допоможуть ефективніше навчати комп'ютерні алгоритми, які можуть бути використані в юриспруденції.


Сучасний аналіз даних дозволяє застосовувати методи машинного навчання практично до будь-яких сфер. Зрозуміло, для ефективного його використання потрібна дуже велика кількість даних. Наприклад, для того, щоб навчити нейромережу розпізнавати пневмонію, знадобилося більше мільйона рентгенівських знімків грудної клітини.


Що стосується завдань, що включають обробку природної мови, то тут даних для ефективної роботи має бути використано ще більше. Особливо, коли справа стосується прийняття важливих рішень. Розробка алгоритмів, які могли б приймати рішення і полегшувати процес у суді, - одне з таких завдань.

Полегшити її виконання вирішили дослідники зі Школи права Гарвардського університету, які протягом декількох років сканували і аналізували відкриті матеріали, що належать бібліотеці університету. Матеріали включали в себе судові висновки та стенографії: в них містяться повні доступні матеріали по кожній судовій справі. Перші документи датуються 1658 роком, а останні - 2018. Всього для створення бази даних дослідники оцифрували близько 40 мільйонів сторінок, а загальна кількість справ перевищує 6,4 мільйона.

Знадобитися база даних може не тільки розробникам, а й юристам. Для отримання доступу до неї необхідно зареєструватися на сайті проекту. Крім того, поки що діє обмеження на скачування: розробники дозволяють отримувати тільки 500 документів на день. Це обмеження введено партнерами проекту - технологічним стартапом Ravel Law - і буде діяти приблизно до березня 2024 року, після чого доступ до всіх документів повинен стати вільним. Базові дані (назви справ, дата і суд) доступні повністю вже зараз.

Варто зазначити, що штучний інтелект вже застосовується в юриспруденції. Наприклад, минулого року вченим вдалося навчити розпізнавати обман підсудних за голосом і виразом обличчя ефективніше, ніж це роблять люди.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND