Векторне представлення слів навчило комп'ютер матеріалознавству

Американські вчені створили векторну виставу 500 тисяч слів, що зустрічаються в наукових статтях з матеріалознавства: для цього вони зібрали корпус з 3,3 мільйона анотацій. Отримана модель дозволяє не тільки достовірно описати вже відомі властивості матеріалів без теоретичних знань хімії та фізики, але також може передбачити нові можливі властивості. Стаття опублікована в.


Один з найпопулярніших сьогодні методів автоматичної обробки мови - це векторне представлення слів. Засноване воно на тому, що всі слова мови можна представити у вигляді векторів у багатовимірному просторі певної спільності текстів цієї ж мови. Слова, які в такому просторі знаходяться ближче один до одного, в мові будуть схожі за своєю семантикою (як на рівні окремих лексичних одиниць, так і цілих текстів): скажімо, слово «кролик» буде ближче до слова «заєць», ніж до слова «гуртка».


При цьому векторне уявлення досить контекстно-залежне, і те, як будуть розташовуватися слова в просторі, сильно залежить від величини вибірки використовуваних текстів з одного боку, а з іншого - від певної їх тематики. Іноді це обмеження моделі використовують, наприклад, для того, щоб виділити з великого корпусу специфічних текстів якусь важливу інформацію. Наприклад, минулого року вченим за текстами, написаними в XX столітті, вдалося простежити за тим, як змінювалося ставлення до жінок і азіатам - по тому, які слова були до них ближче.

Розробники під керівництвом Вахе Щитояна (Vahe Tshitoyan) з Національної лабораторії імені Лоуренса в Берклі припустили, що векторна вистава слів, побудована на текстах певної наукової тематики, може бути використана для отримання знань у цій галузі. Для цього вони зібрали корпус з 3,3 мільйона анотацій до наукових статей у галузі матеріалознавства, опублікованих у період з 1922 по 2018 рік. З цього корпусу вони склали словник з півмільйона слів, на основі яких і побудували векторний простір (для цього використовували інструменти Word2vec).

Побудувавши модель, дослідники виявили, що, незважаючи на відсутність знань у науковій галузі, алгоритм отримав достовірну інформацію про деякі матеріали: для цього використовується як близькість векторів один до одного в просторі, так і деякі векторні операції (додавання і віднімання). Наприклад, серед сполук, які знаходяться найближче до LiCoO2 в отриманому просторі, виявилися, наприклад, LiNiO2 і LiMn2O4 (всі - катодні матеріали для літій-іонних акумуляторів). Крім того, з векторного представлення з'єднань можна, наприклад, вивести поняття оксиду (в почесному просторі різниця між векторами Zr і ZrO2 дорівнює різниці між Ni і NiO) і антиферромагнетизму (за допомогою віднімання з вектора «ферромагнетизм» NiFe і додавання IrMn).

Крім того, дослідники помітили, що деякі векторні уявлення (наприклад, близькість будь-якого з'єднання з якимось поняттям) не співвідносяться з інформацією, доступною у використаних анотаціях. Це, наприклад, стосувалося слова «термоелектричний»: ряд з'єднань, вектор яких був до нього близький, ніколи не згадувалися разом з ним у використаній науковій літературі - отже, термоелектричних властивостей для них описано не було. При цьому їхня близькість до терміну пояснюється пропорційною близькістю до інших. Як приклад автори наводять напівпровідник CsAgGa2Se4: цей матеріал близький до слів «халькогенід», «бандгап» і «оптоелектричний», які, в свою чергу, близькі до «термоелектричного». Підхід перевірили і за допомогою історичних даних: наприклад, дослідники показали, що їхня модель вказувала на близькість поняття «термоелектричний» і CuGaTe2 в розглянутій науковій літературі за чотири роки до того, як вперше були описані його термоелектричні властивості.

Варто зазначити, що близькість двох векторів один до одного, отримана через ставлення до них інших векторів, не доводить наявність тих чи інших властивостей, але дозволяє винести припущення, яке надалі необхідно буде перевірити. У майбутніх роботах автори сподіваються розширити корпус до набору повних текстів статей.

Векторне представлення слів також може використовуватися в машинному перекладі: передбачається, що два слова будуть займати схожу позицію щодо векторного простору власних мов. Минулої осені розробники з Facebook за допомогою цього методу створили перекладач, який обходиться без паралельних корпусів.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND