Моделі штучного інтелекту стають все інтелектуальнішими

Зображення, створені нейромережею DALL· E 2 за текстовими описами ./Джерело.


Якщо ви користуєтеся «розумними помічниками» у своїх смартфонах або системах розумного будинку, ви могли помітити, що нечітко сформульовані запити поки що часто ставлять ці моделі штучного інтелекту в глухий кут. У той час як людський інтелект постійно працює з нечіткими запитами, недоговореностями, розпливчастими формулюваннями, неповною інформацією. Але як довго буде зберігатися ця різниця?


Людині у величезній кількості випадків не потрібні докладні інструкції, причому часто навіть у ситуаціях, з якими вона стикається вперше. Справа в тому, що наш інтелект здатний, використовуючи інформацію від різних органів почуттів, співвідносити її з наявними знаннями і робити досить успішні припущення про властивості незнайомих предметів, особливості нових ситуацій і наміри інших людей. А також планувати свої і передбачати (або подумки відновлювати, якщо мова про минуле) чужі дії на підставі всього цього. Наприклад, якщо ви залишили черевики в передпокої будинку, де є собака, а через деякий час бачите там тільки один з них, вам не потрібно, щоб хтось детально проговорив, що сталося, або показав би вам відео події: припущення про те, що трапилося, формується і без цього. Якщо вас просять принести води, ви, спостерігаючи ситуацію, в якій це відбувається, можете без додаткових інструкцій вирішити, мова про склянку води для хворого, про пляшку мінералки, яку треба купити по дорозі додому, або про відру води, щоб полити дерево або залити багаття. Системи штучного інтелекту поки до цього рівня не дотягують. Але, мабуть, ключове слово тут - «поки». Тому що розвиток йде семимильними кроками. Нижче - деякі свідчення на користь останнього твердження.

Представники команди OpenAI продемонстрували вдосконалену версію нейромережі DALL· E - DALL· E 2. Як і її попередниця, ця нейромережа генерує зображення за текстовими описами. Але, на відміну від DALL· E, DALL· E 2 створює більш реалістичні, чіткі і деталізовані зображення. Ще ця модель ШІ здатна вміло комбінувати предмети, концепти, властивості і стилі, а також брати вихідне зображення і створювати різні натхненні оригіналом варіації. Приклад створеного DALL· E 2 за текстовим описом зображення, що поєднує два різні об'єкти в трьох різних стилях. Астронавт на коні: зліва - у фотореалістичному стилі, по центру - в стилі Енді Воргола, праворуч - в стилі олівцевого малюнка. (Тут більше, і не тільки про астронавтів). Картина Яна Вермеєра «Дівчина з перлинною сережкою» (ліворуч) і дві натхненні нею варіації від DALL· E 2. А ще DALL· E 2 може в існуюче зображення додати за текстовим запитом якусь деталь. Наприклад, тут її попросили додати диван.

DALL· E 2 «малює» прекрасні картинки, проте новина про неї - далеко не єдина і, мабуть, не найгучніша в галузі за останні дні. Зокрема, Google AI представила нейросетеву модель Visually-Driven Prosody for Text-to-Speech (VDTTS), що здійснює відеокероване перетворення тексту в усну мову і здатну допомогти з переозвучуванням відео. Як відомо, при створенні якісного візуального контенту записані на відео репліки, монологи та діалоги іноді доводиться переозвучувати в студії. З різних причин: балакучий міг запнутися, могли перешкодити сторонні шуми. При цьому виникає проблема синхронізації звуку та зображення. І ось цю проблему VDTTS блискуче вирішує: орієнтуючись на вихідний відеозапис балакучого, вона генерує з запропонованого тексту реалістично звучну промову, синхронізовану із зображенням. Причому якщо більшість подібних моделей приділяє особливу увагу рухам рота, то VDTTS враховує міміку особи в цілому і навіть руху голови. Принцип роботи VDTTS. Подробиці та приклади - за посиланням.

Ще один перспективний проект - теж гуглівський, плід колаборації команд Robotics з Google і Everyday Robots з X (колишня Google X). Він має назву «Do As I Can, Not As I Say» («Роби, як я можу, а не як я кажу» - відсилання до відомої ідіоми). Його мета - з часом створити робота, що розуміє нечіткі запити (наприклад, «викинути сміття») без покрокових інструкцій і здатного виконати їх.

Такий робот буде діяти як «руки і очі» мовної системи, в той час як система буде надавати високорівневі семантичні знання, корисні при виконанні тих чи інших завдань. По суті, робот повинен буде діяти так, як діємо ми: дізнаватися предмети знайомих типів, визначати на підставі наявних знань передбачувані властивості незнайомих, співвідносити отриману команду з ситуацією і середовищем і планувати дії.

Підхід до використання великих мовних моделей (GPT-3 та ін.) як бази знань при управлінні роботом за допомогою високорівневих інструкцій природною мовою назвали SayCan. Великі мовні моделі, хоча і містять величезну кількість знань про світ і здатні запропонувати безліч відповідей на отриманий запит, далеко не всі з цих відповідей можуть служити інструкцією для фізичного виконання запиту взагалі і, тим більше, не всі з них практично застосовні до конкретної ситуації і до механіки конкретного робота. Ось тут і вступає SayCan, співвідносячи можливі відповіді великої мовної моделі з навичками робота і вибираючи, який з них роботу слід застосувати, з урахуванням 1) можливості, що він буде корисний, і 2) ймовірності успішної реалізації даної навички в даній ситуації. Наприклад, у відповідь на запит: «Я пролив колу, не міг би ти принести мені що-небудь, щоб прибрати її?», SayCan може дати роботу завдання знайти губку, взяти її і принести запитавшому.


Можливості SayCan поки що обмежені в тому числі технічною реалізацією механічної частини робота: дослідницька група неодноразово спостерігала, як робот, якого вони вибрали для проведення експериментів, випадково роняє предмети. Проте цей приклад, поряд з DALL· E 2 та іншими розробками такого роду, показує, як швидко ми наближаємося до фантастичного майбутнього, в якому нас будуть оточувати дуже недурні машини.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND