PCWorld: Тактовна і смішна мешканка iPhone 4S із заміжжжжям не поспішає

У продовження популярної теми персонального асистента Siri знаменитий ресурс PCWorld опублікував 25 жовтня 2011 року статтю Девіда Доу (David Daw) «What Makes Siri Special?» («Що робить Siri особливою?») в якій відстоюється точка зору про те, що Siri дає початок новій хвилі додатків для розпізнавання мови. Завдяки вдалому поєднанню можливостей розпізнавання мови і елементів дотепності, Siri може стати біля витоків нового покоління засобів розпізнавання голосу. Принаймні, такої думки дотримується Девід Доу.

Тонке почуття гумору мешканки iPhone 4S

Якщо запитати в iPhone 4S віртуальну персональну помічницю Siri про те, чому вона настільки чудова, її відповідь буде дуже скромною: «я - це я» («I am what I am»). Втім, у галузі подейкують, що насправді мова йде про щось набагато більше, ніж те, що ми можемо спостерігати на поверхні. Фахівці кажуть, що Siri не вписується в тісні рамки поняття засобу для розпізнавання мови і являє собою приклад застосування потужного штучного інтелекту в поєднанні зі статистичним аналізом, що дозволяє розуміти часом сумбурну промову свого співрозмовника-людини. До переваг нової технології слід неодмінно додати стримане почуття гумору Siri. Все це здатне зробити її зразком, на який будуть орієнтуватися при створенні аналогічних технологій для телефонів, планшетів і навіть персональних комп'ютерів. Принаймні такої думки дотримуються експерти, на яких посилається Девід Доу.


Очевидно, Siri постала перед широкою публікою вельми своєчасно. Той комплекс технологій, які в ній задіяні, нарешті готовий до зустрічі зі споживачем. Якщо попросити Siri підшукати поблизу ресторан, для обробки запиту вона задіє не тільки розпізнавання мови. Вона направить запит на сервер «у хмару», а вже там потужний штучний інтелект проаналізує всі тонкощі запиту і постарається з'ясувати, що саме необхідно користувачеві. Потім відповідь буде передано на iPhone користувача. Як приклад можна сказати, що Siri готова знайти найближчий до користувача мексиканський ресторан. Всього три роки тому «хмарний» аналіз такого рівня складності був просто неможливий. Зараз людство тільки стоїть на порозі знайомства з цією новою технологією, тому вся інформація про взаємодію з нею збирається буквально по крихтах.

Siri розуміє живу мову

Сервіси, подібні до Siri, називають програмами «обробки живої мови» («natural language processing»). Вони використовують статистичні моделі для того, щоб постаратися зрозуміти, що було сказано в тих випадках, коли спотворена вимова або невдало підібрані слова. Програми, що сприймають живу мову, можуть прийняти пропозицію: «I like two sailboats around eBay» («Я курсую навколо eBay як дві яхти») за «I like to sail boats around the bay» («Мені подобається плавати на кораблях навколо затоки»).

Треба сказати, що технології розпізнавання мови порівняно не нові і вже багато років їм приділялася відома увага. Зокрема банківські роботизовані платіжні системи використовували технології обробки природної розмовної мови. Втім, у багатьох банках ці системи в минулому були не дуже хороші. Принаймні так пише Девід Доу.

У телефонах на базі Android «хмарна» обробка мова використовується вже не перший рік. Водночас додаток Voice Actions від Google сприймає тільки обмежений набір команд, таких як «listen to...» (слухай...) або «note to self...» («відзначь для себе»...). Ці команди використовуються для старту процесу взаємодії з сервісом.

Siri ж базується на штучному інтелекті, що поповнює свої знання в процесі спілкування з користувачем. Чим обшарніше накопичена Siri база знань, тим точніше вона зможе зрозуміти не тільки, що сказав користувач, але і що він цим хотів сказати насправді. У підсумку Siri можна буде запитати про один і той же кількома різними способами. Оскільки Siri постійно мешкає в iPhone 4S, вона знає, де в даний час знаходиться користувач і з ким він найчастіше спілкується. Знання цих обставин дозволить Siri виконувати такі завдання, як «Знайти мені таксі поблизу» («Find me a cab near here») або «Подзвони моїй мамі» («Call my mother»). Таким чином, Siri зуміє правильно виконати завдання, якщо її попросять не тільки «зателефонувати Івану Іванову», але і «зателефонувати моєму кращому другові». Вона в рівній мірі коректно зрозуміє суть завдань «подзвони моєму кращому другові» і «я хочу говорити з Іваном».

Чим Siri принципово відрізняється від своїх аналогів?

Користувачі можуть говорити з Siri так, ніби це людина. Така манера спілкування найбільш звична для користувачів і, схоже, такий спосіб взаємодії з електронікою повинен припасти їм до смаку. Siri розуміє свого користувача і це можливо тому, що вона є особистістю. Така думка Девіда Доу.


На його думку, найбільш дратівлива якість систем розпізнавання мови - завзятість в помилках інтерпретації людської мови. Тобто, людина говорить одне і те ж на деякий манер, а програма його вперто не бажає розуміти. Навіть з урахуванням інтегрованого в неї комплексу передових технологій, Siri все ще продовжує допускати помилки. Істотна відмінність полягає в тому, що Siri розпізнає мову в режимі діалогу з людиною, а люди звикли до того, що в ході бесіди часом доводиться стикатися з непорозумінням суті сказаного ними, що викликає необхідність пошуку більш вдалого формулювання питання або затвердження. Інтерфейс Siri такий, що навіть, коли вона зіткнулася з проблемою і зазнала фіаско в спробі зрозуміти свого співрозмовника-людину, вона красиво виходить з скрутного становища.

Віце-президент SRI Ventures Норман Вінарський (Norman Winarsky), який працював з командою Siri до придбання даного проекту компанією Apple, каже, що постановка голосу Siri була, можливо, однією з найскладніших завдань, що ставали перед командою. SRI Ventures є венчурним проектом Стенфордського науково-дослідного інституту (Stanford Research Institute). Норман Вінарський каже:

Раніше Норман Вінарскі досить детально розповідав про Siri. Його роздуми на тему Siri відображені в статті "9to5Mac: Сенсаційне інтерв'ю з творцем штучного інтелекту iPhone 5 ".

Особистості Siri властиве почуття гумору. Спілкуватися з нею буває не тільки весело, але і по-справжньому смішно. Якщо поцікавитися у неї, в чому полягає сенс життя, вона можуть відповісти просто: «42» і розумійте як хочете або ж розгорнуто: «Всі наявні на даний момент ознаки вказують на шоколад». Якщо попросити її закрити очі і відкрити рот, то вона дуже вибачиться і скаже, що їй не дозволено цього робити. На пропозицію користувача вийти за нього заміж, вона відповідає: «Ми погано знаємо один одного». Смішним відповідям Siri на не менш смішні, а часом і дурні питання користувачів, вже присвячений окремий ресурс STSS (Shit That Siri Says). Про ресурси, присвячені цій темі, Девід Доу пише по множині. Треба вважати, що є й інші подібні сайти. Девід рекомендує прочитати у зв'язку з цією темою статтю Еріка Мека (Eric Mack) «Top 5 Siri-Based Short Films», розміщену ресурсом PCWorld («П'ятірка кращих короткометражних фільмів про Siri») від 18 жовтня 2011 року.

За словами Нормана Вінарські, спочатку команда розробників Siri зробила її особистістю, а потім Apple, судячи з усього, розвинула в ній її індивідуальні якості. Як зазначає провідний аналітик і засновник Opus Research Ден Міллер (Dan Miller), інтерфейс Siri приносить стільки задоволення, що в цьому відношенні наближається до комп'ютерної гри. На думку ряду користувачів, ця властива Siri кумедність робить її помилки в розпізнаванні мови простими.

Коли ж розпізнавання мови стане нарешті масовою технологією?

Очевидно, в найближчі кілька років ми побачимо стрибкоподібний розвиток голосових додатків і сервісів, що сприймають живу мову користувачів. А ось, що думає з цього приводу головний археолог (CTO) Nuance, розробника популярного програмного забезпечення Dragon Naturally Speaking Влад Седжноа (Vlad Sejnoha):

Dragon нещодавно представила власний додаток обробки живої мови для iOS-пристроїв під назвою Dragon Go, призначений для вирішення досить специфічних завдань. Наприклад, лікар може дати йому складну історію хвороби, з якої додаток зробить висновок, заснований на найбільш важливих симптомах.


Слід очікувати, що найближчим часом функціонал Siri буде розширено. Як вважає Норман Вінарські, вона буде розвиватися швидко, оскільки в даний час розробники розвивають деякі її можливості. Фактично ці можливості вже є, просто над ними треба додатково потрудитися. До речі, однією з функцій, які Apple вирішила видалити, з'явилася можливість автоматичного замовлення через Siri столика в ресторані. Очевидно, Apple працює в відразу двох напрямках: веде переговори і шліфує функції і наскільки швидко, наскільки це буде можливим, відновить повний функціонал програми. Для більш детального ознайомлення з даною темою Девід Доу рекомендує прочитати на PCWorld статтю Тоні Бредлі (Tony Bradley) «Five Things Apple Needs to Do to Improve Siri» від 20 жовтня 2011 року.

І що ж далі? Можливо Siri інтегрується з музичним акаунтом користувача, а можливо почне шукати рейси літаків в Інтернеті, а можливо... Втім, припущень стільки ж скільки і користувачів, навіть, мабуть, припущень більше. Практично у кожного користувача є відразу кілька побажань до Siri.

Розробникам з Купертіно має сенс діяти швидко, оскільки виграш у часі не буде нескінченним і в цьому напрямку очікується щільна конкуренція.

Siri - фахівець з громадського харчування або повноцінна електронна особистість?

Оптимізм експертів і оглядачів радує, але через кілька днів після того, як стали доступні огляди користувачів Siri, викликають деяке збентеження кілька моментів, які слід торкнутися хоча б для того, щоб прояснити ситуацію. Практично в кожній статті, що стосується даної теми наводиться приклад якісного пошуку за допомогою Siri ресторану тієї чи іншої національної кухні. Зрозуміло, мова йде про розташовані в США заклади громадського харчування. Робота цієї функції викликає потік хвалебних відгуків. Далі мова йде про «почуття гумору» і «особистості» Siri. Другим прикладом вдалої взаємодії користувачів з Siri є здійснення нею доступу до комунікації: дзвінки на прохання користувача, повідомлення та електронні листи. Високо оцінюють також її здатність визначати місце розташування користувача по карті і прив'язувати до його переміщень ті чи інші дії, наприклад, «зателефонувати дружині після виходу з роботи».

Створюється враження (можливо сильно помилкове), що Siri має якийсь загальнопитівсько-комунікаційно-географічний ухил. Якщо це не зовсім так, хотілося б побачити в коментарях інші приклади успішної взаємодії з Siri.


Слід погодитися, що Siri дійсно володіє деякими зачатками особистості. Вона може не зрозуміти користувача, ще частіше вона не зуміє виконати його прохання, але в будь-якому випадку її реакція буде подібна до людської (не в повній, зрозуміло, мірі): вона або прямо відповість, що не може допомогти або збентежиться або віджартується. Тобто, поведеться приблизно так само, як повела б у подібній ситуації людина. Це і викликає до неї симпатії з боку багатьох користувачів. І зрозуміти їх просто. Людина стикається зі звичною моделлю поведінки, тією самою моделлю, яка вироблялася людством століттями і тисячоліттями. З Siri не потрібно запам'ятовувати спеціальні команди, з нею можна просто говорити і часом отримувати рішення своїх завдань. У найближчі роки стане ясно, настала вже епоха голосового інтерфейсу або поки ще закидати клавіатуру на пилове горище.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND