Що тобі сниться, бот з «Амазона»?

Інтернет-гіганти, такі як Amazon, служать інтересам не тільки мільйонів користувачів по всьому світу, але і приносять користь науці, надаючи вченим свої сервіси для проведення онлайн-анкетування. Однак у тих випадках, коли за участь у дослідженнях платяться гроші, поряд з сумлінними респондентами на опитування психологів і соціологів відповідають і шахраї, що запускають ботів для безглуздого заповнення відразу безлічі анкет. Як убезпечити наукові дослідження? І хто це повинен робити - самі вчені або адміністратори сервісів? І чи можуть результати онлайн-анкетування вважатися валідними? Всі ці питання прямо зараз бурхливо обговорюють користувачі «амазонівського» сервісу Mturk.


На початку серпня в одній з груп у Facebook, присвячених психологічним дослідженням, випускник Університету Міннесоти Макс Хуей Бай (Max Hui Bai) поставив іншим користувачам просте запитання: чи використовували вони сервіс Mturk в останні кілька тижнів і чи помітили вони при цьому зниження якості відповідей? Сам він, обробляючи результати останнього анкетування, виявив, що отримав на відкриті питання дуже багато відповідей невпопад. Йому довелося відкинути приблизно половину даних - набагато більше, ніж зазвичай. Крім того, Макса насторожило, що GPS-локації багатьох респондентів дублювалися. Пост Макса став приводом для бурхливих обговорень і публікацій в декількох виданнях. І не дивно - сервіс Amazon запідозрили в тому, що на ньому завелися боти, які беруть участь у наукових дослідженнях замість живих людей.


Платформа Amazon's Mechanical Turk (або скорочено Mturk) була запущена в 2005 році. Вона надає вченим і дослідникам можливість за невеликі гроші залучати сторонніх людей до виконання нескладних завдань - від розпізнавання зображень і символів до участі в опитуваннях. Можна сміливо сказати, що сервіс справив справжню революцію в галузі соціально-психологічних досліджень: якщо раніше вчені знаходили респондентів переважно в стінах кампусу, то тепер отримали доступ до величезної кількості людей, готових заповнювати анкети в режимі 24/7. І все це за дуже низьку плату - часом за разову участь в онлайн-опитуванні вона становить всього кілька центів. Дані, отримані за допомогою Mturk, лягли в основу тисяч досліджень: деякі називають це золотим століттям соціальних наук.

Однак якість зібраних через Mturk даних часом викликає сумніви. Невеликий розмір гонорару не сприяє бажанню респондентів довго затримуватися на питаннях. Деякі користувачі платформи розглядають її як єдине джерело доходу і працюють за ненормованим графіком, що також знижує якість їх відповідей. У 2016 році видання TechRepublic цитувало слова Рошель Лаплант, експерта по роботі з платформою Mturk: "Якщо опитування публікується о третій годині ранку, комп'ютер або телефон сигналять, людина встає і приймається за відповіді. Усе його життя підпорядковане цьому графіку ".

Сьогодні більшість інтерв'юерів навчилися боротися з хитрощами подібного роду. Для поліпшення якості отриманих даних використовуються капча і завдання, що перевіряють увагу користувача. Дослідники можуть створювати питання з жорсткими параметрами або формулювати їх так, щоб виключити автоматизацію відповідей.

Тим не менш, Макс Хуей Бай та інші дослідники запідозрили, що користувачі Mturk змогли якимось чином обійти всі фільтри. Взагалі боти на сервісі Amazon не заборонені: політика допустимого використання платформи свідчить, що компанія в цілому не заперечує, якщо ви використовуєте скрипти і автоматизовані інструменти, але лише в певних цілях. Респонденти нерідко застосовують спеціальні програми для швидкого пошуку високооплачуваних завдань. Однак заповнювати анкети за допомогою ботів не можна: весь сенс існування Mturk в тому, щоб відповіді давали живі люди.

Звичайно, заборони нікого не зупиняють, і користувачі пишуть все нові і нові скрипти для автоматичного заповнення форм. Однак неясно, чи дійсно в серпні стався сплеск активності ботів, чи вона в принципі вже досить висока. "Боти на Mturk існують роками. Складно сказати, що стало причиною таких бурхливих дискусій - збільшення кількості ботів або збільшення кількості дослідників, які звертають на них увагу і висловлюються публічно ", - коментує Рошель Лаплант вже цього року.

Кетрін Джонсон, професор психології з Університету штату Арізона, яка зазвичай проводить опитування раз на місяць, помітила ті ж дивацтва, що і Макс. Проте дублюються дані про місце розташування респондентів, будь то GPS- або IP-адреси, самі по собі не можна вважати показником недобросовісної поведінки, стверджують експерти. Якщо це єдине, що виглядає в даних підозріло, то вченим не варто хвилюватися. Однак значно більше насторожують безглузді відповіді. Багато вчених повідомили Максу, що і їм у відповідях на відкриті питання часто стали попадатися слова «добре» або «мило», вжиті зовсім не до місця.


«Існують розширення браузера, які заповнюють форми випадковим чином, тому я впевнена, що частина того, що ми бачимо, пояснюється саме цим», - зазначає Лаплант. Правда, вона визнає, що подібним чином часом поводяться і люди. Респонденти Mturk можуть копіювати і вставляти в різні опитування одні й ті ж відповіді, щоб швидше впоратися з максимальним числом завдань і більше заробити. На думку експертів, відповіді невпопад можуть давати користувачі, які погано володіють англійською мовою.

Компанія Amazon поки не дала розгорнутого коментаря щодо ситуації, що склалася. В принципі, щоб не дати користувачеві створити собі кілька акаунтів, платформа вимагає, щоб він надав дійсну податкову інформацію. Однак це ніяк не завадить респонденту використовувати скрипт. Представник Amazon у бесіді з виданням WIRED розповів, що компанія призупиняє або припиняє роботу акаунтів, які попалися на автоматичному заповненні форм. «У нас є автоматичні та ручні механізми, щоб розпізнавати шахрайство і зловмисне використання сервісу ботами, і ми постійно покращуємо їх», - заявив представник Amazon. При цьому він не сказав, чи дійсно спостерігається сплеск дивної поведінки на платформі Mechanical Turk, а також не навів конкретні приклади ботів або акаунтів.

Інші дослідники вважають, що виявлені Максом сліди діяльності ботів - не новина. "Це триває вже давно, фактично з заснування Mechanical Turk, - зазначає Крісті Мілланд, яка використовує сервіс для своїх досліджень вже 12 років. Я особисто знаю пару десятків людей, які застосовують скрипти, і їм за це ніколи нічого не було ". Мілланд додає, що особисто їй знадобиться всього 30 секунд, щоб написати простенький скрипт для автоматичного заповнення інформації на MTurk.

Минулого тижня Макс створив опитування для вчених і тепер намагається з'ясувати, чи є виявлений ним дефект новим, наскільки серйозна проблема і чи існують методи для її подолання. В його останньому дослідженні було 578 відповідей, і 282 з них (тобто майже рівно 50 відсотків) містили дублюються GPS-дані. Причому, як показали тести, їх не можна вважати достовірними. Поки що Макс обробляє результати опитування для психологів і соціологів. Як тільки аналіз буде завершено, дослідник має намір відправити отримані ним дані в Amazon в надії на змістовні відповіді з боку компанії.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND