Алгоритм DeepMind передбачив структуру білка за амінокислотною послідовністю

Розробники з DeepMind представили другу версію алгоритму для передбачення тривимірної структури білка за послідовністю амінокислот - AlphaFold 2. Алгоритм визначає структуру білка із середньою точністю в 92,4 бала зі 100, тобто може правильно визначити розташування в ланцюжку 92,4 відсотка амінокислотних залишків - більше, ніж будь-який інший подібний алгоритм. Детальніше про розробку розповідається в блозі DeepMind.


При трансляції - зчитуванні інформації з матричної РНК молекула білка починає формуватися як поліпептид - лінійний ланцюжок амінокислотних залишків без стабільної структури. Далі, залежно від хімічних властивостей амінокислот (електричного заряду, гідрофобності та гідрофільності) і їх взаємодії один з одним, ланцюжок згортається. Таким чином формується тривимірна структура білка, від якої, в свою чергу, повністю залежать його функції, а також те, як він взаємодіє з іншими білками і речовинами (наприклад, ліками).


Визначити амінокислотну послідовність білка досить просто, а ось механізм його згортання досі до кінця неясний. Саме тому в останні кілька десятків років дослідники намагаються знайти спосіб, за допомогою якого можна було б передбачити кінцеву тривимірну структуру білка. Це, з урахуванням всіх можливих послідовностей амінокислот і взаємодії між ними, складно на рівні обчислень: наприклад, якщо взяти послідовність зі 101 амінокислоти і 100 зв'язків між ними, у кожної з яких може бути три можливих стани, то варіантів структур у кінцевого білка буде 3100 - і знадобиться кілька тисяч років, щоб перебрати їх всі.

Трохи прискорити процес передбачення структури білка за амінокислотною послідовністю допомогли нейромережі: наприкінці 2018 року компанія DeepMind показала AlphaFold - алгоритм, який приймає на вхід послідовність амінокислот і на вихід видає відстань і кути зв'язків між ними, що дозволяє відновити структуру. Тоді алгоритм за точністю і швидкістю правильних обчислень перевершив всі інші існуючі алгоритми і посів перше місце на змаганнях передбачення структури білка CASP, які проходять з 1994 року.

Зараз розробники представили другу, поліпшену версію алгоритму - AlphaFold 2. Кінцеву послідовність амінокислот у білці він розглядає у вигляді графа, де вершини - це амінокислотні залишки, а ребра - зв'язки між ними. Завдання алгоритму (в його основі - нейромережа з блоком уваги, імовірно - рекуррентне) - визначити зв'язки між амінокислотними залишками, враховуючи вже відомих схожих і еволюційно споріднених білків. Після цього з отриманих зв'язків вибудовується кінцева тривимірна структура білка.

Для розробки AlphaFold2 дослідники використовували дані про структури приблизно 170 тисяч білків, а весь процес навчання зайняв кілька тижнів, що, за словами розробників, не так багато. Точність роботи алгоритму оцінили на недавній конференції CASP: AlphaFold2 посів перше місце, набравши 92,4 зі 100 можливих балів (оцінка - відсоток правильно розташованих амінокислотних залишків у ланцюжку білка). Для порівняння, попередня версія AlphaFold на CASP два роки тому набрала трохи менше 60 балів (максимум їй вдалося набрати 87). Похибка розташування залишків у згорнутій алгоритмом структурі склала 1,6 ангстрема, що можна порівняти з експериментальними методами.

Розуміння структури білка важливе не тільки для біологічних, а й медичних досліджень: зокрема, за допомогою AlphaFold2 розробникам вдалося визначити структуру декількох білків коронавірусу SARS-CoV-2, включаючи невідому раніше структуру ORF3a і ORF8 (її структуру передбачали на CASP). Класичні методи визначення структури білка за допомогою рентгеноструктурного аналізу або ядерного магнітного резонансу, які використовуються зараз, нехай і ефективні, але потребують досить багато часу і роботи. Розробка визначальних структуру алгоритмів, на зразок AlphaFold, дозволить значно прискорити і спростити цей процес.

У березні цього року вченим вдалося визначити структуру першого позаземного білка, який входить до складу гемолітинів - органічних полімерів, виявлених у метеоритах.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND