174
правки
Изменения
→Предсказание формы белка
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая, в свою очередь, кодирует любой белок в организме.
Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Тем не менее, знать пространственную структура белка очень важно, поскольку от нее сильно зависят типы соединений, которые могут связаться (прореагировать) с этим белком. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать, сможет ли это соединение захватить свою мишень (вирус, бактериябактерию, белок), не дав ей закрепиться в организме пациента.
Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref>, что решили проблему пространственной структуры белка. Краткое графическое представление архитектуры AlphaFold2 можно увидеть на рисунке 9. Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10<sup>-10</sup>м).