174
правки
Изменения
→Экспрессия генов и анализ транскриптомных данных
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети (рис. 5), располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.
Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптом {{---}} совокупность всех молекул РНК<ref>[https://ru.wikipedia.org/wiki/%D0%A0%D0%B8%D0%B1%D0%BE%D0%BD%D1%83%D0%BA%D0%BB%D0%B5%D0%B8%D0%BD%D0%BE%D0%B2%D0%B0%D1%8F_%D0%BA%D0%B8%D1%81%D0%BB%D0%BE%D1%82%D0%B0 Википедия: РНК]</ref>, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК). Транскриптом включает в себя матричную РНК (РНК, с которой впоследствии транслируются белки) и некодирующую РНК, которая, в свою очередь, не используется для получения белков. Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (англ. RNA-seq) или ДНК-микрочипов (англ. DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют матричную РНК (мРНК), которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].
===Уменьшение размерности при работе с данными экспрессии генов===