Викиконспекты - Вклад участника [ru]

Машинное обучение в медицине

2021-01-09T15:51:08Z

188.170.82.221:

Машинное обучение в медицине используют очень активно, находя все больше областей для его применения. Сейчас в медицине используют почти [[Общие понятия#Классификация задач машинного обучения|все виды машинного обучения]]: обучение с учителем, без учителя, с частичным привлечением учителя, с подкреплением. Наиболее активно машинное обучение в медицине используют для решения проблем по диагностике заболеваний и дизайну лекарств. Эти задачи относят к обучению с учителем или с частичным привлечением учителя. Кроме того, машинное обучение стали применять в персонализированной медицине и генерации данных различных исследований для анонимизации данных пациентов. В этих задачах сейчас все больше применяют обучение с подкреплением и обучение без учителя, в частности, [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Машинное обучение в медицине начали изучать еще в 2000-ых и оно продолжает активно развиваться и в наши дни.

==Диагностика заболеваний по результатам рентгенологических и УЗИ исследований==

===Диагностика по изображению===
[[Файл:Brain tumor mri cnn.jpg|thumb|left|200px|Рисунок 1. Классификация результатов МРТ по наличию опухоли<ref>[https://biomedpharmajournal.org/vol11no3/brain-tumor-classification-using-convolutional-neural-networks/ Seetha J, Raja S. S. Brain Tumor Classification Using Convolutional Neural Networks. Biomed Pharmacol J 2018;11(3).]</ref>.]]
[[Файл:Covid cnn recognition.png|thumb|400px|Рисунок 2. Пример вероятностной классификации КТ грудной клетки<ref>[https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf CoroNet: A deep neural network for detection and diagnosis of COVID-19 from chest x-ray images, 2020]</ref>.]]
В диагностике заболеваний есть большое количество задач, которые можно решить при помощи машинного обучения, а в частности, при помощи анализа результатов различных исследований, таких как рентген, УЗИ или МРТ. В основном задача любой модели сводится к предсказанию, болен ли человек сейчас (классификация (рис. 1), иногда {{---}} вероятностная классификация (рис. 2)).

Для решения таких задач чаще всего используют [[глубокое обучение]]. Такие модели на вход получают картинку с рентгенологическим или ультразвуковым исследованием пациента и по ним предсказывают наличие болезни. Обычно внутри таких моделей-классификаторов лежат [[сверточные нейронные сети]], а иногда к ним добавляются [[механизм внимания]]. За основу берутся state-of-the-art модели в области сверточных нейронных сетей, такие как GoogleLeNet<ref>[https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/43022.pdf Szegedy et al., Going Deeper with Convolutions, 2015. GoogLeNet.]</ref>, при этом точность предсказаний превышает 90%. Такие модели учатся на размеченных тренировочных наборах данных, поэтому их можно отнести к обучению с учителем. Большое распространение такие классификаторы получили в предсказании злокачественности новообразований, классификации заболеваний легких, подборе дозы контраста при проведении МРТ.

===Применения===
[[Файл:Spine x ray cnn.png|thumb|Рисунок 3. Пример локализации шейного отдела позвоночника на рентгене<ref>[https://lhncbc.nlm.nih.gov/system/files/pub9781.pdf Zhiyun Xue et al., Gender Detection from Spine X-ray Images Using Deep Learning, 2018]</ref>.]]
Многие модели учатся не только определять, есть ли опухоль на данном образце, но и локализировать ее (рис. 3). Таким образом, необходимо решить задачу сегментации изображения, то есть выделения каких-то ее наиболее важных частей. Технически задача не сильно отличается от предыдущей и решается все теми же сверточными нейронными сетями.

Поскольку точность предсказаний у описанных выше моделей достаточно высока, их стали применять на практике. Сейчас ведутся исследования по внедрению таких моделей в УЗИ-аппараты для того, чтобы быстрее и точнее определять местоположение и злокачественность опухоли. Кроме того, такие модели стали применять в направленной лучевой терапии, когда злокачественная опухоль облучается различными видами частиц. Известно, что эти частицы уничтожают не только раковые, но и здоровые клетки. Именно поэтому активно внедряются модели, которые могут подсказать аппарату точное направление облучения. Также сверточные сети стали использовать для определения дозы контрастного вещества при МРТ<ref>[https://www.sciencedirect.com/science/article/pii/S0939388918301181 Lundervold et al., An overview of deep learning in medical imaging focusing on MRI, 2019]</ref>.

===Генерация результатов исследований===
[[Файл:3d mri models comparison.png|450px|thumb|Рисунок 4. Сравнение различных моделей для генерации 3D изображений МРТ исследований<ref>[https://arxiv.org/pdf/1908.02498.pdf Generation of 3D Brain MRI Using Auto-Encoding Generative Adversarial Networks]</ref>.]]

Для обучения сверточных нейронных сетей необходимо большое количество данных, которые очень часто достаточно тяжело или даже невозможно получить из-за запрета на использование данных исследований даже в анонимном формате без согласия пациента. Поэтому сейчас для получения достаточно больших датасетов стали применять [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

Задачу таких GAN можно разделить на две: генерация результатов исследований здоровых пациентов и пациентов с патологиями. В случае второй задачи важно, чтобы сгенерированные изображения правильно определялись именно по типу патологии.

Основная проблема, с которой сталкиваются такие модели {{---}} необходимость очень точно определять границы объекта на сгенерированном изображении, а также не допускать размытости. Эти две проблемы долгое время не получалось решить без большого количества реальных данных, вследствие чего не было возможным применение сгенерированных изображений на практике.

Сильно улучшить поведение моделей удалось путем использования [[Generative Adversarial Nets (GAN)#Ошибка Вассерштейна|метрики Васерштейна]][на 09.01.21 не создан]. Интуитивно, если каждая мера измеряет распределение «грунта» по метрическому пространству, то расстояние Васерштейна измеряет минимальную стоимость преобразования одного распределения грунта в другое, при этом предполагается, что стоимость прямо пропорциональна количеству грунта и расстоянию, на которое его надо перетащить. Использование такой метрики в GAN помогло сильно улучшить поведение моделей при генерации данных МРТ исследований. На рисунке 4 в четвертой строке показаны изображения, сгенерированные при помощи сети, использующей метрику Васерштейна.

==Персонализированная медицина==
Персонализированная медицина (англ. personalized medicine) {{---}} новая организационная модель построения медицинской помощи пациентам, которая основывается на подборе индивидуальных лечебных, диагностических и превентивных средств, оптимально подходящих по биохимическим, физиологическим и генетическим особенностям организма.

Основная цель нового направления в медицине заключается в персонализации и оптимизации профилактических мероприятий и лечения пациентов для исключения негативных последствий и осложнений, проявляющихся из-за индивидуальных особенностей.
Основные отрасли медицины, где применяются новые принципы — онкология, фармация и фармакогеномика. Последняя занимается изучением реакций организма на медицинские препараты в зависимости от индивидуальных наследственных факторов.

===Экспрессия генов и анализ транскриптомных данных===
[[Файл:Gene expression based cnn.jpg|400px|thumb|Рисунок 5. Примеры архитектур сверточных сетей, предсказывающих вероятность рака по экспрессии генов<ref>[https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2 Convolutional neural network models for cancer type prediction based on gene expression]</ref>.]]
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети (рис. 5), располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.

Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптом {{---}} совокупность всех молекул РНК<ref>[https://ru.wikipedia.org/wiki/%D0%A0%D0%B8%D0%B1%D0%BE%D0%BD%D1%83%D0%BA%D0%BB%D0%B5%D0%B8%D0%BD%D0%BE%D0%B2%D0%B0%D1%8F_%D0%BA%D0%B8%D1%81%D0%BB%D0%BE%D1%82%D0%B0 Википедия: РНК]</ref>, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК). Транскриптом включает в себя матричную РНК (мРНК) {{---}} РНК, с которой впоследствии транслируются белки, и некодирующую РНК, которая, в свою очередь, не используется для получения белков. Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (англ. RNA-seq) или ДНК-микрочипов (англ. DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют мРНК, которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].

===Уменьшение размерности при работе с данными экспрессии генов===
[[Файл:Melif scheme.png|400px|thumb|Рисунок 6. Описание алгоритма MeLiF<ref>[http://fppo.ifmo.ru/?page1=16&page2=86&number_file=E63E46A38DD44C84B7B9446996EB225F Сметанников Иван Борисович, Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных]</ref>.]]
Для уменьшения размерности в случае биологических данных применяются методы, основным критерием которых становится их скорость. Поскольку количество генов очень велико, чаще всего нет возможности опробовать [[Уменьшение размерности#Встроенные методы | встроенные]] и [[Уменьшение размерности#Оберточные методы | оберточные]] методы. Чаще всего, используют [[Уменьшение размерности#Фильтры | фильтры]].

Одним из примеров моделей, основанных на фильтрах является модель MeLiF<ref>[https://www.researchgate.net/publication/317201206_MeLiF_Filter_Ensemble_Learning_Algorithm_for_Gene_Selection| Smetannikov et al., MeLiF: Filter Ensemble Learning Algorithm for Gene Selection]</ref> (рис. 6), которая берет несколько фильтров <tex>M_i</tex> с соответствующими функциями измерения релевантности признака <tex>\mu_i</tex>, после чего строит новую меру значимости как <tex>\mu=\sum_{i=1}^{|M|} \alpha_{i} \mu_{i}</tex>, где <tex>\left\{\alpha_{i}\right\}_{i=1}^{|M|}</tex> {{---}} набор вещественных коэффициентов. После получения новой меры значимости происходит оценка модели на <tex>t</tex> лучших выбранных признаках. В случае удовлетворительного результата алгоритм завершается, возвращая текущий набор признаков, иначе {{---}} возвращается снова к получению новой меры на <tex>t+1</tex> признаках.

===Медицинская карта===
Другая задача {{---}} предсказать, заболеет ли человек в будущем. Для этого часто используется электронная медицинская карта пациента, и на вход сети подаются данные о пациенте, результаты исследований, его генеалогическое древо и другая медицинская информация. Основываясь на полученных данных, модель должна предсказать вероятность того, что человек может заболеть каждой болезнью из приведенного набора. Если вероятность хотя бы по одному из маркеров превышает некоторое значение {{---}} такая модель рекомендует пациенту обратиться к специалисту и относит его в группу высокого риска по этому параметру. В свою очередь специалист может подтвердить или же опровергнуть опасения модели, отдавая ей результат {{---}} права модель или нет. Таким образом, эта проблема относится к классу задач [[Обучение с подкреплением|обучения с подкреплением]]. С точки зрения архитектуры моделей {{---}} в таких задачах часто используют [[метод опорных векторов (SVM)]] или [[глубокое обучение]].

==Поиск лекарств==
Поиск лекарств (англ. drug discovery, drug design) {{---}} процесс поиска новых лекарственных средств, часто основанный на знаниях о биологической мишени (целевом белке, с которым должно взаимодействовать лекарственное вещество).
При поиске новых лекарственных средств часто прибегают к помощи машинного обучения в таких задачах, как предсказание молекулярных свойств потенциальной молекулы лекарства, формы какого-либо белка, активности взаимодействия между веществами.
===Предсказание молекулярных свойств===
[[Файл:MoleculeGNN.PNG|400px|thumb|Рисунок 7. Молекулярный граф]]
[[Файл:Morgan fingerprint.jpg|400px|thumb|Рисунок 8. Пример Morgan Fingerprint для молекулы<ref>[https://www.sciencedirect.com/science/article/abs/pii/S1046202314002631 Adrià Cereto-Massagué et al., Molecular fingerprint similarity search in virtual screening, 2015]</ref>.]]
Одна из главных задач машинного обучения при поиске новых лекарств {{---}} сужение круга их поиска. Чаще всего фармацевтические компании имеют на руках библиотеки с огромным количеством веществ, которые они потенциально могут синтезировать и опробовать в качестве лекарства. Но обычно размеры этих библиотек составляют тысячи молекул, поэтому синтезировать и проверить каждую из них не представляется возможным. В этом случае прибегают к предсказанию некоторых свойств этих молекул, которые точно определяют, может ли молекула быть использована как лекарство. Для предсказания свойств молекул обычно используют молекулярный граф {{---}} графическое представление молекулы (ее атомов и связей). Пример молекулярного графа можно увидеть на рисунке 7.

Первые нейронные сети для предсказания молекулярных свойств использовали Моргановские фингерпринты (англ. Morgan fingerpints), которые для каждого атома в молекуле выделяли всех его соседей на каком-то определенном расстоянии (которое является [[Настройка гиперпараметров#Гиперпараметры|гиперпараметром]]) и смотрели на наличие такой подструктуры в молекуле (рис. 8). Получался аналог некоторого оne-hot кодирования. Впоследствии этот метод был несколько усовершенствован, и стали смотреть не на наличие подструктуры, а на то, сколько раз она встречается в молекуле. Прорыв в этой области случился с появлением сети NeuralFingerprints <ref>[https://arxiv.org/abs/1509.09292 Duvenaud et al., Convolutional Networks on Graphs for Learning Molecular Fingerprints, 2015]</ref>, которая является примером одной из первых попыток применения [[графовые нейронные сети|графовых нейронных сетей]] в этой области.

NeuralFingerprints принимает один гиперпараметр {{---}} максимальное расстояние, которое нужно учитывать при просмотре соседей каждого атома. После этого для каждого расстояния для каждого атома суммируются атомные представления его соседей на текущем расстоянии. Таким образом, получается векторное представление текущего атома фиксированной длины, которая равна количеству свойств у одного атома. Каждый элемент такого представления умножается на обучаемый параметр, уникальный для номера свойства и текущего рассматриваемого расстояния. После этого применяется функция активации к полученному ранее вектору, умноженному на вес, отвечающий за текущее расстояние. Полученные результаты для каждого из атомов на каждом из расстояний суммируются и получается результирующий вектор свойств для молекулы. Таким образом, в этой сети обучаемые параметры {{---}} веса для каждого из свойств атомов на каждом расстоянии (<tex>H^i_j</tex>, где <tex>i</tex> {{---}} индекс номера свойства (в модели их всего 5), <tex>j</tex> {{---}} индекс для текущего расстояния) и веса для каждого из расстояний (<tex>W_j</tex>, где <tex>j</tex> {{---}} индекс для текущего расстояния). Псевдокод представлен ниже.
'''function''' neuralFingerptint(molecule, R, H, W): # R - максимальное расстояние, H - матрица весов размера len(molecule)<tex>\cdot</tex>R, W - вектор весов размера R
f = array[len(molecule), 0]
'''for''' a in molecule:
r[a] = g(a) # записываем свойства для каждого атома
'''for''' L = 1 to R:
'''for''' a in molecule:
neighbors = '''neighbors'''(a) # смотрим соседей на расстоянии L от текущего атома a
v = r[a] + '''sum'''(r[i] for i in neighbors) # суммируем вектора соседей и вектор текущего атома
r[a] = '''σ'''(v <tex>\cdot</tex> H[a][L]) # изменяем представление текущего атома
i = '''softmax'''(r[a] <tex>\cdot</tex> W[L]) # получаем вектор для текущего атома и расстояния
f = f + i # добавляем его к ответу
'''return''' f

Эта сеть была одной из первых в этой области, и сейчас используется как базовый метод в множестве статей. В основу новых методов и сейчас чаще всего ложатся [[графовые нейронные сети]]. Подходы графовых нейронных сетей адаптируют под молекулярный граф путем поиска элементов на расстоянии не более, чем N (где N является гиперпараметром), или последовательным рассмотрением каждой вершины и усреднением полученных значений.

===Предсказание формы белка===
[[Файл:AlphaFold 2 block design.png|400px|thumb|Рисунок 9. Архитектура AlphaFold2, модели для предсказания пространственной структуры белка<ref>[https://en.wikipedia.org/wiki/AlphaFold Wikipedia: AlphaFold]</ref>.]]
Секвенирование {{---}} процесс получения нуклеотидной последовательности из молекулы ДНК. <ref>[https://en.wikipedia.org/wiki/Sequencing Википедия: Секвенирование]</ref>
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая, в свою очередь, кодирует любой белок в организме.

Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Тем не менее, знать пространственную структура белка очень важно, поскольку от нее сильно зависят типы соединений, которые могут связаться (прореагировать) с этим белком. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать, сможет ли это соединение захватить мишень (вирус, бактерию, белок).

Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref>, что решили проблему пространственной структуры белка. Краткое графическое представление архитектуры AlphaFold2 можно увидеть на рисунке 9. Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10-10м).

===Генерация молекулярных структур===
[[Файл:Ranc scheme.png|thumb|Рисунок 10. Пример генеративной состязательной сети для лекарственных молекул. Сеть RANC (Reinforced Adversarial Neural Computer) <ref>[https://pubs.acs.org/doi/10.1021/acs.jcim.7b00690 Evgeny Putin et al., Reinforced Adversarial Neural Computer for de Novo Molecular Design, 2018]</ref>.]]
Еще одна задача, которая есть сейчас в мире машинного обучения {{---}} генерировать новые молекулы, которые могут потенциально быть лекарствами. Для этого используют [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Пример генеративной состязательной сети, решающей задачу генерации молекул можно увидеть на рисунке 10. Основное преимущество такого подхода заключается в том, что при работе с библиотеками уже синтезированных лекарств есть вероятность "пропустить" важное соединение просто потому, что в этой библиотеке его не было. Поэтому используется абсолютно другой подход {{---}} предлагается наоборот генерировать различные молекулы, а уже потом проверять, действительно ли их можно использовать как лекарство и насколько сложно их синтезировать. Часто эти свойства вносят в метрику качества генератора.

SMILES {{---}} способ однозначного задания молекулы при помощи строки. Таким образом, задача генератора {{---}} сгенерировать такую строку SMILES для молекулы, чтобы дискриминатор не отличил ее от настоящей. Архитектура дискриминатора чаще всего остается очень похожей на архитектуру обычной сети, предсказывающей молекулярные свойства. Таким образом, в качестве дискриминатора часто используются графовые или сверточные нейронные сети. Для генератора же часто используют механизм памяти, чтобы сеть помнила, какие части уже были сгенерированы и отталкивалась от них.

==См. также==
* [[Нейронные сети, перцептрон]]
* [[Глубокое обучение]]
* [[Графовые нейронные сети]]
* [[Компьютерное зрение]]
* [[Обучение с подкреплением]]

==Примечания==
* [https://en.wikipedia.org/wiki/Protein_structure_prediction#:~:text=Protein%20structure%20prediction%20is%20the,inverse%20problem%20of%20protein%20design. Protein structure prediction]
* [https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D0%B0 Википедия: Персонализированная медицина]
* [https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/ 7 Applications of Machine Learning in Pharma and Medicine]
* [https://www.nature.com/articles/s41563-019-0360-1 Ascent of machine learning in medicine]
* [http://jtelemed.ru/article/glubokoe-mashinnoe-obuchenie-iskusstvennyj-intellekt-v-ultrazvukovoj-diagnostike Глубокое машинное обучение (искусственный интеллект) в ультразвуковой диагностике]
* [https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0_%D0%92%D0%B0%D1%81%D0%B5%D1%80%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0 Википедия: Метрика Васерштейна]

==Источники информации==

[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
[[Категория: Практические применения машинного обучения]]

Машинное обучение в медицине

2021-01-09T13:57:18Z

188.170.82.221: /* Диагностика заболеваний по результатам рентгенологических и УЗИ исследований */

Машинное обучение в медицине используют очень активно, находя все больше областей для его применения. Сейчас в медицине использут почти [[Общие понятия|все виды машинного обучения]]: обучение с учителем, без учителя, с частичным привлечением учителя, с подкреплением. Наиболее активно машинное обучение в медицине используют для решения проблем по диагностике заболеваний и дизайну лекарств. Эти задачи относят к обучению с учителем или [[Обучение с частичным привлечением учителя|с частичным привлечением учителя]]. Кроме того, машинное обучение стали применять в персонализированной медицине и генерации данных различных исследований для анонимизации данных пациентов. В этих задачах сейчас все больше применяют [[Обучение с подкреплением|обучение с подкреплением]] и обучение без учителя, в частности, [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Машинное обучение в медицине начали изучать еще в 2000-ых и оно продолжает активно развиваться и в наши дни.

==Диагностика заболеваний по результатам рентгенологических и УЗИ исследований==
[[Файл:Covid cnn recognition.png|thumb|Рисунок 1. Пример вероятностной классификации КТ грудной клетки. <ref>[https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf CoroNet: A deep neural network for detection and diagnosis of COVID-19 from chest x-ray images, 2020]</ref>]]
[[Файл:Spine x ray cnn.png|thumb|Рисунок 2. Пример локализации шейного отдела позвоночника на рентгене.<ref>[https://lhncbc.nlm.nih.gov/system/files/pub9781.pdf Zhiyun Xue et al., Gender Detection from Spine X-ray Images Using Deep Learning, 2018]</ref>]]
===Диагностика по изображению===
[[Файл:Brain tumor mri cnn.jpg|thumb|left|200px|Рисунок 3. Пример классификации результатов МРТ на изображения с опухолью и без опухоли. <ref>[https://biomedpharmajournal.org/vol11no3/brain-tumor-classification-using-convolutional-neural-networks/ Seetha J, Raja S. S. Brain Tumor Classification Using Convolutional Neural Networks. Biomed Pharmacol J 2018;11(3).]</ref>]]
В диагностике заболеваний есть большое количество задач, которые можно решить при помощи машинного обучения, а в частности, при помощи анализа результатов различных исследований, таких как рентген, УЗИ или МРТ. В основном задача любой модели сводится к предсказанию, болен ли человек сейчас (иногда обычная мультиклассовая классификация, иногда {{---}} вероятностная классификация).

Для решения таких задач чаще всего используют [[глубокое обучение]]. Такие модели на вход получают картинку с рентгенологическим или ультразвуковым исследованием пациента и по ним предсказывают наличие болезни. Обычно внутри таких моделей-классификаторов лежат [[сверточные нейронные сети]], а иногда к ним добавляются [[механизм внимания]]. За основу берутся state-of-the-art модели в области сверточных нейронных сетей, такие как GoogleLeNet<ref>[https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/43022.pdf Szegedy et al., Going Deeper with Convolutions, 2015. GoogLeNet.]</ref>, при этом точность предсказаний превышает 90%. Такие модели учатся на размеченных тренировочных наборах данных, поэтому их можно отнести к обучению с учителем. Большое распространение такие классификаторы получили в предсказании злокачественности новообразований, классификации заболеваний легких, подборе дозы контраста при проведении МРТ.

Кроме того, есть и другое применение. Многие модели учатся не только определять, есть ли опухоль на данном образце, но и локализировать ее положение. Таким образом, необходимо решить задачу сегментации изображения, то есть выделения каких-то ее наиболее важных частей. Технически задача не сильно отличается от предыдущей и решается все теми же сверточными нейронными сетями.

===Применения===
Поскольку точность предсказаний у описанных выше моделей достаточно высока, их стали применять на практике. Сейчас ведутся исследования по внедрению таких моделей в УЗИ-аппараты для того, чтобы быстрее и точнее определять местоположение и злокачественность опухоли. Кроме того, такие модели стали применять в направленной лучевой терапии, когда злокачественная опухоль облучается различными видами частиц. Известно, что эти частицы уничтожают не только раковые, но и здоровые клетки. Именно поэтому активно внедряются модели, которые могут подсказать аппарату точное направление облучения. Также сверточные сети стали использовать для определения дозы контрастного вещества при МРТ<ref>[https://www.sciencedirect.com/science/article/pii/S0939388918301181 Lundervold et al., An overview of deep learning in medical imaging focusing on MRI, 2019]</ref>.

===Генерация результатов исследований===
[[Файл:3d mri models comparison.png|450px|thumb|Рисунок 4. Сравнение различных моделей для генерации 3D изображений МРТ исследований<ref>[https://arxiv.org/pdf/1908.02498.pdf Generation of 3D Brain MRI Using Auto-Encoding Generative Adversarial Networks]</ref>.]]

Для обучения сверточных нейронных сетей необходимо большое количество данных, которые очень часто достаточно тяжело или даже невозможно получить из-за запрета на использование данных исследований даже в анонимном формате без согласия пациента. Поэтому сейчас для получения достаточно больших датасетов стали применять [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

Задачу таких GAN можно разделить на две: генерация результатов исследований здоровых пациентов и пациентов с патологиями. В случае второй задачи важно, чтобы сгенерированные изображения правильно определялись именно по типу патологии.

Основная проблема, с которой сталкиваются такие модели {{---}} необходимость очень точно определять границы объекта на сгенерированном изображении, а также не допускать размытости. Эти две проблемы долгое время не получалось решить без большого количества реальных данных, вследствие чего не было возможным применение сгенерированных изображений на практике.

Сильно улучшить поведение моделей удалось путем использования метрики Васерштейна<ref>[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0_%D0%92%D0%B0%D1%81%D0%B5%D1%80%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0 Википедия:Метрика Васерштейна]</ref>. Интуитивно, если каждая мера измеряет распределение «грунта» по метрическому пространству, то расстояние Васерштейна измеряет минимальную стоимость преобразования одного распределения грунта в другое, при этом предполагается, что стоимость прямо пропорциональна количеству грунта и расстоянию, на которое его надо перетащить. Использование такой метрики в GAN помогло сильно улучшить поведение моделей при генерации данных МРТ исследований.

==Персонализированная медицина==
Персонализированная медицина (англ. personalized medicine) {{---}} новая организационная модель построения медицинской помощи пациентам, которая основывается на подборе индивидуальных лечебных, диагностических и превентивных средств, оптимально подходящих по биохимическим, физиологическим и генетическим особенностям организма.

Основная цель нового направления в медицине заключается в персонализации и оптимизации профилактических мероприятий и лечения пациентов для исключения негативных последствий и осложнений, проявляющихся из-за индивидуальных особенностей.
Основные отрасли медицины, где применяются новые принципы — онкология, фармация и фармакогеномика. Последняя занимается изучением реакций организма на медицинские препараты в зависимости от индивидуальных наследственных факторов.

===Экспрессия генов и анализ транскриптомных данных===
[[Файл:Gene expression based cnn.jpg|400px|thumb|Рисунок 5. Примеры архитектур сверточных сетей, предсказывающих вероятность рака по экспрессии генов. <ref>[https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2 Convolutional neural network models for cancer type prediction based on gene expression]</ref>]]
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети, располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.

Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптом {{---}} совокупность всех молекул РНК, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК). Транскриптом включает в себя матричную РНК (РНК, с которой впоследствии транслируются белки) и некодирующую РНК, которая, в свою очередь, не используется для получения белков. Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (англ. RNA-seq) или ДНК-микрочипов (англ. DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют матричную РНК (мРНК), которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].

===Уменьшение размерности при работе с данными экспрессии генов===
[[Файл:Melif scheme.png|400px|thumb|Рисунок 6. Описание алгоритма MeLiF.<ref>[http://fppo.ifmo.ru/?page1=16&page2=86&number_file=E63E46A38DD44C84B7B9446996EB225F Сметанников Иван Борисович, Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных]</ref>]]
Для уменьшения размерности в случае биологических данных применяются методы, основным критерием которых становится их скорость. Поскольку количество генов очень велико, чаще всего нет возможности опробовать [[Уменьшение размерности|встраиваемые и оберточные методы]]. Чаще всего, используют фильтры.

Одним из примеров моделей, основанных на фильтрах является модель MeLiF<ref>[https://www.researchgate.net/publication/317201206_MeLiF_Filter_Ensemble_Learning_Algorithm_for_Gene_Selection| Smetannikov et al., MeLiF: Filter Ensemble Learning Algorithm for Gene Selection]</ref>, которая берет несколько фильтров <tex>M_i</tex> с соответствующими функциями измерения релевантности признака <tex>\mu_i</tex>, после чего строит новую меру значимости как <tex>\mu=\sum_{i=1}^{|M|} \alpha_{i} \mu_{i}</tex>, где <tex>\left\{\alpha_{i}\right\}_{i=1}^{|M|}</tex> {{---}} набор вещественных коэффициентов. После получения новой меры значимости происходит оценка модели на <tex>t</tex> лучших выбранных признаках. В случае удовлетворительного результата алгоритм завершается, возвращая текущий набор признаков, иначе {{---}} возвращается снова к получению новой меры на <tex>t+1</tex> признаках.

===Медицинская карта===
Другая задача {{---}} предсказать, заболеет ли человек в будущем. Для этого часто используется электронная медицинская карта пациента, и на вход сети подаются данные о пациенте, результаты исследований, его генеалогическое древо и другая медицинская информация. Основываясь на полученных данных, модель должна предсказать вероятность того, что человек может заболеть каждой болезнью из приведенного набора. Если вероятность хотя бы по одному из маркеров превышает некоторое значение {{---}} такая модель рекомендует пациенту обратиться к специалисту и относит его в группу высокого риска по этому параметру. В свою очередь специалист может подтвердить или же опровергнуть опасения модели, отдавая ей результат {{---}} права модель или нет. Таким образом, эта проблема относится к классу задач [[Обучение с подкреплением|обучения с подкреплением]]. С точки зрения архитектуры моделей {{---}} в таких задачах часто используют [[метод опорных векторов (SVM)]] или [[глубокое обучение]].

==Поиск лекарств==
Поиск лекарств (англ. drug discovery, drug design) {{---}} процесс поиска новых лекарственных средств, часто основанный на знаниях о биологической мишени (целевом белке, с которым должно взаимодействовать лекарственное вещество).
При поиске новых лекарственных средств часто прибегают к помощи машинного обучения в таких задачах, как предсказание молекулярных свойств потенциальной молекулы лекарства, формы какого-либо белка, активности взаимодействия между веществами.
===Предсказание молекулярных свойств===
[[Файл:MoleculeGNN.PNG|400px|thumb|Рисунок 7. Молекулярный граф]]
[[Файл:Morgan fingerprint.jpg|400px|thumb|Рисунок 8. Пример Morgan Fingerprint для молекулы<ref>[https://www.sciencedirect.com/science/article/abs/pii/S1046202314002631 Adrià Cereto-Massagué et al., Molecular fingerprint similarity search in virtual screening, 2015]</ref>.]]
Одна из главных задач машинного обучения при поиске новых лекарств {{---}} сужение круга их поиска. Чаще всего фармацевтические компании имеют на руках библиотеки с огромным количеством веществ, которые они потенциально могут синтезировать и опробовать в качестве лекарства. Но обычно размеры этих библиотек составляют тысячи молекул, поэтому синтезировать и проверить каждую из них не представляется возможным. В этом случае прибегают к предсказанию некоторых свойств этих молекул, которые точно определяют, может ли молекула быть использована как лекарство. Для предсказания свойств молекул обычно используют молекулярный граф {{---}} графическое представление молекулы (ее атомов и связей).

Первые нейронные сети для предсказания молекулярных свойств использовали Моргановские фингерпринты (англ. Morgan fingerpints), которые для каждого атома в молекуле выделяли всех его соседей на каком-то определенном расстоянии (которое является [[Настройка гиперпараметров|гиперпараметром]]) и смотрели на наличие такой подструктуры в молекуле. Получался аналог некоторого оne-hot кодирования. Впоследствии этот метод был несколько усовершенствован, и стали смотреть не на наличие подструктуры, а на то, сколько раз она встречается в молекуле. Прорыв в этой области случился с появлением сети NeuralFingerprints <ref>[https://arxiv.org/abs/1509.09292 Duvenaud et al., Convolutional Networks on Graphs for Learning Molecular Fingerprints, 2015]</ref>, которая является примером одной из первых попыток применения [[графовые нейронные сети|графовых нейронных сетей]] в этой области.

NeuralFingerprints принимает один [[Настройка гиперпараметров|гиперпараметр]] {{---}} максимальное расстояние, которое нужно учитывать при просмотре соседей каждого атома. После этого для каждого расстояния для каждого атома суммируются атомные представления его соседей на текущем расстоянии. Таким образом, получается векторное представление текущего атома фиксированной длины, которая равна количеству свойств у одного атома. Каждый элемент такого представления умножается на обучаемый параметр, уникальный для номера свойства и текущего рассматриваемого расстояния. После этого применяется функция активации к полученному ранее вектору, умноженному на вес, отвечающий за текущее расстояние. Полученные результаты для каждого из атомов на каждом из расстояний суммируются и получается результирующий вектор свойств для молекулы. Таким образом, в этой сети обучаемые параметры {{---}} веса для каждого из свойств атомов на каждом расстоянии (<tex>H^i_j</tex>, где <tex>i</tex> {{---}} индекс номера свойства (в модели их всего 5), <tex>j</tex> {{---}} индекс для текущего расстояния) и веса для каждого из расстояний (<tex>W_j</tex>, где <tex>j</tex> {{---}} индекс для текущего расстояния). Псевдокод представлен ниже.
'''function''' neuralFingerptint(molecule, R, H, W): # R - максимальное расстояние, H - матрица весов размера len(molecule)<tex>\cdot</tex>R, W - вектор весов размера R
f = array[len(molecule), 0]
'''for''' a in molecule:
r[a] = g(a) # записываем свойства для каждого атома
'''for''' L = 1 to R:
'''for''' a in molecule:
neighbors = '''neighbors'''(a) # смотрим соседей на расстоянии L от текущего атома a
v = r[a] + '''sum'''(r[i] for i in neighbors) # суммируем вектора соседей и вектор текущего атома
r[a] = '''σ'''(v <tex>\cdot</tex>H[a][L]) # изменяем представление текущего атома
i = '''softmax'''(r[a]<tex>\cdot</tex>W[L]) # получаем вектор для текущего атома и расстояния
f = f + i # добавляем его к ответу
'''return''' f

Эта сеть была одной из первых в этой области, и сейчас используется как базовый метод в множестве статей. В основу новых методов и сейчас чаще всего ложатся [[графовые нейронные сети]]. Подходы графовых нейронных сетей адаптируют под молекулярный граф путем поиска элементов на расстоянии не более, чем N (где N является [[Настройка гиперпараметров|гиперпараметром]]), или последовательным рассмотрением каждой вершины и усреднением полученных значений.

===Предсказание формы белка===
[[Файл:AlphaFold 2 block design.png|400px|thumb|Рисунок 9. Архитектура AlphaFold2, модели для предсказания пространственной структуры белка<ref>[https://en.wikipedia.org/wiki/AlphaFold Wikipedia: AlphaFold]</ref>.]]
Секвенирование {{---}} процесс получения нуклеотидной последовательности из молекулы ДНК. <ref>[https://en.wikipedia.org/wiki/Sequencing Википедия: Секвенирование]</ref>
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая в свою очередь кодирует любой белок в организме.

Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Пространственная же структура белка важна для генерации мишеней, поэтому задача предсказания структуры является очень важной. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать, сможет ли это соединение захватить свою мишень, не дав ей закрепиться в организме пациента.

Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref>, что решили проблему пространственной структуры белка. Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10-10м).

===Генерация молекулярных структур===
[[Файл:Ranc scheme.png|thumb|Рисунок 10. Пример генеративной состязательной сети для лекарственных молекул. Сеть RANC (Reinforced Adversarial Neural Computer) <ref>[https://pubs.acs.org/doi/10.1021/acs.jcim.7b00690 Evgeny Putin et al., Reinforced Adversarial Neural Computer for de Novo Molecular Design, 2018]</ref>.]]
Еще одна задача, которая есть сейчас в мире машинного обучения {{---}} генерировать новые молекулы, которые могут потенциально быть лекарствами. Для этого используют [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Основное преимущество такого подхода заключается в том, что при работе с библиотеками уже синтезированных лекарств есть вероятность "пропустить" важное соединение просто потому, что в этой библиотеке его не было. Поэтому используется абсолютно другой подход {{---}} предлагается наоборот генерировать различные молекулы, а уже потом проверять, действительно ли их можно использовать как лекарство и насколько сложно их синтезировать. Часто эти свойства вносят в метрику качества генератора.

SMILES {{---}} способ однозначного задания молекулы при помощи строки. Таким образом, задача генератора {{---}} сгенерировать такую строку SMILES для молекулы, чтобы дискриминатор не отличил ее от настоящей. Архитектура дискриминатора чаще всего остается очень похожей на архитектуру обычной сети, предсказывающей молекулярные свойства. Таким образом, в качестве дискриминатора часто используются графовые или сверточные нейронные сети. Для генератора же часто используют механизм памяти, чтобы сеть помнила, какие части уже были сгенерированы и отталкивалась от них.

==См. также==
* [[Нейронные сети, перцептрон]]
* [[Глубокое обучение]]
* [[Графовые нейронные сети]]
* [[Компьютерное зрение]]
* [[Обучение с подкреплением]]

==Примечания==
* [https://en.wikipedia.org/wiki/Protein_structure_prediction#:~:text=Protein%20structure%20prediction%20is%20the,inverse%20problem%20of%20protein%20design. Protein structure prediction]
* [https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D0%B0 Википедия: Персонализированная медицина]
* [https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/ 7 Applications of Machine Learning in Pharma and Medicine]
* [https://www.nature.com/articles/s41563-019-0360-1 Ascent of machine learning in medicine]
* [http://jtelemed.ru/article/glubokoe-mashinnoe-obuchenie-iskusstvennyj-intellekt-v-ultrazvukovoj-diagnostike Глубокое машинное обучение (искусственный интеллект) в ультразвуковой диагностике]

==Источники информации==

[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
[[Категория: Практические применения машинного обучения]]

Машинное обучение в медицине

2021-01-09T13:52:31Z

188.170.82.221: /* Уменьшение размерности при работе с данными экспрессии генов */

Машинное обучение в медицине используют очень активно, находя все больше областей для его применения. Сейчас в медицине использут почти [[Общие понятия|все виды машинного обучения]]: обучение с учителем, без учителя, с частичным привлечением учителя, с подкреплением. Наиболее активно машинное обучение в медицине используют для решения проблем по диагностике заболеваний и дизайну лекарств. Эти задачи относят к обучению с учителем или [[Обучение с частичным привлечением учителя|с частичным привлечением учителя]]. Кроме того, машинное обучение стали применять в персонализированной медицине и генерации данных различных исследований для анонимизации данных пациентов. В этих задачах сейчас все больше применяют [[Обучение с подкреплением|обучение с подкреплением]] и обучение без учителя, в частности, [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Машинное обучение в медицине начали изучать еще в 2000-ых и оно продолжает активно развиваться и в наши дни.

==Диагностика заболеваний по результатам рентгенологических и УЗИ исследований==
[[Файл:Covid cnn recognition.png|thumb|Рисунок 1. Пример вероятностной классификации КТ грудной клетки. <ref>[https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf CoroNet: A deep neural network for detection and diagnosis of COVID-19 from chest x-ray images, 2020]</ref>]]
[[Файл:Spine x ray cnn.png|thumb|Рисунок 2. Пример локализации шейного отдела позвоночника на рентгене. Источник: <ref>[https://lhncbc.nlm.nih.gov/system/files/pub9781.pdf Zhiyun Xue et al., Gender Detection from Spine X-ray Images Using Deep Learning, 2018]</ref>]]
===Диагностика по изображению===
[[Файл:Brain tumor mri cnn.jpg|thumb|left|200px|Рисунок 3. Пример классификации результатов МРТ на изображения с опухолью и без опухоли. <ref>[https://biomedpharmajournal.org/vol11no3/brain-tumor-classification-using-convolutional-neural-networks/ Seetha J, Raja S. S. Brain Tumor Classification Using Convolutional Neural Networks. Biomed Pharmacol J 2018;11(3).]</ref>]]
В диагностике заболеваний есть большое количество задач, которые можно решить при помощи машинного обучения, а в частности, при помощи анализа результатов различных исследований, таких как рентген, УЗИ или МРТ. В основном задача любой модели сводится к предсказанию, болен ли человек сейчас (иногда обычная мультиклассовая классификация, иногда {{---}} вероятностная классификация).

Для решения таких задач чаще всего используют [[глубокое обучение]]. Такие модели на вход получают картинку с рентгенологическим или ультразвуковым исследованием пациента и по ним предсказывают наличие болезни. Обычно внутри таких моделей-классификаторов лежат [[сверточные нейронные сети]], а иногда к ним добавляются [[механизм внимания]]. За основу берутся state-of-the-art модели в области сверточных нейронных сетей, такие как GoogleLeNet<ref>[https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/43022.pdf Szegedy et al., Going Deeper with Convolutions, 2015. GoogLeNet.]</ref>, при этом точность предсказаний превышает 90%. Такие модели учатся на размеченных тренировочных наборах данных, поэтому их можно отнести к обучению с учителем. Большое распространение такие классификаторы получили в предсказании злокачественности новообразований, классификации заболеваний легких, подборе дозы контраста при проведении МРТ.

Кроме того, есть и другое применение. Многие модели учатся не только определять, есть ли опухоль на данном образце, но и локализировать ее положение. Таким образом, необходимо решить задачу сегментации изображения, то есть выделения каких-то ее наиболее важных частей. Технически задача не сильно отличается от предыдущей и решается все теми же сверточными нейронными сетями.

===Применения===
Поскольку точность предсказаний у описанных выше моделей достаточно высока, их стали применять на практике. Сейчас ведутся исследования по внедрению таких моделей в УЗИ-аппараты для того, чтобы быстрее и точнее определять местоположение и злокачественность опухоли. Кроме того, такие модели стали применять в направленной лучевой терапии, когда злокачественная опухоль облучается различными видами частиц. Известно, что эти частицы уничтожают не только раковые, но и здоровые клетки. Именно поэтому активно внедряются модели, которые могут подсказать аппарату точное направление облучения. Также сверточные сети стали использовать для определения дозы контрастного вещества при МРТ<ref>[https://www.sciencedirect.com/science/article/pii/S0939388918301181 Lundervold et al., An overview of deep learning in medical imaging focusing on MRI, 2019]</ref>.

===Генерация результатов исследований===
[[Файл:3d mri models comparison.png|450px|thumb|Рисунок 4. Сравнение различных моделей для генерации 3D изображений МРТ исследований<ref>[https://arxiv.org/pdf/1908.02498.pdf Generation of 3D Brain MRI Using Auto-Encoding Generative Adversarial Networks]</ref>.]]

Для обучения сверточных нейронных сетей необходимо большое количество данных, которые очень часто достаточно тяжело или даже невозможно получить из-за запрета на использование данных исследований даже в анонимном формате без согласия пациента. Поэтому сейчас для получения достаточно больших датасетов стали применять [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

Задачу таких GAN можно разделить на две: генерация результатов исследований здоровых пациентов и пациентов с патологиями. В случае второй задачи важно, чтобы сгенерированные изображения правильно определялись именно по типу патологии.

Основная проблема, с которой сталкиваются такие модели {{---}} необходимость очень точно определять границы объекта на сгенерированном изображении, а также не допускать размытости. Эти две проблемы долгое время не получалось решить без большого количества реальных данных, вследствие чего не было возможным применение сгенерированных изображений на практике.

Сильно улучшить поведение моделей удалось путем использования метрики Васерштейна<ref>[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0_%D0%92%D0%B0%D1%81%D0%B5%D1%80%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0 Википедия:Метрика Васерштейна]</ref>. Интуитивно, если каждая мера измеряет распределение «грунта» по метрическому пространству, то расстояние Васерштейна измеряет минимальную стоимость преобразования одного распределения грунта в другое, при этом предполагается, что стоимость прямо пропорциональна количеству грунта и расстоянию, на которое его надо перетащить. Использование такой метрики в GAN помогло сильно улучшить поведение моделей при генерации данных МРТ исследований.

==Персонализированная медицина==
Персонализированная медицина (англ. personalized medicine) {{---}} новая организационная модель построения медицинской помощи пациентам, которая основывается на подборе индивидуальных лечебных, диагностических и превентивных средств, оптимально подходящих по биохимическим, физиологическим и генетическим особенностям организма.

Основная цель нового направления в медицине заключается в персонализации и оптимизации профилактических мероприятий и лечения пациентов для исключения негативных последствий и осложнений, проявляющихся из-за индивидуальных особенностей.
Основные отрасли медицины, где применяются новые принципы — онкология, фармация и фармакогеномика. Последняя занимается изучением реакций организма на медицинские препараты в зависимости от индивидуальных наследственных факторов.

===Экспрессия генов и анализ транскриптомных данных===
[[Файл:Gene expression based cnn.jpg|400px|thumb|Рисунок 5. Примеры архитектур сверточных сетей, предсказывающих вероятность рака по экспрессии генов. <ref>[https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2 Convolutional neural network models for cancer type prediction based on gene expression]</ref>]]
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети, располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.

Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптом {{---}} совокупность всех молекул РНК, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК). Транскриптом включает в себя матричную РНК (РНК, с которой впоследствии транслируются белки) и некодирующую РНК, которая, в свою очередь, не используется для получения белков. Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (англ. RNA-seq) или ДНК-микрочипов (англ. DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют матричную РНК (мРНК), которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].

===Уменьшение размерности при работе с данными экспрессии генов===
[[Файл:Melif scheme.png|400px|thumb|Рисунок 6. Описание алгоритма MeLiF.<ref>[http://fppo.ifmo.ru/?page1=16&page2=86&number_file=E63E46A38DD44C84B7B9446996EB225F Сметанников Иван Борисович, Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных]</ref>]]
Для уменьшения размерности в случае биологических данных применяются методы, основным критерием которых становится их скорость. Поскольку количество генов очень велико, чаще всего нет возможности опробовать [[Уменьшение размерности|встраиваемые и оберточные методы]]. Чаще всего, используют фильтры.

Одним из примеров моделей, основанных на фильтрах является модель MeLiF<ref>[https://www.researchgate.net/publication/317201206_MeLiF_Filter_Ensemble_Learning_Algorithm_for_Gene_Selection| Smetannikov et al., MeLiF: Filter Ensemble Learning Algorithm for Gene Selection]</ref>, которая берет несколько фильтров <tex>M_i</tex> с соответствующими функциями измерения релевантности признака <tex>\mu_i</tex>, после чего строит новую меру значимости как <tex>\mu=\sum_{i=1}^{|M|} \alpha_{i} \mu_{i}</tex>, где <tex>\left\{\alpha_{i}\right\}_{i=1}^{|M|}</tex> {{---}} набор вещественных коэффициентов. После получения новой меры значимости происходит оценка модели на <tex>t</tex> лучших выбранных признаках. В случае удовлетворительного результата алгоритм завершается, возвращая текущий набор признаков, иначе {{---}} возвращается снова к получению новой меры на <tex>t+1</tex> признаках.

===Медицинская карта===
Другая задача {{---}} предсказать, заболеет ли человек в будущем. Для этого часто используется электронная медицинская карта пациента, и на вход сети подаются данные о пациенте, результаты исследований, его генеалогическое древо и другая медицинская информация. Основываясь на полученных данных, модель должна предсказать вероятность того, что человек может заболеть каждой болезнью из приведенного набора. Если вероятность хотя бы по одному из маркеров превышает некоторое значение {{---}} такая модель рекомендует пациенту обратиться к специалисту и относит его в группу высокого риска по этому параметру. В свою очередь специалист может подтвердить или же опровергнуть опасения модели, отдавая ей результат {{---}} права модель или нет. Таким образом, эта проблема относится к классу задач [[Обучение с подкреплением|обучения с подкреплением]]. С точки зрения архитектуры моделей {{---}} в таких задачах часто используют [[метод опорных векторов (SVM)]] или [[глубокое обучение]].

==Поиск лекарств==
Поиск лекарств (англ. drug discovery, drug design) {{---}} процесс поиска новых лекарственных средств, часто основанный на знаниях о биологической мишени (целевом белке, с которым должно взаимодействовать лекарственное вещество).
При поиске новых лекарственных средств часто прибегают к помощи машинного обучения в таких задачах, как предсказание молекулярных свойств потенциальной молекулы лекарства, формы какого-либо белка, активности взаимодействия между веществами.
===Предсказание молекулярных свойств===
[[Файл:MoleculeGNN.PNG|400px|thumb|Рисунок 7. Молекулярный граф]]
[[Файл:Morgan fingerprint.jpg|400px|thumb|Рисунок 8. Пример Morgan Fingerprint для молекулы<ref>[https://www.sciencedirect.com/science/article/abs/pii/S1046202314002631 Adrià Cereto-Massagué et al., Molecular fingerprint similarity search in virtual screening, 2015]</ref>.]]
Одна из главных задач машинного обучения при поиске новых лекарств {{---}} сужение круга их поиска. Чаще всего фармацевтические компании имеют на руках библиотеки с огромным количеством веществ, которые они потенциально могут синтезировать и опробовать в качестве лекарства. Но обычно размеры этих библиотек составляют тысячи молекул, поэтому синтезировать и проверить каждую из них не представляется возможным. В этом случае прибегают к предсказанию некоторых свойств этих молекул, которые точно определяют, может ли молекула быть использована как лекарство. Для предсказания свойств молекул обычно используют молекулярный граф {{---}} графическое представление молекулы (ее атомов и связей).

Первые нейронные сети для предсказания молекулярных свойств использовали Моргановские фингерпринты (англ. Morgan fingerpints), которые для каждого атома в молекуле выделяли всех его соседей на каком-то определенном расстоянии (которое является [[Настройка гиперпараметров|гиперпараметром]]) и смотрели на наличие такой подструктуры в молекуле. Получался аналог некоторого оne-hot кодирования. Впоследствии этот метод был несколько усовершенствован, и стали смотреть не на наличие подструктуры, а на то, сколько раз она встречается в молекуле. Прорыв в этой области случился с появлением сети NeuralFingerprints <ref>[https://arxiv.org/abs/1509.09292 Duvenaud et al., Convolutional Networks on Graphs for Learning Molecular Fingerprints, 2015]</ref>, которая является примером одной из первых попыток применения [[графовые нейронные сети|графовых нейронных сетей]] в этой области.

NeuralFingerprints принимает один [[Настройка гиперпараметров|гиперпараметр]] {{---}} максимальное расстояние, которое нужно учитывать при просмотре соседей каждого атома. После этого для каждого расстояния для каждого атома суммируются атомные представления его соседей на текущем расстоянии. Таким образом, получается векторное представление текущего атома фиксированной длины, которая равна количеству свойств у одного атома. Каждый элемент такого представления умножается на обучаемый параметр, уникальный для номера свойства и текущего рассматриваемого расстояния. После этого применяется функция активации к полученному ранее вектору, умноженному на вес, отвечающий за текущее расстояние. Полученные результаты для каждого из атомов на каждом из расстояний суммируются и получается результирующий вектор свойств для молекулы. Таким образом, в этой сети обучаемые параметры {{---}} веса для каждого из свойств атомов на каждом расстоянии (<tex>H^i_j</tex>, где <tex>i</tex> {{---}} индекс номера свойства (в модели их всего 5), <tex>j</tex> {{---}} индекс для текущего расстояния) и веса для каждого из расстояний (<tex>W_j</tex>, где <tex>j</tex> {{---}} индекс для текущего расстояния). Псевдокод представлен ниже.
'''function''' neuralFingerptint(molecule, R, H, W): # R - максимальное расстояние, H - матрица весов размера len(molecule)<tex>\cdot</tex>R, W - вектор весов размера R
f = array[len(molecule), 0]
'''for''' a in molecule:
r[a] = g(a) # записываем свойства для каждого атома
'''for''' L = 1 to R:
'''for''' a in molecule:
neighbors = '''neighbors'''(a) # смотрим соседей на расстоянии L от текущего атома a
v = r[a] + '''sum'''(r[i] for i in neighbors) # суммируем вектора соседей и вектор текущего атома
r[a] = '''σ'''(v <tex>\cdot</tex>H[a][L]) # изменяем представление текущего атома
i = '''softmax'''(r[a]<tex>\cdot</tex>W[L]) # получаем вектор для текущего атома и расстояния
f = f + i # добавляем его к ответу
'''return''' f

Эта сеть была одной из первых в этой области, и сейчас используется как базовый метод в множестве статей. В основу новых методов и сейчас чаще всего ложатся [[графовые нейронные сети]]. Подходы графовых нейронных сетей адаптируют под молекулярный граф путем поиска элементов на расстоянии не более, чем N (где N является [[Настройка гиперпараметров|гиперпараметром]]), или последовательным рассмотрением каждой вершины и усреднением полученных значений.

===Предсказание формы белка===
[[Файл:AlphaFold 2 block design.png|400px|thumb|Рисунок 9. Архитектура AlphaFold2, модели для предсказания пространственной структуры белка<ref>[https://en.wikipedia.org/wiki/AlphaFold Wikipedia: AlphaFold]</ref>.]]
Секвенирование {{---}} процесс получения нуклеотидной последовательности из молекулы ДНК. <ref>[https://en.wikipedia.org/wiki/Sequencing Википедия: Секвенирование]</ref>
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая в свою очередь кодирует любой белок в организме.

Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Пространственная же структура белка важна для генерации мишеней, поэтому задача предсказания структуры является очень важной. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать, сможет ли это соединение захватить свою мишень, не дав ей закрепиться в организме пациента.

Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref>, что решили проблему пространственной структуры белка. Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10-10м).

===Генерация молекулярных структур===
[[Файл:Ranc scheme.png|thumb|Рисунок 10. Пример генеративной состязательной сети для лекарственных молекул. Сеть RANC (Reinforced Adversarial Neural Computer) <ref>[https://pubs.acs.org/doi/10.1021/acs.jcim.7b00690 Evgeny Putin et al., Reinforced Adversarial Neural Computer for de Novo Molecular Design, 2018]</ref>.]]
Еще одна задача, которая есть сейчас в мире машинного обучения {{---}} генерировать новые молекулы, которые могут потенциально быть лекарствами. Для этого используют [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Основное преимущество такого подхода заключается в том, что при работе с библиотеками уже синтезированных лекарств есть вероятность "пропустить" важное соединение просто потому, что в этой библиотеке его не было. Поэтому используется абсолютно другой подход {{---}} предлагается наоборот генерировать различные молекулы, а уже потом проверять, действительно ли их можно использовать как лекарство и насколько сложно их синтезировать. Часто эти свойства вносят в метрику качества генератора.

SMILES {{---}} способ однозначного задания молекулы при помощи строки. Таким образом, задача генератора {{---}} сгенерировать такую строку SMILES для молекулы, чтобы дискриминатор не отличил ее от настоящей. Архитектура дискриминатора чаще всего остается очень похожей на архитектуру обычной сети, предсказывающей молекулярные свойства. Таким образом, в качестве дискриминатора часто используются графовые или сверточные нейронные сети. Для генератора же часто используют механизм памяти, чтобы сеть помнила, какие части уже были сгенерированы и отталкивалась от них.

==См. также==
* [[Нейронные сети, перцептрон]]
* [[Глубокое обучение]]
* [[Графовые нейронные сети]]
* [[Компьютерное зрение]]
* [[Обучение с подкреплением]]

==Примечания==
* [https://en.wikipedia.org/wiki/Protein_structure_prediction#:~:text=Protein%20structure%20prediction%20is%20the,inverse%20problem%20of%20protein%20design. Protein structure prediction]
* [https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D0%B0 Википедия: Персонализированная медицина]
* [https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/ 7 Applications of Machine Learning in Pharma and Medicine]
* [https://www.nature.com/articles/s41563-019-0360-1 Ascent of machine learning in medicine]
* [http://jtelemed.ru/article/glubokoe-mashinnoe-obuchenie-iskusstvennyj-intellekt-v-ultrazvukovoj-diagnostike Глубокое машинное обучение (искусственный интеллект) в ультразвуковой диагностике]

==Источники информации==

[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
[[Категория: Практические применения машинного обучения]]

Машинное обучение в медицине

2021-01-09T13:16:14Z

188.170.82.221: /* Генерация результатов исследований */

Машинное обучение в медицине используют очень активно, находя все больше областей для его применения. Сейчас в медицине использут почти [[Общие понятия|все виды машинного обучения]]: обучение с учителем, без учителя, с частичным привлечением учителя, с подкреплением. Наиболее активно машинное обучение в медицине используют для решения проблем по диагностике заболеваний и дизайну лекарств. Эти задачи относят к обучению с учителем или [[Обучение с частичным привлечением учителя|с частичным привлечением учителя]]. Кроме того, машинное обучение стали применять в персонализированной медицине и генерации данных различных исследований для анонимизации данных пациентов. В этих задачах сейчас все больше применяют [[Обучение с подкреплением|обучение с подкреплением]] и обучение без учителя, в частности, [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Машинное обучение в медицине начали изучать еще в 2000-ых и оно продолжает активно развиваться и в наши дни.

==Диагностика заболеваний по результатам рентгенологических и УЗИ исследований==
[[Файл:Covid cnn recognition.png|thumb|Пример вероятностной классификации КТ грудной клетки. <ref>[https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf CoroNet: A deep neural network for detection and diagnosis of COVID-19 from chest x-ray images, 2020]</ref>]]
[[Файл:Spine x ray cnn.png|thumb|Пример локализации шейного отдела позвоночника на рентгене. Источник: <ref>[https://lhncbc.nlm.nih.gov/system/files/pub9781.pdf Zhiyun Xue et al., Gender Detection from Spine X-ray Images Using Deep Learning, 2018]</ref>]]
===Диагностика по изображению===
[[Файл:Brain tumor mri cnn.jpg|thumb|left|200px|Пример классификации результатов МРТ на изображения с опухолью и без опухоли. <ref>[https://biomedpharmajournal.org/vol11no3/brain-tumor-classification-using-convolutional-neural-networks/ Seetha J, Raja S. S. Brain Tumor Classification Using Convolutional Neural Networks. Biomed Pharmacol J 2018;11(3).]</ref>]]
В диагностике заболеваний есть большое количество задач, которые можно решить при помощи машинного обучения, а в частности, при помощи анализа результатов различных исследований, таких как рентген, УЗИ или МРТ. В основном задача любой модели сводится к предсказанию, болен ли человек сейчас (иногда обычная мультиклассовая классификация, иногда {{---}} вероятностная классификация).

Для решения таких задач чаще всего используют [[глубокое обучение]]. Такие модели на вход получают картинку с рентгенологическим или ультразвуковым исследованием пациента и по ним предсказывают наличие болезни. Обычно внутри таких моделей-классификаторов лежат [[сверточные нейронные сети]], а иногда к ним добавляются [[механизм внимания]]. За основу берутся state-of-the-art модели в области сверточных нейронных сетей, такие как GoogleLeNet<ref>[https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/43022.pdf Szegedy et al., Going Deeper with Convolutions, 2015. GoogLeNet.]</ref>, при этом точность предсказаний превышает 90%. Такие модели учатся на размеченных тренировочных наборах данных, поэтому их можно отнести к обучению с учителем. Большое распространение такие классификаторы получили в предсказании злокачественности новообразований, классификации заболеваний легких, подборе дозы контраста при проведении МРТ.

Кроме того, есть и другое применение. Многие модели учатся не только определять, есть ли опухоль на данном образце, но и локализировать ее положение. Таким образом, необходимо решить задачу сегментации изображения, то есть выделения каких-то ее наиболее важных частей. Технически задача не сильно отличается от предыдущей и решается все теми же сверточными нейронными сетями.

===Применения===
Поскольку точность предсказаний у описанных выше моделей достаточно высока, их стали применять на практике. Сейчас ведутся исследования по внедрению таких моделей в УЗИ-аппараты для того, чтобы быстрее и точнее определять местоположение и злокачественность опухоли. Кроме того, такие модели стали применять в направленной лучевой терапии, когда злокачественная опухоль облучается различными видами частиц. Известно, что эти частицы уничтожают не только раковые, но и здоровые клетки. Именно поэтому активно внедряются модели, которые могут подсказать аппарату точное направление облучения. Также сверточные сети стали использовать для определения дозы контрастного вещества при МРТ<ref>[https://www.sciencedirect.com/science/article/pii/S0939388918301181 Lundervold et al., An overview of deep learning in medical imaging focusing on MRI, 2019]</ref>.

===Генерация результатов исследований===
[[Файл:3d mri models comparison.png|450px|thumb|Сравнение различных моделей для генерации 3D изображений МРТ исследований. Источник: https://arxiv.org/pdf/1908.02498.pdf]]

Для обучения сверточных нейронных сетей необходимо большое количество данных, которые очень часто достаточно тяжело или даже невозможно получить из-за запрета на использование данных исследований даже в анонимном формате без согласия пациента. Поэтому сейчас для получения достаточно больших датасетов стали применять [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

Задачу таких GAN можно разделить на две: генерация результатов исследований здоровых пациентов и пациентов с патологиями. В случае второй задачи важно, чтобы сгенерированные изображения правильно определялись именно по типу патологии.

Основная проблема, с которой сталкиваются такие модели {{---}} необходимость очень точно определять границы объекта на сгенерированном изображении, а также не допускать размытости. Эти две проблемы долгое время не получалось решить без большого количества реальных данных, вследствие чего не было возможным применение сгенерированных изображений на практике.

Сильно улучшить поведение моделей удалось путем использования метрики Васерштейна<ref>[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0_%D0%92%D0%B0%D1%81%D0%B5%D1%80%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0 Википедия:Метрика Васерштейна]</ref>. Интуитивно, если каждая мера измеряет распределение «грунта» по метрическому пространству, то расстояние Васерштейна измеряет минимальную стоимость преобразования одного распределения грунта в другое, при этом предполагается, что стоимость прямо пропорциональна количеству грунта и расстоянию, на которое его надо перетащить. Использование такой метрики в GAN помогло сильно улучшить поведение моделей при генерации данных МРТ исследований.

==Персонализированная медицина==
Персонализированная медицина (англ. personalized medicine) {{---}} новая организационная модель построения медицинской помощи пациентам, которая основывается на подборе индивидуальных лечебных, диагностических и превентивных средств, оптимально подходящих по биохимическим, физиологическим и генетическим особенностям организма.

Основная цель нового направления в медицине заключается в персонализации и оптимизации профилактических мероприятий и лечения пациентов для исключения негативных последствий и осложнений, проявляющихся из-за индивидуальных особенностей.
Основные отрасли медицины, где применяются новые принципы — онкология, фармация и фармакогеномика. Последняя занимается изучением реакций организма на медицинские препараты в зависимости от индивидуальных наследственных факторов.

===Экспрессия генов и анализ транскриптомных данных===
[[Файл:Gene expression based cnn.jpg|400px|thumb|Примеры архитектур сверточных сетей, предсказывающих вероятность рака по экспрессии генов. <ref>[https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2 Convolutional neural network models for cancer type prediction based on gene expression]</ref>]]
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети, располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.

Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптом {{---}} совокупность всех молекул РНК, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК). Транскриптом включает в себя матричную РНК (РНК, с которой впоследствии транслируются белки) и некодирующую РНК, которая, в свою очередь, не используется для получения белков. Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (англ. RNA-seq) или ДНК-микрочипов (англ. DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют матричную РНК (мРНК), которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].

===Уменьшение размерности при работе с данными экспрессии генов===
[[Файл:Melif scheme.png|400px|thumb|Описание алгоритма MeLiF.<ref>[http://fppo.ifmo.ru/?page1=16&page2=86&number_file=E63E46A38DD44C84B7B9446996EB225F Сметанников Иван Борисович, Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных]</ref>]]
Для уменьшения размерности в случае биологических данных применяются методы, основным критерием которых становится их скорость. Поскольку количество генов очень велико, чаще всего нет возможности опробовать встраиваемые и оберточные методы. Чаще всего, используют фильтры.

Одним из примеров моделей, основанных на фильтрах является модель MeLiF<ref>[https://www.researchgate.net/publication/317201206_MeLiF_Filter_Ensemble_Learning_Algorithm_for_Gene_Selection| Smetannikov et al., MeLiF: Filter Ensemble Learning Algorithm for Gene Selection]</ref>, которая берет несколько фильтров <tex>M_i</tex> с соответствующими функциями измерения релевантности признака <tex>\mu_i</tex>, после чего строит новую меру значимости как <tex>\mu=\sum_{i=1}^{|M|} \alpha_{i} \mu_{i}</tex>, где <tex>\left\{\alpha_{i}\right\}_{i=1}^{|M|}</tex> {{---}} набор вещественных коэффициентов. После получения новой меры значимости происходит оценка модели на <tex>t</tex> лучших выбранных признаках. В случае удовлетворительного результата алгоритм завершается, возвращая текущий набор признаков, иначе {{---}} возвращается снова к получению новой меры на <tex>t+1</tex> признаках.

===Медицинская карта===
Другая задача {{---}} предсказать, заболеет ли человек в будущем. Для этого часто используется электронная медицинская карта пациента, и на вход сети подаются данные о пациенте, результаты исследований, его генеалогическое древо и другая медицинская информация. Основываясь на полученных данных, модель должна предсказать вероятность того, что человек может заболеть каждой болезнью из приведенного набора. Если вероятность хотя бы по одному из маркеров превышает некоторое значение {{---}} такая модель рекомендует пациенту обратиться к специалисту и относит его в группу высокого риска по этому параметру. В свою очередь специалист может подтвердить или же опровергнуть опасения модели, отдавая ей результат {{---}} права модель или нет. Таким образом, эта проблема относится к классу задач [[Обучение с подкреплением|обучения с подкреплением]]. С точки зрения архитектуры моделей {{---}} в таких задачах часто используют [[метод опорных векторов (SVM)]] или [[глубокое обучение]].

==Поиск лекарств==
Поиск лекарств (англ. drug discovery, drug design) {{---}} процесс поиска новых лекарственных средств, часто основанный на знаниях о биологической мишени (целевом белке, с которым должно взаимодействовать лекарственное вещество).
При поиске новых лекарственных средств часто прибегают к помощи машинного обучения в таких задачах, как предсказание молекулярных свойств потенциальной молекулы лекарства, формы какого-либо белка, активности взаимодействия между веществами.
===Предсказание молекулярных свойств===
[[Файл:MoleculeGNN.PNG|400px|thumb|Молекулярный граф]]
[[Файл:Morgan fingerprint.jpg|400px|thumb|Пример Morgan Fingerprint для молекулы. Источник: https://www.sciencedirect.com/science/article/abs/pii/S1046202314002631]]
Одна из главных задач машинного обучения при поиске новых лекарств {{---}} сужение круга их поиска. Чаще всего фармацевтические компании имеют на руках библиотеки с огромным количеством веществ, которые они потенциально могут синтезировать и опробовать в качестве лекарства. Но обычно размеры этих библиотек составляют тысячи молекул, поэтому синтезировать и проверить каждую из них не представляется возможным. В этом случае прибегают к предсказанию некоторых свойств этих молекул, которые точно определяют, может ли молекула быть использована как лекарство. Для предсказания свойств молекул обычно используют молекулярный граф {{---}} графическое представление молекулы (ее атомов и связей).

Первые нейронные сети для предсказания молекулярных свойств использовали Моргановские фингерпринты (англ. Morgan fingerpints), которые для каждого атома в молекуле выделяли всех его соседей на каком-то определенном расстоянии (которое является гиперпараметром) и смотрели на наличие такой подструктуры в молекуле. Получался аналог некоторого оne-hot кодирования. Впоследствии этот метод был несколько усовершенствован, и стали смотреть не на наличие подструктуры, а на то, сколько раз она встречается в молекуле. Прорыв в этой области случился с появлением сети NeuralFingerprints <ref>[https://arxiv.org/abs/1509.09292 Duvenaud et al., Convolutional Networks on Graphs for Learning Molecular Fingerprints, 2015]</ref>, которая является примером одной из первых попыток применения [[графовые нейронные сети|графовых нейронных сетей]] в этой области.

NeuralFingerprints принимает один гиперпараметр {{---}} максимальное расстояние, которое нужно учитывать при просмотре соседей каждого атома. После этого для каждого расстояния для каждого атома суммируются атомные представления его соседей на текущем расстоянии. Таким образом, получается векторное представление текущего атома фиксированной длины, которая равна количеству свойств у одного атома. Каждый элемент такого представления умножается на обучаемый параметр, уникальный для номера свойства и текущего рассматриваемого расстояния. После этого применяется функция активации к полученному ранее вектору, умноженному на вес, отвечающий за текущее расстояние. Полученные результаты для каждого из атомов на каждом из расстояний суммируются и получается результирующий вектор свойств для молекулы. Таким образом, в этой сети обучаемые параметры {{---}} веса для каждого из свойств атомов на каждом расстоянии (<tex>H^i_j</tex>, где <tex>i</tex> {{---}} индекс номера свойства (в модели их всего 5), <tex>j</tex> {{---}} индекс для текущего расстояния) и веса для каждого из расстояний (<tex>W_j</tex>, где <tex>j</tex> {{---}} индекс для текущего расстояния). Псевдокод представлен ниже.
'''function''' neuralFingerptint(molecule, R, H, W): # R - максимальное расстояние, H - матрица весов размера len(molecule)<tex>\cdot</tex>R, W - вектор весов размера R
f = array[len(molecule), 0]
'''for''' a in molecule:
r[a] = g(a) # записываем свойства для каждого атома
'''for''' L = 1 to R:
'''for''' a in molecule:
neighbors = '''neighbors'''(a) # смотрим соседей на расстоянии L от текущего атома a
v = r[a] + '''sum'''(r[i] for i in neighbors) # суммируем вектора соседей и вектор текущего атома
r[a] = '''σ'''(v <tex>\cdot</tex>H[a][L]) # изменяем представление текущего атома
i = '''softmax'''(r[a]<tex>\cdot</tex>W[L]) # получаем вектор для текущего атома и расстояния
f = f + i # добавляем его к ответу
'''return''' f

Эта сеть была одной из первых в этой области, и сейчас используется как базовый метод в множестве статей. В основу новых методов и сейчас чаще всего ложатся [[графовые нейронные сети]]. Подходы графовых нейронных сетей адаптируют под молекулярный граф путем поиска элементов на расстоянии не более, чем N (где N является гиперпараметром), или последовательным рассмотрением каждой вершины и усреднением полученных значений.

===Предсказание формы белка===
[[Файл:AlphaFold 2 block design.png|400px|thumb|Архитектура AlphaFold2, модели для предсказания пространственной структуры белка. Источник: https://en.wikipedia.org/wiki/AlphaFold]]
Секвенирование {{---}} процесс получения нуклеотидной последовательности из молекулы ДНК. <ref>[https://en.wikipedia.org/wiki/Sequencing Википедия: Секвенирование]</ref>
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая в свою очередь кодирует любой белок в организме.

Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Пространственная же структура белка важна для генерации мишеней, поэтому задача предсказания структуры является очень важной. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать, сможет ли это соединение захватить свою мишень, не дав ей закрепиться в организме пациента.

Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref>, что решили проблему пространственной структуры белка. Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10-10м).

===Генерация молекулярных структур===
[[Файл:Ranc scheme.png|thumb|Пример генеративной состязательной сети для лекарственных молекул. Сеть RANC (Reinforced Adversarial Neural Computer). Источник: https://pubs.acs.org/doi/10.1021/acs.jcim.7b00690]]
Еще одна задача, которая есть сейчас в мире машинного обучения {{---}} генерировать новые молекулы, которые могут потенциально быть лекарствами. Для этого используют [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Основное преимущество такого подхода заключается в том, что при работе с библиотеками уже синтезированных лекарств есть вероятность "пропустить" важное соединение просто потому, что в этой библиотеке его не было. Поэтому используется абсолютно другой подход {{---}} предлагается наоборот генерировать различные молекулы, а уже потом проверять, действительно ли их можно использовать как лекарство и насколько сложно их синтезировать. Часто эти свойства вносят в метрику качества генератора.

SMILES {{---}} способ однозначного задания молекулы при помощи строки. Таким образом, задача генератора {{---}} сгенерировать такую строку SMILES для молекулы, чтобы дискриминатор не отличил ее от настоящей. Архитектура дискриминатора чаще всего остается очень похожей на архитектуру обычной сети, предсказывающей молекулярные свойства. Таким образом, в качестве дискриминатора часто используются графовые или сверточные нейронные сети. Для генератора же часто используют механизм памяти, чтобы сеть помнила, какие части уже были сгенерированы и отталкивалась от них.

==См. также==
* [[Нейронные сети, перцептрон]]
* [[Глубокое обучение]]
* [[Графовые нейронные сети]]
* [[Компьютерное зрение]]
* [[Обучение с подкреплением]]

==Примечания==
* [https://en.wikipedia.org/wiki/Protein_structure_prediction#:~:text=Protein%20structure%20prediction%20is%20the,inverse%20problem%20of%20protein%20design. Protein structure prediction]
* [https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D0%B0 Википедия: Персонализированная медицина]
* [https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/ 7 Applications of Machine Learning in Pharma and Medicine]
* [https://www.nature.com/articles/s41563-019-0360-1 Ascent of machine learning in medicine]
* [http://jtelemed.ru/article/glubokoe-mashinnoe-obuchenie-iskusstvennyj-intellekt-v-ultrazvukovoj-diagnostike Глубокое машинное обучение (искусственный интеллект) в ультразвуковой диагностике]

==Источники информации==

[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
[[Категория: Практические применения машинного обучения]]

Машинное обучение в медицине

2021-01-09T13:00:50Z

188.170.82.221: /* Предсказание молекулярных свойств */

Машинное обучение в медицине используют очень активно, находя все больше областей для его применения. Сейчас в медицине использут почти [[Общие понятия|все виды машинного обучения]]: обучение с учителем, без учителя, с частичным привлечением учителя, с подкреплением. Наиболее активно машинное обучение в медицине используют для решения проблем по диагностике заболеваний и дизайну лекарств. Эти задачи относят к обучению с учителем или [[Обучение с частичным привлечением учителя|с частичным привлечением учителя]]. Кроме того, машинное обучение стали применять в персонализированной медицине и генерации данных различных исследований для анонимизации данных пациентов. В этих задачах сейчас все больше применяют [[Обучение с подкреплением|обучение с подкреплением]] и обучение без учителя, в частности, [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Машинное обучение в медицине начали изучать еще в 2000-ых и оно продолжает активно развиваться и в наши дни.

==Диагностика заболеваний по результатам рентгенологических и УЗИ исследований==
[[Файл:Covid cnn recognition.png|thumb|Пример вероятностной классификации КТ грудной клетки. Источник:https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf]]
[[Файл:Spine x ray cnn.png|thumb|Пример локализации шейного отдела позвоночника на рентгене. Источник: https://lhncbc.nlm.nih.gov/system/files/pub9781.pdf]]
===Диагностика по изображению===
[[Файл:Brain tumor mri cnn.jpg|thumb|left|200px|Пример классификации результатов МРТ на изображения с опухолью и без опухоли. Источник: https://biomedpharmajournal.org/vol11no3/brain-tumor-classification-using-convolutional-neural-networks/]]
В диагностике заболеваний есть большое количество задач, которые можно решить при помощи машинного обучения, а в частности, при помощи анализа результатов различных исследований, таких как рентген, УЗИ или МРТ. В основном задача любой модели сводится к предсказанию, болен ли человек сейчас (иногда обычная мультиклассовая классификация, иногда {{---}} вероятностная классификация).

Для решения таких задач чаще всего используют [[глубокое обучение]]. Такие модели на вход получают картинку с рентгенологическим или ультразвуковым исследованием пациента и по ним предсказывают наличие болезни. Обычно внутри таких моделей-классификаторов лежат [[сверточные нейронные сети]], а иногда к ним добавляются [[механизм внимания]]. За основу берутся state-of-the-art модели в области сверточных нейронных сетей, такие как GoogleLeNet<ref>[https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/43022.pdf Szegedy et al., Going Deeper with Convolutions, 2015. GoogLeNet.]</ref>, при этом точность предсказаний превышает 90%. Такие модели учатся на размеченных тренировочных наборах данных, поэтому их можно отнести к обучению с учителем. Большое распространение такие классификаторы получили в предсказании злокачественности новообразований, классификации заболеваний легких, подборе дозы контраста при проведении МРТ.

Кроме того, есть и другое применение. Многие модели учатся не только определять, есть ли опухоль на данном образце, но и локализировать ее положение. Таким образом, необходимо решить задачу сегментации изображения, то есть выделения каких-то ее наиболее важных частей. Технически задача не сильно отличается от предыдущей и решается все теми же сверточными нейронными сетями.

===Применения===
Поскольку точность предсказаний у описанных выше моделей достаточно высока, их стали применять на практике. Сейчас ведутся исследования по внедрению таких моделей в УЗИ-аппараты для того, чтобы быстрее и точнее определять местоположение и злокачественность опухоли. Кроме того, такие модели стали применять в направленной лучевой терапии, когда злокачественная опухоль облучается различными видами частиц. Известно, что эти частицы уничтожают не только раковые, но и здоровые клетки. Именно поэтому активно внедряются модели, которые могут подсказать аппарату точное направление облучения. Также сверточные сети стали использовать для определения дозы контрастного вещества при МРТ<ref>[https://www.sciencedirect.com/science/article/pii/S0939388918301181 Lundervold et al., An overview of deep learning in medical imaging focusing on MRI, 2019]</ref>.

===Генерация результатов исследований===
[[Файл:3d mri models comparison.png|450px|thumb|Сравнение различных моделей для генерации 3D изображений МРТ исследований. Источник: https://arxiv.org/pdf/1908.02498.pdf]]

Для обучения сверточных нейронных сетей необходимо большое количество данных, которые очень часто достаточно тяжело или даже невозможно получить из-за запрета на использование данных исследований даже в анонимном формате без согласия пациента. Поэтому сейчас для получения достаточно больших датасетов стали применять [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

Задачу таких GAN можно разделить на две: генерация результатов исследований здоровых пациентов и пациентов с патологиями. В случае второй задачи важно, чтобы сгенерированные изображения правильно определялись именно по типу патологии.

Основная проблема, с которой сталкиваются такие модели {{---}} необходимость очень точно определять границы объекта на сгенерированном изображении, а также не допускать размытости. Эти две проблемы долгое время не получалось решить без большого количества реальных данных, вследствие чего не было возможным применение сгенерированных изображений на практике.

Сильно улучшить поведение моделей удалось путем использования метрики Васерштейна<ref>[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0_%D0%92%D0%B0%D1%81%D0%B5%D1%80%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0 Википедия:Метрика Васерштейна]</ref>, которая, если провести аналогию с землей, измеряет минимальную стоимость преобразования одного распределения земли в другое, при этом предполагается, что стоимость прямо пропорциональна количеству земли и расстоянию, на которое ее надо перетащить. Использование такой метрики в GAN помогло сильно улучшить поведение моделей при генерации данных МРТ исследований.

==Персонализированная медицина==
Персонализированная медицина (англ. personalized medicine) {{---}} новая организационная модель построения медицинской помощи пациентам, которая основывается на подборе индивидуальных лечебных, диагностических и превентивных средств, оптимально подходящих по биохимическим, физиологическим и генетическим особенностям организма.

Основная цель нового направления в медицине заключается в персонализации и оптимизации профилактических мероприятий и лечения пациентов для исключения негативных последствий и осложнений, проявляющихся из-за индивидуальных особенностей.
Основные отрасли медицины, где применяются новые принципы — онкология, фармация и фармакогеномика. Последняя занимается изучением реакций организма на медицинские препараты в зависимости от индивидуальных наследственных факторов.

===Экспрессия генов и анализ транскриптомных данных===
[[Файл:Gene expression based cnn.jpg|400px|thumb|Примеры архитектур сверточных сетей, предсказывающих вероятность рака по экспрессии генов. Источник: https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2]]
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети, располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.

Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптом {{---}} совокупность всех молекул РНК, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК). Транскриптом включает в себя матричную РНК (РНК, с которой впоследствии транслируются белки) и некодирующую РНК, которая, в свою очередь, не используется для получения белков. Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (англ. RNA-seq) или ДНК-микрочипов (англ. DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют матричную РНК (мРНК), которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].

===Уменьшение размерности при работе с данными экспрессии генов===
[[Файл:Melif scheme.png|400px|thumb|Описание алгоритма MeLiF. Источник: http://fppo.ifmo.ru/?page1=16&page2=86&number_file=E63E46A38DD44C84B7B9446996EB225F]]
Для уменьшения размерности в случае биологических данных применяются методы, основным критерием которых становится их скорость. Поскольку количество генов очень велико, чаще всего нет возможности опробовать встраиваемые и оберточные методы. Чаще всего, используют фильтры.

Одним из примеров моделей, основанных на фильтрах является модель MeLiF<ref>[https://www.researchgate.net/publication/317201206_MeLiF_Filter_Ensemble_Learning_Algorithm_for_Gene_Selection| Smetannikov et al., MeLiF: Filter Ensemble Learning Algorithm for Gene Selection]</ref>, которая берет несколько фильтров <tex>M_i</tex> с соответствующими функциями измерения релевантности признака <tex>\mu_i</tex>, после чего строит новую меру значимости как <tex>\mu=\sum_{i=1}^{|M|} \alpha_{i} \mu_{i}</tex>, где <tex>\left\{\alpha_{i}\right\}_{i=1}^{|M|}</tex> {{---}} набор вещественных коэффициентов. После получения новой меры значимости происходит оценка модели на <tex>t</tex> лучших выбранных признаках. В случае удовлетворительного результата алгоритм завершается, возвращая текущий набор признаков, иначе {{---}} возвращается снова к получению новой меры на <tex>t+1</tex> признаках.

===Медицинская карта===
Другая задача {{---}} предсказать, заболеет ли человек в будущем. Для этого часто используется электронная медицинская карта пациента, и на вход сети подаются данные о пациенте, результаты исследований, его генеалогическое древо и другая медицинская информация. Основываясь на полученных данных, модель должна предсказать вероятность того, что человек может заболеть каждой болезнью из приведенного набора. Если вероятность хотя бы по одному из маркеров превышает некоторое значение {{---}} такая модель рекомендует пациенту обратиться к специалисту и относит его в группу высокого риска по этому параметру. В свою очередь специалист может подтвердить или же опровергнуть опасения модели, отдавая ей результат {{---}} права модель или нет. Таким образом, эта проблема относится к классу задач [[Обучение с подкреплением|обучения с подкреплением]]. С точки зрения архитектуры моделей {{---}} в таких задачах часто используют [[метод опорных векторов (SVM)]] или [[глубокое обучение]].

==Поиск лекарств==
Поиск лекарств (англ. drug discovery, drug design) {{---}} процесс поиска новых лекарственных средств, часто основанный на знаниях о биологической мишени (целевом белке, с которым должно взаимодействовать лекарственное вещество).
При поиске новых лекарственных средств часто прибегают к помощи машинного обучения в таких задачах, как предсказание молекулярных свойств потенциальной молекулы лекарства, формы какого-либо белка, активности взаимодействия между веществами.
===Предсказание молекулярных свойств===
[[Файл:MoleculeGNN.PNG|400px|thumb|Молекулярный граф]]
[[Файл:Morgan fingerprint.jpg|400px|thumb|Пример Morgan Fingerprint для молекулы. Источник: https://www.sciencedirect.com/science/article/abs/pii/S1046202314002631]]
Одна из главных задач машинного обучения при поиске новых лекарств {{---}} сужение круга их поиска. Чаще всего фармацевтические компании имеют на руках библиотеки с огромным количеством веществ, которые они потенциально могут синтезировать и опробовать в качестве лекарства. Но обычно размеры этих библиотек составляют тысячи молекул, поэтому синтезировать и проверить каждую из них не представляется возможным. В этом случае прибегают к предсказанию некоторых свойств этих молекул, которые точно определяют, может ли молекула быть использована как лекарство. Для предсказания свойств молекул обычно используют молекулярный граф {{---}} графическое представление молекулы (ее атомов и связей).

Первые нейронные сети для предсказания молекулярных свойств использовали Моргановские фингерпринты (англ. Morgan fingerpints), которые для каждого атома в молекуле выделяли всех его соседей на каком-то определенном расстоянии (которое является гиперпараметром) и смотрели на наличие такой подструктуры в молекуле. Получался аналог некоторого оne-hot кодирования. Впоследствии этот метод был несколько усовершенствован, и стали смотреть не на наличие подструктуры, а на то, сколько раз она встречается в молекуле. Прорыв в этой области случился с появлением сети NeuralFingerprints <ref>[https://arxiv.org/abs/1509.09292 Duvenaud et al., Convolutional Networks on Graphs for Learning Molecular Fingerprints, 2015]</ref>, которая является примером одной из первых попыток применения [[графовые нейронные сети|графовых нейронных сетей]] в этой области.

NeuralFingerprints принимает один гиперпараметр {{---}} максимальное расстояние, которое нужно учитывать при просмотре соседей каждого атома. После этого для каждого расстояния для каждого атома суммируются атомные представления его соседей на текущем расстоянии. Таким образом, получается векторное представление текущего атома фиксированной длины, которая равна количеству свойств у одного атома. Каждый элемент такого представления умножается на обучаемый параметр, уникальный для номера свойства и текущего рассматриваемого расстояния. После этого применяется функция активации к полученному ранее вектору, умноженному на вес, отвечающий за текущее расстояние. Полученные результаты для каждого из атомов на каждом из расстояний суммируются и получается результирующий вектор свойств для молекулы. Таким образом, в этой сети обучаемые параметры {{---}} веса для каждого из свойств атомов на каждом расстоянии (<tex>H^i_j</tex>, где <tex>i</tex> {{---}} индекс номера свойства (в модели их всего 5), <tex>j</tex> {{---}} индекс для текущего расстояния) и веса для каждого из расстояний (<tex>W_j</tex>, где <tex>j</tex> {{---}} индекс для текущего расстояния). Псевдокод представлен ниже.
'''function''' neuralFingerptint(molecule, R, H, W): # R - максимальное расстояние, H - матрица весов размера len(molecule)<tex>\cdot</tex>R, W - вектор весов размера R
f = array[len(molecule), 0]
'''for''' a in molecule:
r[a] = g(a) # записываем свойства для каждого атома
'''for''' L = 1 to R:
'''for''' a in molecule:
neighbors = '''neighbors'''(a) # смотрим соседей на расстоянии L от текущего атома a
v = r[a] + '''sum'''(r[i] for i in neighbors) # суммируем вектора соседей и вектор текущего атома
r[a] = '''σ'''(v <tex>\cdot</tex>H[a][L]) # изменяем представление текущего атома
i = '''softmax'''(r[a]<tex>\cdot</tex>W[L]) # получаем вектор для текущего атома и расстояния
f = f + i # добавляем его к ответу
'''return''' f

Эта сеть была одной из первых в этой области, и сейчас используется как базовый метод в множестве статей. В основу новых методов и сейчас чаще всего ложатся [[графовые нейронные сети]]. Подходы графовых нейронных сетей адаптируют под молекулярный граф путем поиска элементов на расстоянии не более, чем N (где N является гиперпараметром), или последовательным рассмотрением каждой вершины и усреднением полученных значений.

===Предсказание формы белка===
[[Файл:AlphaFold 2 block design.png|400px|thumb|Архитектура AlphaFold2, модели для предсказания пространственной структуры белка. Источник: https://en.wikipedia.org/wiki/AlphaFold]]
Секвенирование {{---}} процесс получения нуклеотидной последовательности из молекулы ДНК. <ref>[https://en.wikipedia.org/wiki/Sequencing Википедия: Секвенирование]</ref>
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая в свою очередь кодирует любой белок в организме.

Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Пространственная же структура белка важна для генерации мишеней, поэтому задача предсказания структуры является очень важной. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать, сможет ли это соединение захватить свою мишень, не дав ей закрепиться в организме пациента.

Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили, что решили проблему пространственной структуры белка.<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref> Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10-10м).

===Генерация молекулярных структур===
[[Файл:Ranc scheme.png|thumb|Пример генеративной состязательной сети для лекарственных молекул. Сеть RANC (Reinforced Adversarial Neural Computer). Источник: https://pubs.acs.org/doi/10.1021/acs.jcim.7b00690]]
Еще одна задача, которая есть сейчас в мире машинного обучения {{---}} генерировать новые молекулы, которые могут потенциально быть лекарствами. Для этого используют [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Основное преимущество такого подхода заключается в том, что при работе с библиотеками уже синтезированных лекарств есть вероятность "пропустить" важное соединение просто потому, что в этой библиотеке его не было. Поэтому используется абсолютно другой подход {{---}} предлагается наоборот генерировать различные молекулы, а уже потом проверять, действительно ли их можно использовать как лекарство и насколько сложно их синтезировать. Часто эти свойства вносят в метрику качества генератора.

SMILES {{---}} способ однозначного задания молекулы при помощи строки. Таким образом, задача генератора {{---}} сгенерировать такую строку SMILES для молекулы, чтобы дискриминатор не отличил ее от настоящей. Архитектура дискриминатора чаще всего остается очень похожей на архитектуру обычной сети, предсказывающей молекулярные свойства. Таким образом, в качестве дискриминатора часто используются графовые или сверточные нейронные сети. Для генератора же часто используют механизм памяти, чтобы сеть помнила, какие части уже были сгенерированы и отталкивалась от них.

==См. также==
* [[Нейронные сети, перцептрон]]
* [[Глубокое обучение]]
* [[Графовые нейронные сети]]
* [[Компьютерное зрение]]
* [[Обучение с подкреплением]]

==Примечания==
* [https://en.wikipedia.org/wiki/Protein_structure_prediction#:~:text=Protein%20structure%20prediction%20is%20the,inverse%20problem%20of%20protein%20design. Protein structure prediction]
* [https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D0%B0 Википедия: Персонализированная медицина]
* [https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf CoroNet: A deep neural network for detection and diagnosis of COVID-19 from chest x-ray images]
* [https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/ 7 Applications of Machine Learning in Pharma and Medicine]
* [https://www.nature.com/articles/s41563-019-0360-1 Ascent of machine learning in medicine]
* [http://jtelemed.ru/article/glubokoe-mashinnoe-obuchenie-iskusstvennyj-intellekt-v-ultrazvukovoj-diagnostike Глубокое машинное обучение (искусственный интеллект) в ультразвуковой диагностике]
* [https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2 Convolutional neural network models for cancer type prediction based on gene expression]
* [https://docplayer.ru/85522413-Smetannikov-ivan-borisovich.html Сметанников Иван Борисович, Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных]

==Источники информации==

[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
[[Категория: Практические применения машинного обучения]]

Машинное обучение в медицине

2021-01-09T12:53:11Z

188.170.82.221: /* Предсказание формы белка */

Машинное обучение в медицине используют очень активно, находя все больше областей для его применения. Сейчас в медицине использут почти [[Общие понятия|все виды машинного обучения]]: обучение с учителем, без учителя, с частичным привлечением учителя, с подкреплением. Наиболее активно машинное обучение в медицине используют для решения проблем по диагностике заболеваний и дизайну лекарств. Эти задачи относят к обучению с учителем или [[Обучение с частичным привлечением учителя|с частичным привлечением учителя]]. Кроме того, машинное обучение стали применять в персонализированной медицине и генерации данных различных исследований для анонимизации данных пациентов. В этих задачах сейчас все больше применяют [[Обучение с подкреплением|обучение с подкреплением]] и обучение без учителя, в частности, [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Машинное обучение в медицине начали изучать еще в 2000-ых и оно продолжает активно развиваться и в наши дни.

==Диагностика заболеваний по результатам рентгенологических и УЗИ исследований==
[[Файл:Covid cnn recognition.png|thumb|Пример вероятностной классификации КТ грудной клетки. Источник:https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf]]
[[Файл:Spine x ray cnn.png|thumb|Пример локализации шейного отдела позвоночника на рентгене. Источник: https://lhncbc.nlm.nih.gov/system/files/pub9781.pdf]]
===Диагностика по изображению===
[[Файл:Brain tumor mri cnn.jpg|thumb|left|200px|Пример классификации результатов МРТ на изображения с опухолью и без опухоли. Источник: https://biomedpharmajournal.org/vol11no3/brain-tumor-classification-using-convolutional-neural-networks/]]
В диагностике заболеваний есть большое количество задач, которые можно решить при помощи машинного обучения, а в частности, при помощи анализа результатов различных исследований, таких как рентген, УЗИ или МРТ. В основном задача любой модели сводится к предсказанию, болен ли человек сейчас (иногда обычная мультиклассовая классификация, иногда {{---}} вероятностная классификация).

Для решения таких задач чаще всего используют [[глубокое обучение]]. Такие модели на вход получают картинку с рентгенологическим или ультразвуковым исследованием пациента и по ним предсказывают наличие болезни. Обычно внутри таких моделей-классификаторов лежат [[сверточные нейронные сети]], а иногда к ним добавляются [[механизм внимания]]. За основу берутся state-of-the-art модели в области сверточных нейронных сетей, такие как GoogleLeNet<ref>[https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/43022.pdf Szegedy et al., Going Deeper with Convolutions, 2015. GoogLeNet.]</ref>, при этом точность предсказаний превышает 90%. Такие модели учатся на размеченных тренировочных наборах данных, поэтому их можно отнести к обучению с учителем. Большое распространение такие классификаторы получили в предсказании злокачественности новообразований, классификации заболеваний легких, подборе дозы контраста при проведении МРТ.

Кроме того, есть и другое применение. Многие модели учатся не только определять, есть ли опухоль на данном образце, но и локализировать ее положение. Таким образом, необходимо решить задачу сегментации изображения, то есть выделения каких-то ее наиболее важных частей. Технически задача не сильно отличается от предыдущей и решается все теми же сверточными нейронными сетями.

===Применения===
Поскольку точность предсказаний у описанных выше моделей достаточно высока, их стали применять на практике. Сейчас ведутся исследования по внедрению таких моделей в УЗИ-аппараты для того, чтобы быстрее и точнее определять местоположение и злокачественность опухоли. Кроме того, такие модели стали применять в направленной лучевой терапии, когда злокачественная опухоль облучается различными видами частиц. Известно, что эти частицы уничтожают не только раковые, но и здоровые клетки. Именно поэтому активно внедряются модели, которые могут подсказать аппарату точное направление облучения. Также сверточные сети стали использовать для определения дозы контрастного вещества при МРТ<ref>[https://www.sciencedirect.com/science/article/pii/S0939388918301181 Lundervold et al., An overview of deep learning in medical imaging focusing on MRI, 2019]</ref>.

===Генерация результатов исследований===
[[Файл:3d mri models comparison.png|450px|thumb|Сравнение различных моделей для генерации 3D изображений МРТ исследований. Источник: https://arxiv.org/pdf/1908.02498.pdf]]

Для обучения сверточных нейронных сетей необходимо большое количество данных, которые очень часто достаточно тяжело или даже невозможно получить из-за запрета на использование данных исследований даже в анонимном формате без согласия пациента. Поэтому сейчас для получения достаточно больших датасетов стали применять [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

Задачу таких GAN можно разделить на две: генерация результатов исследований здоровых пациентов и пациентов с патологиями. В случае второй задачи важно, чтобы сгенерированные изображения правильно определялись именно по типу патологии.

Основная проблема, с которой сталкиваются такие модели {{---}} необходимость очень точно определять границы объекта на сгенерированном изображении, а также не допускать размытости. Эти две проблемы долгое время не получалось решить без большого количества реальных данных, вследствие чего не было возможным применение сгенерированных изображений на практике.

Сильно улучшить поведение моделей удалось путем использования метрики Васерштейна<ref>[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0_%D0%92%D0%B0%D1%81%D0%B5%D1%80%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0 Википедия:Метрика Васерштейна]</ref>, которая, если провести аналогию с землей, измеряет минимальную стоимость преобразования одного распределения земли в другое, при этом предполагается, что стоимость прямо пропорциональна количеству земли и расстоянию, на которое ее надо перетащить. Использование такой метрики в GAN помогло сильно улучшить поведение моделей при генерации данных МРТ исследований.

==Персонализированная медицина==
Персонализированная медицина (англ. personalized medicine) {{---}} новая организационная модель построения медицинской помощи пациентам, которая основывается на подборе индивидуальных лечебных, диагностических и превентивных средств, оптимально подходящих по биохимическим, физиологическим и генетическим особенностям организма.

Основная цель нового направления в медицине заключается в персонализации и оптимизации профилактических мероприятий и лечения пациентов для исключения негативных последствий и осложнений, проявляющихся из-за индивидуальных особенностей.
Основные отрасли медицины, где применяются новые принципы — онкология, фармация и фармакогеномика. Последняя занимается изучением реакций организма на медицинские препараты в зависимости от индивидуальных наследственных факторов.

===Экспрессия генов и анализ транскриптомных данных===
[[Файл:Gene expression based cnn.jpg|400px|thumb|Примеры архитектур сверточных сетей, предсказывающих вероятность рака по экспрессии генов. Источник: https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2]]
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети, располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.

Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптом {{---}} совокупность всех молекул РНК, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК). Транскриптом включает в себя матричную РНК (РНК, с которой впоследствии транслируются белки) и некодирующую РНК, которая, в свою очередь, не используется для получения белков. Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (англ. RNA-seq) или ДНК-микрочипов (англ. DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют матричную РНК (мРНК), которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].

===Уменьшение размерности при работе с данными экспрессии генов===
[[Файл:Melif scheme.png|400px|thumb|Описание алгоритма MeLiF. Источник: http://fppo.ifmo.ru/?page1=16&page2=86&number_file=E63E46A38DD44C84B7B9446996EB225F]]
Для уменьшения размерности в случае биологических данных применяются методы, основным критерием которых становится их скорость. Поскольку количество генов очень велико, чаще всего нет возможности опробовать встраиваемые и оберточные методы. Чаще всего, используют фильтры.

Одним из примеров моделей, основанных на фильтрах является модель MeLiF<ref>[https://www.researchgate.net/publication/317201206_MeLiF_Filter_Ensemble_Learning_Algorithm_for_Gene_Selection| Smetannikov et al., MeLiF: Filter Ensemble Learning Algorithm for Gene Selection]</ref>, которая берет несколько фильтров <tex>M_i</tex> с соответствующими функциями измерения релевантности признака <tex>\mu_i</tex>, после чего строит новую меру значимости как <tex>\mu=\sum_{i=1}^{|M|} \alpha_{i} \mu_{i}</tex>, где <tex>\left\{\alpha_{i}\right\}_{i=1}^{|M|}</tex> {{---}} набор вещественных коэффициентов. После получения новой меры значимости происходит оценка модели на <tex>t</tex> лучших выбранных признаках. В случае удовлетворительного результата алгоритм завершается, возвращая текущий набор признаков, иначе {{---}} возвращается снова к получению новой меры на <tex>t+1</tex> признаках.

===Медицинская карта===
Другая задача {{---}} предсказать, заболеет ли человек в будущем. Для этого часто используется электронная медицинская карта пациента, и на вход сети подаются данные о пациенте, результаты исследований, его генеалогическое древо и другая медицинская информация. Основываясь на полученных данных, модель должна предсказать вероятность того, что человек может заболеть каждой болезнью из приведенного набора. Если вероятность хотя бы по одному из маркеров превышает некоторое значение {{---}} такая модель рекомендует пациенту обратиться к специалисту и относит его в группу высокого риска по этому параметру. В свою очередь специалист может подтвердить или же опровергнуть опасения модели, отдавая ей результат {{---}} права модель или нет. Таким образом, эта проблема относится к классу задач [[Обучение с подкреплением|обучения с подкреплением]]. С точки зрения архитектуры моделей {{---}} в таких задачах часто используют [[метод опорных векторов (SVM)]] или [[глубокое обучение]].

==Поиск лекарств==
Поиск лекарств (англ. drug discovery, drug design) {{---}} процесс поиска новых лекарственных средств, часто основанный на знаниях о биологической мишени.
При поиске новых лекарственных средств часто прибегают к помощи машинного обучения в таких задачах, как предсказание молекулярных свойств потенциальной молекулы лекарства, формы какого-либо белка, активности взаимодействия между двумя молекулами и т.д.

===Предсказание молекулярных свойств===
[[Файл:MoleculeGNN.PNG|400px|thumb|Молекулярный граф]]
[[Файл:Morgan fingerprint.jpg|400px|thumb|Пример Morgan Fingerprint для молекулы. Источник: https://www.sciencedirect.com/science/article/abs/pii/S1046202314002631]]
Одна из главных задач машинного обучения при поиске новых лекарств {{---}} сужение круга их поиска. Чаще всего фармацевтические компании имеют на руках библиотеки с огромным количеством веществ, которые они потенциально могут синтезировать и опробовать в качестве лекарства. Но обычно размеры этих библиотек составляют тысячи молекул, поэтому синтезировать и проверить каждую из них не представляется возможным. В этом случае прибегают к предсказанию некоторых свойств этих молекул, которые точно определяют, может ли молекула быть использована как лекарство. Для предсказания свойств молекул обычно используют молекулярный граф {{---}} графическое представление молекулы (ее атомов и связей).

Первые нейронные сети для предсказания молекулярных свойств использовали Моргановские фингерпринты (англ. Morgan fingerpints), которые для каждого атома в молекуле выделяли всех его соседей на каком-то определенном расстоянии (которое является гиперпараметром) и смотрели на наличие такой подструктуры в молекуле. Получался аналог некоторого оne-hot кодирования. Впоследствии этот метод был несколько усовершенствован, и стали смотреть не на наличие подструктуры, а на то, сколько раз она встречается в молекуле. Прорыв в этой области случился с появлением сети NeuralFingerprints <ref>[https://arxiv.org/abs/1509.09292 Duvenaud et al., Convolutional Networks on Graphs for Learning Molecular Fingerprints, 2015]</ref>, которая является примером одной из первых попыток применения [[графовые нейронные сети|графовых нейронных сетей]] в этой области.

NeuralFingerprints принимает один гиперпараметр {{---}} максимальное расстояние, которое нужно учитывать при просмотре соседей каждого атома. После этого для каждого расстояния для каждого атома суммируются атомные представления его соседей на текущем расстоянии. Таким образом, получается векторное представление текущего атома фиксированной длины, которая равна количеству свойств у одного атома. Каждый элемент такого представления умножается на обучаемый параметр, уникальный для номера свойства и текущего рассматриваемого расстояния. После этого применяется функция активации к полученному ранее вектору, умноженному на вес, отвечающий за текущее расстояние. Полученные результаты для каждого из атомов на каждом из расстояний суммируются и получается результирующий вектор свойств для молекулы. Таким образом, в этой сети обучаемые параметры {{---}} веса для каждого из свойств атомов на каждом расстоянии (<tex>H^i_j</tex>, где <tex>i</tex> {{---}} индекс номера свойства (в модели их всего 5), <tex>j</tex> {{---}} индекс для текущего расстояния) и веса для каждого из расстояний (<tex>W_j</tex>, где <tex>j</tex> {{---}} индекс для текущего расстояния). Псевдокод представлен ниже.
'''function''' neuralFingerptint(molecule, R, H, W): # R - максимальное расстояние, H - матрица весов размера len(molecule)<tex>\cdot</tex>R, W - вектор весов размера R
f = array[len(molecule), 0]
'''for''' a in molecule:
r[a] = g(a) # записываем свойства для каждого атома
'''for''' L = 1 to R:
'''for''' a in molecule:
neighbors = '''neighbors'''(a) # смотрим соседей на расстоянии L от текущего атома a
v = r[a] + '''sum'''(r[i] for i in neighbors) # суммируем вектора соседей и вектор текущего атома
r[a] = '''σ'''(v <tex>\cdot</tex>H[a][L]) # изменяем представление текущего атома
i = '''softmax'''(r[a]<tex>\cdot</tex>W[L]) # получаем вектор для текущего атома и расстояния
f = f + i # добавляем его к ответу
'''return''' f

Эта сеть была одной из первых в этой области, и сейчас используется как базовый метод в огромном количестве статей. В основу новых методов сейчас все еще чаще всего ложатся [[графовые нейронные сети]]. Подходы графовых нейронных сетей адаптируют под молекулярный граф путем поиска элементов на расстоянии не более, чем N (где N является гиперпараметром), или последовательным рассмотрением каждой вершины и усреднением полученных значений.

===Предсказание формы белка===
[[Файл:AlphaFold 2 block design.png|400px|thumb|Архитектура AlphaFold2, модели для предсказания пространственной структуры белка. Источник: https://en.wikipedia.org/wiki/AlphaFold]]
Секвенирование {{---}} процесс получения нуклеотидной последовательности из молекулы ДНК. <ref>[https://en.wikipedia.org/wiki/Sequencing Википедия: Секвенирование]</ref>
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая в свою очередь кодирует любой белок в организме.

Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Пространственная же структура белка важна для генерации мишеней, поэтому задача предсказания структуры является очень важной. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать, сможет ли это соединение захватить свою мишень, не дав ей закрепиться в организме пациента.

Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили, что решили проблему пространственной структуры белка.<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref> Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10-10м).

===Генерация молекулярных структур===
[[Файл:Ranc scheme.png|thumb|Пример генеративной состязательной сети для лекарственных молекул. Сеть RANC (Reinforced Adversarial Neural Computer). Источник: https://pubs.acs.org/doi/10.1021/acs.jcim.7b00690]]
Еще одна задача, которая есть сейчас в мире машинного обучения {{---}} генерировать новые молекулы, которые могут потенциально быть лекарствами. Для этого используют [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Основное преимущество такого подхода заключается в том, что при работе с библиотеками уже синтезированных лекарств есть вероятность "пропустить" важное соединение просто потому, что в этой библиотеке его не было. Поэтому используется абсолютно другой подход {{---}} предлагается наоборот генерировать различные молекулы, а уже потом проверять, действительно ли их можно использовать как лекарство и насколько сложно их синтезировать. Часто эти свойства вносят в метрику качества генератора.

SMILES {{---}} способ однозначного задания молекулы при помощи строки. Таким образом, задача генератора {{---}} сгенерировать такую строку SMILES для молекулы, чтобы дискриминатор не отличил ее от настоящей. Архитектура дискриминатора чаще всего остается очень похожей на архитектуру обычной сети, предсказывающей молекулярные свойства. Таким образом, в качестве дискриминатора часто используются графовые или сверточные нейронные сети. Для генератора же часто используют механизм памяти, чтобы сеть помнила, какие части уже были сгенерированы и отталкивалась от них.

==См. также==
* [[Нейронные сети, перцептрон]]
* [[Глубокое обучение]]
* [[Графовые нейронные сети]]
* [[Компьютерное зрение]]
* [[Обучение с подкреплением]]

==Примечания==
* [https://en.wikipedia.org/wiki/Protein_structure_prediction#:~:text=Protein%20structure%20prediction%20is%20the,inverse%20problem%20of%20protein%20design. Protein structure prediction]
* [https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D0%B0 Википедия: Персонализированная медицина]
* [https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf CoroNet: A deep neural network for detection and diagnosis of COVID-19 from chest x-ray images]
* [https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/ 7 Applications of Machine Learning in Pharma and Medicine]
* [https://www.nature.com/articles/s41563-019-0360-1 Ascent of machine learning in medicine]
* [http://jtelemed.ru/article/glubokoe-mashinnoe-obuchenie-iskusstvennyj-intellekt-v-ultrazvukovoj-diagnostike Глубокое машинное обучение (искусственный интеллект) в ультразвуковой диагностике]
* [https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2 Convolutional neural network models for cancer type prediction based on gene expression]
* [https://docplayer.ru/85522413-Smetannikov-ivan-borisovich.html Сметанников Иван Борисович, Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных]

==Источники информации==

[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
[[Категория: Практические применения машинного обучения]]

Генерация объектов

2021-01-08T15:33:52Z

188.170.82.221:

{{В разработке}}

'''Задача генерации объектов''' (англ. ''object generation problem'') {{---}} задача, связанная с машинным обучением, заключающаяся в создании новых правдоподобных объектов на основании заданной выборки.
Полученные объекты могут быть использованы как для прикладных целей (в таком случае, это чаще всего изображения), так и для генерации объектов для тренировочной выборки, когда размечать настоящие данные — долго и дорого, или их нужно анонимизировать. В зависимости от того, для какой из этих целей используется генерация объектов, постановка задачи и методы её решения несколько отличаются.

== Генерация объектов для прикладных целей ==

=== Применение ===

==== Изображения ====

===== В искусстве и рекламе =====
При генерации объектов основная задача обычно состоит в том, чтобы научиться создавать изображения, которые человек не может отличить от изображений, полученных иных путём. Такие изображения могут использоваться, среди прочего, для более дешёвого создания модельных снимков, обложек или пейзажей. Одним из ярких примеров такого использования является создание фотографий вымышленных людей для рекламы в расчёте на то, что люди будут больше ассоциировать себя с образом, не представляющим кого-либо конкретного, но сочетающим в себе те черты, которые есть у них самих. А модель [[Generative Adversarial Nets (GAN) | GAN]] под названием Speech2Face может реконструировать изображение лица человека после прослушивания его голоса.

===== В науке =====

Генерация объектов может улучшать астрономические изображения и использоваться при моделировании дорогостоящих для изучения физических процессов. Так, в 2019 году при помощи [[Generative Adversarial Nets (GAN) | состязательных сетей]] были успешно смоделированы распределения темной материи в определенном направлении в пространстве и составлены предсказания гравитационного линзирования.

GAN также может использоваться для обнаружения глаукомных изображений, помогая ранней диагностике, которая необходима для предотвращения частичной или полной потери зрения.<ref>[https://www.sciencedirect.com/science/article/abs/pii/S1568494620301058?via%3Dihub Статья про обнаружение глаукомных изображений]</ref>

==== Музыка и звуки ====

В Google активно используется модель [https://en.wikipedia.org/wiki/WaveNet WaveNet] которая способна генерировать речь, похожую на голос любого человека, и другие звуки, включая музыку (например, композиции на пианино) <ref>[https://habr.com/ru/company/Voximplant/blog/309648/ Google WaveNet]</ref>.



==== Анимация и игры ====

Еще генерация объектов может использоваться при воссоздании текстур старых игр в лучшем расширении (пример игры, для которой был использован такой метод – [https://ru.wikipedia.org/wiki/Resident_Evil Resident Evil] ).
[[File:propal_chelovek.jpg|thumb|Пример сгенерированного изображения]]

=== Используемые модели ===

Для достижения данной цели обычно используются [[Порождающие модели | порождающие модели]]. В таком варианте в качестве задачи ставится восстановление совместного распределения <tex>p(x,y)</tex>, где <tex>y</tex> — это один бит, отвечающий за отдельный признак (то есть тот класс, к которому должна принадлежать созданный объект; например, фотография человека), а <tex>x</tex> — это весь объект (фотография).
Чаще всего порождаемый объект <tex>X</tex> представляет собой набор элементов <tex>X = \{x_i\}</tex>, что позволяет порождать объект по частям. Для изображения, например, такими частями будут являться пиксели. Таким образом, при порождении следующих частей объекта мы можем опираться на уже созданные, и тогда перед нами встаёт задача максимизация функции правдоподобия: для набора данных <tex>X = \{x_i\}</tex> максимизировать <tex>\displaystyle \prod_i p_{\operatorname{model}}(x_i,\theta)</tex> по параметрам модели θ, т.е. найти <math>\theta^* = \underset{\theta}{\operatorname{argmax}} \displaystyle \prod_i p_{\operatorname{model}}(x_i,\theta)</math>. Эта задача относится к классу задач обучения без учителя или с частичным привлечением учителя. При её решении либо работают с явными распределениями, сводя распределение <tex>p(x,y)</tex> к произведению распределений определённой структуры, либо используют неявные модели, которые не восстанавливают всю функцию плотности, а только моделируют ту часть этой функции, которая нужна непосредственно. Стоит отметить, что простые порождающие модели, такие как наивный байесовский классификатор, не показывают достаточное качество результата, чтобы на их основе можно было сгенерировать полноценные мультимедиа объекты. Из класса порождающих моделей при генерации именно изображений особенно хорошо показали себя модели [[Generative Adversarial Nets (GAN) | состязательных сетей]], [[PixelRNN и PixelCNN | PixelRNN и PixelCNN]], а также DRAW (рисуют изображение с помощью сочетания [[Рекуррентные нейронные сети | рекуррентных НС]] и [[Механизм внимания | механизма внимания]]). Также стоит отметить модель [https://en.wikipedia.org/wiki/WaveNet WaveNet], используемую для создания звуковых записей. Эта модель создана в 2016 году, а к 2018 году, после нескольких оптимизаций вычислительной сложности, она нашла применение в Google при создании образцов речи на различных языках.



==См. также==
*[[Generative Adversarial Nets (GAN)]]
*[[Генерация изображения по тексту]]
*[[Порождающие модели]]

== Примечания ==
<references/>
== Источники ==

<ol>
<li>[https://en.wikipedia.org/wiki/Generative_adversarial_network Генеративно-состязательная сеть]</li>
<li>[https://en.wikipedia.org/wiki/WaveNet WaveNet]</li>

<li>[https://towardsdatascience.com/dealing-with-imbalanced-classes-in-machine-learning-d43d6fa19d2 Методы работы с небалансными классами]</li>
<li>[https://basegroup.ru/community/articles/imbalance-datasets Несбалансированные датасеты]</li>
</ol>

[[Категория: Машинное обучение]]
[[Категория: Порождающие модели]]
[[Категория: Генерация объектов]]

Машинное обучение в медицине

2021-01-08T15:26:23Z

188.170.82.221:

К задачам машинного обучения в медицине относят проблемы по диагностике заболеваний и дизайну лекарств. Эти задачи относят к обучению с учителем или [[Обучение с частичным привлечением учителя|с частичным привлечением учителя]]. Кроме того, машинное обучение стали применять в персонализированной медицине и генерации данных различных исследований для анонимизации данных пациентов. В этих задачах сейчас все больше применяют [[Обучение с подкреплением|обучение с подкреплением]] и обучение без учителя, в частности, [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Машинное обучение в медицине начали изучать еще 2000-ых и оно продолжает активно развиваться и в наши дни.

==Диагностика заболеваний по результатам рентгенологических и УЗИ исследований==
===Диагностика по изображению===
{|align="center"
|-valign="top"
|[[Файл:Covid cnn recognition.png|thumb|750px|Пример вероятностной классификации КТ грудной клетки. Источник:https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf]]
|[[Файл:Spine x ray cnn.png|400px|thumb|Пример локализации шейного отдела позвоночника на рентгене. Источник: https://lhncbc.nlm.nih.gov/system/files/pub9781.pdf]]
|}
[[Файл:Brain tumor mri cnn.jpg|200px|thumb|Пример классификации результатов МРТ на изображения с опухолью и без. Источник: https://biomedpharmajournal.org/vol11no3/brain-tumor-classification-using-convolutional-neural-networks/]]
В диагностике заболеваний есть большое количество задач, которые можно решить при помощи машинного обучения, а в частности, при помощи анализа результатов различных исследований, таких как рентген, УЗИ или МРТ. В основном задача любой модели сводится к предсказанию, болен ли человек сейчас (иногда обычная мультиклассовая классификация, иногда {{---}} вероятностная классификация).

Для решения таких задач чаще всего используют [[глубокое обучение]]. Такие модели на вход получают картинку с рентгенологическим или ультразвуковым исследованием пациента и по ним предсказывают наличие болезни. Обычно внутри таких моделей-классификаторов лежат [[сверточные нейронные сети]], а иногда к ним добавляются [[механизм внимания]]. За основу берутся state-of-the-art модели в области сверточных нейронных сетей, такие как GoogleLeNet<ref>[https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/43022.pdf Szegedy et al., Going Deeper with Convolutions, 2015. GoogLeNet.]</ref>, при этом точность предсказаний превышает 90%. Такие модели учатся на размеченных тренировочных наборах данных, поэтому их можно отнести к обучению с учителем. Большое распространение такие классификаторы получили в предсказании злокачественности новообразований, классификации заболеваний легких, подборе дозы контраста при проведении МРТ.

Кроме того, есть и другое применение. Многие модели учатся не только определять, есть ли опухоль на данном образце, но и локализировать ее положение. Таким образом, необходимо решить задачу сегментации изображения, то есть выделения каких-то ее наиболее важных частей. Технически задача не сильно отличается от предыдущей и решается все теми же сверточными нейронными сетями.

===Применения===
Поскольку точность предсказаний у описанных выше моделей достаточно высока, их стали применять на практике. Сейчас ведутся исследования по внедрению таких моделей в УЗИ-аппараты для того, чтобы быстрее и точнее определять местоположение и злокачественность опухоли. Кроме того, такие модели стали применять в направленной лучевой терапии, когда злокачественная опухоль облучается различными видами частиц. Известно, что эти частицы уничтожают не только раковые, но и здоровые клетки. Именно поэтому активно внедряются модели, которые могут подсказать аппарату точное направление облучения. Также сверточные сети стали использовать для определения дозы контрастного вещества при МРТ<ref>[https://www.sciencedirect.com/science/article/pii/S0939388918301181 Lundervold et al., An overview of deep learning in medical imaging focusing on MRI, 2019]</ref>.

===Генерация результатов исследований===
[[Файл:3d mri models comparison.png|450px|thumb|Сравнение различных моделей для генерации 3D изображений МРТ исследований. Источник: https://arxiv.org/pdf/1908.02498.pdf]]

Для обучения сверточных нейронных сетей необходимо большое количество данных, которые очень часто достаточно тяжело или даже невозможно получить из-за запрета на использование данных исследований даже в анонимном формате без согласия пациента. Поэтому сейчас для получения достаточно больших датасетов стали применять [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

Задачу таких GAN можно оделить на две: генерация изображений здоровых пациентов и изображений с патологиями. В случае второй задачи важно, чтобы сгенерированные изображения правильно определялись именно по типу патологии.

Основная проблема, с которой сталкиваются такие модели {{---}} необходимость очень точно определять границы объекта на сгенерированном изображении, а также не допускать размытости. Эти две проблемы долгое время не получалось решить без большого количества реальных данных, вследствие чего не было возможным применение сгенерированных изображений на практике.

Сильно улучшить поведение моделей удалось путем использования метрики Васерштейна<ref>[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0_%D0%92%D0%B0%D1%81%D0%B5%D1%80%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0 Википедия:Метрика Васерштейна]</ref>, которая, если провести аналогию с землей, измеряет минимальную стоимость преобразования одного распределения земли в другое, при этом предполагается, что стоимость прямо пропорциональна количеству земли и расстоянию, на которое ее надо перетащить. Использование такой метрики в GAN помогло сильно улучшить поведение моделей при генерации данных МРТ исследований.

==Персонализированная медицина==
Персонализированная медицина {{---}} новая организационная модель построения медицинской помощи пациентам, которая основывается на подборе индивидуальных лечебных, диагностических и превентивных средств, оптимально подходящих по биохимическим, физиологическим и генетическим особенностям организма.

Основная цель нового направления в медицине заключается в персонализации и оптимизации профилактических мероприятий и лечения пациентов для исключения негативных последствий и осложнений, проявляющихся из-за индивидуальных особенностей.
Основные отрасли медицины, где применяются новые принципы — онкология, фармация и фармакогеномика. Последняя занимается изучением реакций организма на медицинские препараты в зависимости от индивидуальных наследственных факторов.

===Экспрессия генов и анализ транскриптомных данных===
[[Файл:Gene expression based cnn.jpg|400px|thumb|Примеры архитектур сверточных сетей, предсказывающих вероятность рака по экспрессии генов. Источник: https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2]]
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети, располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.

Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптом {{---}} совокупность всех молекул РНК, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК). Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (RNA-seq) или ДНК-микрочипов (DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют мРНК, которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].

===Уменьшение размерности при работе с данными экспрессии генов===
[[Файл:Melif scheme.png|400px|thumb|Описание алгоритма MeLiF]]
Для уменьшения размерности в случае биологических данных применяются методы, основным критерием которых становится их скорость. Поскольку количество генов очень велико, чаще всего нет возможности опробовать встраиваемые и оберточные методы. Чаще всего, используют фильтры.

Одним из примеров моделей, основанных на фильтрах является модель MeLiF<ref>[https://www.researchgate.net/publication/317201206_MeLiF_Filter_Ensemble_Learning_Algorithm_for_Gene_Selection| Smetannikov et al., MeLiF: Filter Ensemble Learning Algorithm for Gene Selection]</ref>, которая берет несколько фильтров <tex>M_i</tex> с соответствующими функциями измерения релевантности признака <tex>\mu_i</tex>, после чего строит новую меру значимости как <tex>\mu=\sum_{i=1}^{|M|} \alpha_{i} \mu_{i}</tex>, где <tex>\left\{\alpha_{i}\right\}_{i=1}^{|M|}</tex> {{---}} набор вещественных коэффициентов. После получения новой меры значимости происходит оценка модели на <tex>t</tex> лучших выбранных признаках. В случае удовлетворительного результата алгоритм завершается, возвращая текущий набор признаков, иначе {{---}} возвращается снова к получению новой меры на <tex>t+1</tex> признаках.

===Медицинская карта===
Другая задача {{---}} предсказать, заболеет ли человек в будущем. Для этого часто используется электронная медицинская карта пациента, и на вход сети подаются данные о пациенте, результаты исследований, его генеалогическое древо и другая медицинская информация. Основываясь на полученных данных, модель должна предсказать вероятность того, что человек может заболеть каждым болезнью из приведенного набора. Если вероятность хотя бы по одному из маркеров превышает некоторое значение {{---}} такая модель рекомендует пациенту обратиться к специалисту и относит его в группу высокого риска по этому параметру. В свою очередь специалист может подтвердить или же опровергнуть опасения модели, отдавая ей результат {{---}} права модель или нет. Таким образом, эта проблема относится к классу задач обучения с подкреплением В таких задачах часто используют [[метод опорных векторов (SVM)]] или [[глубокое обучение]].

==Поиск лекарств==
Поиск лекарств (англ. drug discovery, drug design) {{---}} процесс поиска новых лекарственных средств, часто основанный на знаниях о биологической мишени.
При поиске новых лекарственных средств часто прибегают к помощи машинного обучения в таких задачах, как предсказание молекулярных свойств потенциальной молекулы лекарства, формы какого-либо белка, активности взаимодействия между двумя молекулами и т.д.

===Предсказание молекулярных свойств===
[[Файл:MoleculeGNN.PNG|400px|thumb|Молекулярный граф]]
[[Файл:Morgan fingerprint.jpg|400px|thumb|Пример Morgan Fingerprint для молекулы. Источник: https://www.sciencedirect.com/science/article/abs/pii/S1046202314002631]]
Одна из главных задач машинного обучения при поиске новых лекарств {{---}} сужение круга их поиска. Чаще всего фармацевтические компании имеют на руках библиотеки с огромным количеством веществ, которые они потенциально могут синтезировать и опробовать в качестве лекарства. Но обычно размеры этих библиотек составляют тысячи молекул, поэтому синтезировать и проверить каждую из них не представляется возможным. В этом случае прибегают к предсказанию некоторых свойств этих молекул, которые точно определяют, может ли молекула быть использована как лекарство. Для предсказания свойств молекул обычно используют молекулярный граф {{---}} графическое представление молекулы (ее атомов и связей).

Первые нейронные сети для предсказания молекулярных свойств использовали Моргановские фингерпринты (англ. Morgan fingerpints), которые для каждого атома в молекуле выделяли всех его соседей на каком-то определенном расстоянии (которое является гиперпараметром) и смотрели на наличие такой подструктуры в молекуле. Получался аналог некоторого оne-hot кодирования. Впоследствии этот метод был несколько усовершенствован, и стали смотреть не на наличие подструктуры, а на то, сколько раз она встречается в молекуле. Прорыв в этой области случился с появлением сети NeuralFingerprints <ref>[https://arxiv.org/abs/1509.09292 Duvenaud et al., Convolutional Networks on Graphs for Learning Molecular Fingerprints, 2015]</ref>, которая является примером одной из первых попыток применения [[графовые нейронные сети|графовых нейронных сетей]] в этой области.

NeuralFingerprints принимает один гиперпараметр {{---}} максимальное расстояние, которое нужно учитывать при просмотре соседей каждого атома. После этого для каждого расстояния для каждого атома суммируются атомные представления его соседей на текущем расстоянии. Таким образом, получается векторное представление текущего атома фиксированной длины, которая равна количеству свойств у одного атома. Каждый элемент такого представления умножается на обучаемый параметр, уникальный для номера свойства и текущего рассматриваемого расстояния. После этого применяется функция активации к полученному ранее вектору, умноженному на вес, отвечающий за текущее расстояние. Полученные результаты для каждого из атомов на каждом из расстояний суммируются и получается результирующий вектор свойств для молекулы. Таким образом, в этой сети обучаемые параметры {{---}} веса для каждого из свойств атомов на каждом расстоянии (<tex>H^i_j</tex>, где <tex>i</tex> {{---}} индекс номера свойства (в модели их всего 5), <tex>j</tex> {{---}} индекс для текущего расстояния) и веса для каждого из расстояний (<tex>W_j</tex>, где <tex>j</tex> {{---}} индекс для текущего расстояния). Псевдокод представлен ниже.
'''function''' neuralFingerptint(molecule, R, H, W): # R - максимальное расстояние, H - матрица весов размера len(molecule)<tex>\cdot</tex>R, W - вектор весов размера R
f = array[len(molecule), 0]
'''for''' a in molecule:
r[a] = g(a) # записываем свойства для каждого атома
'''for''' L = 1 to R:
'''for''' a in molecule:
neighbors = '''neighbors'''(a) # смотрим соседей на расстоянии L от текущего атома a
v = r[a] + '''sum'''(r[i] for i in neighbors) # суммируем вектора соседей и вектор текущего атома
r[a] = '''σ'''(v <tex>\cdot</tex>H[a][L]) # изменяем представление текущего атома
i = '''softmax'''(r[a]<tex>\cdot</tex>W[L]) # получаем вектор для текущего атома и расстояния
f = f + i # добавляем его к ответу
'''return''' f

Эта сеть была одной из первых в этой области, и сейчас используется как базовый метод в огромном количестве статей. В основу новых методов сейчас все еще чаще всего ложатся [[графовые нейронные сети]]. Подходы графовых нейронных сетей адаптируют под молекулярный граф путем поиска элементов на расстоянии не более, чем N (где N является гиперпараметром), или последовательным рассмотрением каждой вершины и усреднением полученных значений.

===Предсказание формы белка===
[[Файл:AlphaFold 2 block design.png|400px|thumb|Архитектура AlphaFold2, модели для предсказания пространственной структуры белка. Источник: https://en.wikipedia.org/wiki/AlphaFold]]
Секвенирование {{---}} процесс получения нуклеотидной последовательности из молекулы ДНК. <ref>[https://en.wikipedia.org/wiki/Sequencing Википедия: Секвенирование]</ref>
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая в свою очередь кодирует любой белок в организме.

Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Пространственная же структура белка важна для генерации мишеней, поэтому задача предсказания структуры является очень важной. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать сможет ли это соединение захватить свою мишень, не дав ей закрепиться в организме пациента.

Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили, что решили проблему пространственной структуры белка.<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref> Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10-10м).

===Генерация молекулярных структур===
[[Файл:Ranc scheme.png|400px|thumb|Пример генеративной состязательной сети для лекарственных молекул. Сеть RANC (Reinforced Adversarial Neural Computer). Источник: https://pubs.acs.org/doi/10.1021/acs.jcim.7b00690]]
Еще одна задача, которая есть сейчас в мире машинного обучения {{---}} генерировать новые молекулы, которые могут потенциально быть лекарствами. Для этого используют [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Основное преимущество такого подхода заключается в том, что при работе с библиотеками уже синтезированных лекарств есть вероятность "пропустить" важное соединение просто потому, что в этой библиотеке его не было. Поэтому используется абсолютно другой подход {{---}} предлагается наоборот генерировать различные молекулы, а уже потом проверять, действительно ли их можно использовать как лекарство и насколько сложно их синтезировать. Часто эти свойства вносят в метрику качества генератора.

SMILES {{---}} способ однозначного задания молекулы при помощи строки. Таким образом, задача генератора {{---}} сгенерировать такую строку SMILES для молекулы, чтобы дискриминатор не отличил ее от настоящей. Архитектура дискриминатора чаще всего остается очень похожей на архитектуру обычной сети, предсказывающей молекулярные свойства. Таким образом, в качестве дискриминатора часто используются графовые или сверточные нейронные сети. Для генератора же часто используют механизм памяти, чтобы сеть помнила, какие части уже были сгенерированы и отталкивалась от них.

==См. также==
* [[Нейронные сети, перцептрон]]
* [[Глубокое обучение]]
* [[Графовые нейронные сети]]
* [[Компьютерное зрение]]
* [[Обучение с подкреплением]]

==Примечания==
* [https://en.wikipedia.org/wiki/Protein_structure_prediction#:~:text=Protein%20structure%20prediction%20is%20the,inverse%20problem%20of%20protein%20design. Protein structure prediction]
* [https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D0%B0 Википедия: Персонализированная медицина]
* [https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf CoroNet: A deep neural network for detection and diagnosis of COVID-19 from chest x-ray images]
* [https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/ 7 Applications of Machine Learning in Pharma and Medicine]
* [https://www.nature.com/articles/s41563-019-0360-1 Ascent of machine learning in medicine]
* [http://jtelemed.ru/article/glubokoe-mashinnoe-obuchenie-iskusstvennyj-intellekt-v-ultrazvukovoj-diagnostike Глубокое машинное обучение (искусственный интеллект) в ультразвуковой диагностике]
* [https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2 Convolutional neural network models for cancer type prediction based on gene expression]
* [https://docplayer.ru/85522413-Smetannikov-ivan-borisovich.html Сметанников Иван Борисович, Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных]

==Источники информации==

[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
[[Категория: Практические применения машинного обучения]]

Машинное обучение в медицине

2021-01-08T15:00:41Z

188.170.82.221: /* Предсказание молекулярных свойств */

Машинное обучение в медицине начали применять еще в 2000-ых, и сейчас машинное обучение, а в частности, [[Нейронные сети, перцептрон|нейронные сети]] пытаются решать огромное количество задач по диагностике заболеваний и дизайну лекарств. Эти задачи относят к обучению с учителем или [[Обучение с частичным привлечением учителя|с частичным привлечением учителя]]. Кроме того, машинное обучение стали применять в персонализированной медицине и генерации данных различных исследований для анонимизации данных пациентов. В этих задачах сейчас все больше применяют [[Обучение с подкреплением|обучение с подкреплением]] и обучение без учителя, в частности, [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

==Диагностика заболеваний по результатам рентгенологических и УЗИ исследований==
===Диагностика по изображению===
{|align="center"
|-valign="top"
|[[Файл:Covid cnn recognition.png|thumb|750px|Пример вероятностной классификации КТ грудной клетки. Источник:https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf]]
|[[Файл:Spine x ray cnn.png|400px|thumb|Пример локализации шейного отдела позвоночника на рентгене. Источник: https://lhncbc.nlm.nih.gov/system/files/pub9781.pdf]]
|}
[[Файл:Brain tumor mri cnn.jpg|200px|thumb|Пример классификации результатов МРТ на изображения с опухолью и без. Источник: https://biomedpharmajournal.org/vol11no3/brain-tumor-classification-using-convolutional-neural-networks/]]
В диагностике заболеваний есть большое количество задач, которые можно решить при помощи машинного обучения, а в частности, при помощи анализа результатов различных исследований, таких как рентген, УЗИ или МРТ. В основном задача любой модели сводится к предсказанию, болен ли человек сейчас (иногда обычная мультиклассовая классификация, иногда {{---}} вероятностная классификация).

Для решения таких задач чаще всего используют [[глубокое обучение]]. Такие модели на вход получают картинку с рентгенологическим или ультразвуковым исследованием пациента и по ним предсказывают наличие болезни. Обычно внутри таких моделей-классификаторов лежат [[сверточные нейронные сети]], а иногда к ним добавляются [[механизм внимания]]. За основу берутся state-of-the-art модели в области сверточных нейронных сетей, такие как GoogleLeNet<ref>[https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/43022.pdf Szegedy et al., Going Deeper with Convolutions, 2015. GoogLeNet.]</ref>, при этом точность предсказаний превышает 90%. Такие модели учатся на размеченных тренировочных наборах данных, поэтому их можно отнести к обучению с учителем. Большое распространение такие классификаторы получили в предсказании злокачественности новообразований, классификации заболеваний легких, подборе дозы контраста при проведении МРТ.

Кроме того, есть и другое применение. Многие модели учатся не только определять, есть ли опухоль на данном образце, но и локализировать ее положение. Таким образом, необходимо решить задачу сегментации изображения, то есть выделения каких-то ее наиболее важных частей. Технически задача не сильно отличается от предыдущей и решается все теми же сверточными нейронными сетями.

===Применения===
Поскольку точность предсказаний у описанных выше моделей достаточно высока, их стали применять на практике. Сейчас ведутся исследования по внедрению таких моделей в УЗИ-аппараты для того, чтобы быстрее и точнее определять местоположение и злокачественность опухоли. Кроме того, такие модели стали применять в направленной лучевой терапии, когда злокачественная опухоль облучается различными видами частиц. Известно, что эти частицы уничтожают не только раковые, но и здоровые клетки. Именно поэтому активно внедряются модели, которые могут подсказать аппарату точное направление облучения. Также сверточные сети стали использовать для определения дозы контрастного вещества при МРТ<ref>[https://www.sciencedirect.com/science/article/pii/S0939388918301181 Lundervold et al., An overview of deep learning in medical imaging focusing on MRI, 2019]</ref>.

===Генерация результатов исследований===
[[Файл:3d mri models comparison.png|450px|thumb|Сравнение различных моделей для генерации 3D изображений МРТ исследований. Источник: https://arxiv.org/pdf/1908.02498.pdf]]

Для обучения сверточных нейронных сетей необходимо большое количество данных, которые очень часто достаточно тяжело или даже невозможно получить из-за запрета на использование данных исследований даже в анонимном формате без согласия пациента. Поэтому сейчас для получения достаточно больших датасетов стали применять [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

Задачу таких GAN можно оделить на две: генерация изображений здоровых пациентов и изображений с патологиями. В случае второй задачи важно, чтобы сгенерированные изображения правильно определялись именно по типу патологии.

Основная проблема, с которой сталкиваются такие модели {{---}} необходимость очень точно определять границы объекта на сгенерированном изображении, а также не допускать размытости. Эти две проблемы долгое время не получалось решить без большого количества реальных данных, вследствие чего не было возможным применение сгенерированных изображений на практике.

Сильно улучшить поведение моделей удалось путем использования метрики Васерштейна<ref>[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0_%D0%92%D0%B0%D1%81%D0%B5%D1%80%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0 Википедия:Метрика Васерштейна]</ref>, которая, если провести аналогию с землей, измеряет минимальную стоимость преобразования одного распределения земли в другое, при этом предполагается, что стоимость прямо пропорциональна количеству земли и расстоянию, на которое ее надо перетащить. Использование такой метрики в GAN помогло сильно улучшить поведение моделей при генерации данных МРТ исследований.

==Персонализированная медицина==
Персонализированная медицина {{---}} новая организационная модель построения медицинской помощи пациентам, которая основывается на подборе индивидуальных лечебных, диагностических и превентивных средств, оптимально подходящих по биохимическим, физиологическим и генетическим особенностям организма.

Основная цель нового направления в медицине заключается в персонализации и оптимизации профилактических мероприятий и лечения пациентов для исключения негативных последствий и осложнений, проявляющихся из-за индивидуальных особенностей.
Основные отрасли медицины, где применяются новые принципы — онкология, фармация и фармакогеномика. Последняя занимается изучением реакций организма на медицинские препараты в зависимости от индивидуальных наследственных факторов.

===Экспрессия генов и анализ транскриптомных данных===
[[Файл:Gene expression based cnn.jpg|400px|thumb|Примеры архитектур сверточных сетей, предсказывающих вероятность рака по экспрессии генов. Источник: https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2]]
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети, располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.

Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптом {{---}} совокупность всех молекул РНК, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК). Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (RNA-seq) или ДНК-микрочипов (DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют мРНК, которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].

===Уменьшение размерности при работе с данными экспрессии генов===
[[Файл:Melif scheme.png|400px|thumb|Описание алгоритма MeLiF]]
Для уменьшения размерности в случае биологических данных применяются методы, основным критерием которых становится их скорость. Поскольку количество генов очень велико, чаще всего нет возможности опробовать встраиваемые и оберточные методы. Чаще всего, используют фильтры.

Одним из примеров моделей, основанных на фильтрах является модель MeLiF<ref>[https://www.researchgate.net/publication/317201206_MeLiF_Filter_Ensemble_Learning_Algorithm_for_Gene_Selection| Smetannikov et al., MeLiF: Filter Ensemble Learning Algorithm for Gene Selection]</ref>, которая берет несколько фильтров <tex>M_i</tex> с соответствующими функциями измерения релевантности признака <tex>\mu_i</tex>, после чего строит новую меру значимости как <tex>\mu=\sum_{i=1}^{|M|} \alpha_{i} \mu_{i}</tex>, где <tex>\left\{\alpha_{i}\right\}_{i=1}^{|M|}</tex> {{---}} набор вещественных коэффициентов. После получения новой меры значимости происходит оценка модели на <tex>t</tex> лучших выбранных признаках. В случае удовлетворительного результата алгоритм завершается, возвращая текущий набор признаков, иначе {{---}} возвращается снова к получению новой меры на <tex>t+1</tex> признаках.

===Медицинская карта===
Другая задача {{---}} предсказать, заболеет ли человек в будущем. Для этого часто используется электронная медицинская карта пациента, и на вход сети подаются данные о пациенте, результаты исследований, его генеалогическое древо и другая медицинская информация. Основываясь на полученных данных, модель должна предсказать вероятность того, что человек может заболеть каждым болезнью из приведенного набора. Если вероятность хотя бы по одному из маркеров превышает некоторое значение {{---}} такая модель рекомендует пациенту обратиться к специалисту и относит его в группу высокого риска по этому параметру. В свою очередь специалист может подтвердить или же опровергнуть опасения модели, отдавая ей результат {{---}} права модель или нет. Таким образом, эта проблема относится к классу задач обучения с подкреплением В таких задачах часто используют [[метод опорных векторов (SVM)]] или [[глубокое обучение]].

==Поиск лекарств==
Поиск лекарств (англ. drug discovery, drug design) {{---}} процесс поиска новых лекарственных средств, часто основанный на знаниях о биологической мишени.
При поиске новых лекарственных средств часто прибегают к помощи машинного обучения в таких задачах, как предсказание молекулярных свойств потенциальной молекулы лекарства, формы какого-либо белка, активности взаимодействия между двумя молекулами и т.д.

===Предсказание молекулярных свойств===
[[Файл:MoleculeGNN.PNG|400px|thumb|Молекулярный граф]]
[[Файл:Morgan fingerprint.jpg|400px|thumb|Пример Morgan Fingerprint для молекулы. Источник: https://www.sciencedirect.com/science/article/abs/pii/S1046202314002631]]
Одна из главных задач машинного обучения при поиске новых лекарств {{---}} сужение круга их поиска. Чаще всего фармацевтические компании имеют на руках библиотеки с огромным количеством веществ, которые они потенциально могут синтезировать и опробовать в качестве лекарства. Но обычно размеры этих библиотек составляют тысячи молекул, поэтому синтезировать и проверить каждую из них не представляется возможным. В этом случае прибегают к предсказанию некоторых свойств этих молекул, которые точно определяют, может ли молекула быть использована как лекарство. Для предсказания свойств молекул обычно используют молекулярный граф {{---}} графическое представление молекулы (ее атомов и связей).

Первые нейронные сети для предсказания молекулярных свойств использовали Моргановские фингерпринты (англ. Morgan fingerpints), которые для каждого атома в молекуле выделяли всех его соседей на каком-то определенном расстоянии (которое является гиперпараметром) и смотрели на наличие такой подструктуры в молекуле. Получался аналог некоторого оne-hot кодирования. Впоследствии этот метод был несколько усовершенствован, и стали смотреть не на наличие подструктуры, а на то, сколько раз она встречается в молекуле. Прорыв в этой области случился с появлением сети NeuralFingerprints <ref>[https://arxiv.org/abs/1509.09292 Duvenaud et al., Convolutional Networks on Graphs for Learning Molecular Fingerprints, 2015]</ref>, которая является примером одной из первых попыток применения [[графовые нейронные сети|графовых нейронных сетей]] в этой области.

NeuralFingerprints принимает один гиперпараметр {{---}} максимальное расстояние, которое нужно учитывать при просмотре соседей каждого атома. После этого для каждого расстояния для каждого атома суммируются атомные представления его соседей на текущем расстоянии. Таким образом, получается векторное представление текущего атома фиксированной длины, которая равна количеству свойств у одного атома. Каждый элемент такого представления умножается на обучаемый параметр, уникальный для номера свойства и текущего рассматриваемого расстояния. После этого применяется функция активации к полученному ранее вектору, умноженному на вес, отвечающий за текущее расстояние. Полученные результаты для каждого из атомов на каждом из расстояний суммируются и получается результирующий вектор свойств для молекулы. Таким образом, в этой сети обучаемые параметры {{---}} веса для каждого из свойств атомов на каждом расстоянии (<tex>H^i_j</tex>, где <tex>i</tex> {{---}} индекс номера свойства (в модели их всего 5), <tex>j</tex> {{---}} индекс для текущего расстояния) и веса для каждого из расстояний (<tex>W_j</tex>, где <tex>j</tex> {{---}} индекс для текущего расстояния). Псевдокод представлен ниже.
'''function''' neuralFingerptint(molecule, R, H, W): # R - максимальное расстояние, H - матрица весов размера len(molecule)<tex>\cdot</tex>R, W - вектор весов размера R
f = array[len(molecule), 0]
'''for''' a in molecule:
r[a] = g(a) # записываем свойства для каждого атома
'''for''' L = 1 to R:
'''for''' a in molecule:
neighbors = '''neighbors'''(a) # смотрим соседей на расстоянии L от текущего атома a
v = r[a] + '''sum'''(r[i] for i in neighbors) # суммируем вектора соседей и вектор текущего атома
r[a] = '''σ'''(v <tex>\cdot</tex>H[a][L]) # изменяем представление текущего атома
i = '''softmax'''(r[a]<tex>\cdot</tex>W[L]) # получаем вектор для текущего атома и расстояния
f = f + i # добавляем его к ответу
'''return''' f

Эта сеть была одной из первых в этой области, и сейчас используется как базовый метод в огромном количестве статей. В основу новых методов сейчас все еще чаще всего ложатся [[графовые нейронные сети]]. Подходы графовых нейронных сетей адаптируют под молекулярный граф путем поиска элементов на расстоянии не более, чем N (где N является гиперпараметром), или последовательным рассмотрением каждой вершины и усреднением полученных значений.

===Предсказание формы белка===
[[Файл:AlphaFold 2 block design.png|400px|thumb|Архитектура AlphaFold2, модели для предсказания пространственной структуры белка. Источник: https://en.wikipedia.org/wiki/AlphaFold]]
Секвенирование {{---}} процесс получения нуклеотидной последовательности из молекулы ДНК. <ref>[https://en.wikipedia.org/wiki/Sequencing Википедия: Секвенирование]</ref>
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая в свою очередь кодирует любой белок в организме.

Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Пространственная же структура белка важна для генерации мишеней, поэтому задача предсказания структуры является очень важной. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать сможет ли это соединение захватить свою мишень, не дав ей закрепиться в организме пациента.

Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили, что решили проблему пространственной структуры белка.<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref> Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10-10м).

===Генерация молекулярных структур===
[[Файл:Ranc scheme.png|400px|thumb|Пример генеративной состязательной сети для лекарственных молекул. Сеть RANC (Reinforced Adversarial Neural Computer). Источник: https://pubs.acs.org/doi/10.1021/acs.jcim.7b00690]]
Еще одна задача, которая есть сейчас в мире машинного обучения {{---}} генерировать новые молекулы, которые могут потенциально быть лекарствами. Для этого используют [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Основное преимущество такого подхода заключается в том, что при работе с библиотеками уже синтезированных лекарств есть вероятность "пропустить" важное соединение просто потому, что в этой библиотеке его не было. Поэтому используется абсолютно другой подход {{---}} предлагается наоборот генерировать различные молекулы, а уже потом проверять, действительно ли их можно использовать как лекарство и насколько сложно их синтезировать. Часто эти свойства вносят в метрику качества генератора.

SMILES {{---}} способ однозначного задания молекулы при помощи строки. Таким образом, задача генератора {{---}} сгенерировать такую строку SMILES для молекулы, чтобы дискриминатор не отличил ее от настоящей. Архитектура дискриминатора чаще всего остается очень похожей на архитектуру обычной сети, предсказывающей молекулярные свойства. Таким образом, в качестве дискриминатора часто используются графовые или сверточные нейронные сети. Для генератора же часто используют механизм памяти, чтобы сеть помнила, какие части уже были сгенерированы и отталкивалась от них.

==См. также==
* [[Нейронные сети, перцептрон]]
* [[Глубокое обучение]]
* [[Графовые нейронные сети]]
* [[Компьютерное зрение]]
* [[Обучение с подкреплением]]

==Примечания==
* [https://en.wikipedia.org/wiki/Protein_structure_prediction#:~:text=Protein%20structure%20prediction%20is%20the,inverse%20problem%20of%20protein%20design. Protein structure prediction]
* [https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D0%B0 Википедия: Персонализированная медицина]
* [https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf CoroNet: A deep neural network for detection and diagnosis of COVID-19 from chest x-ray images]
* [https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/ 7 Applications of Machine Learning in Pharma and Medicine]
* [https://www.nature.com/articles/s41563-019-0360-1 Ascent of machine learning in medicine]
* [http://jtelemed.ru/article/glubokoe-mashinnoe-obuchenie-iskusstvennyj-intellekt-v-ultrazvukovoj-diagnostike Глубокое машинное обучение (искусственный интеллект) в ультразвуковой диагностике]
* [https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2 Convolutional neural network models for cancer type prediction based on gene expression]
* [https://docplayer.ru/85522413-Smetannikov-ivan-borisovich.html Сметанников Иван Борисович, Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных]

==Источники информации==

[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
[[Категория: Практические применения машинного обучения]]

Машинное обучение в медицине

2021-01-08T14:54:44Z

188.170.82.221: /* Генерация молекулярных структур */

Машинное обучение в медицине начали применять еще в 2000-ых, и сейчас машинное обучение, а в частности, [[Нейронные сети, перцептрон|нейронные сети]] пытаются решать огромное количество задач по диагностике заболеваний и дизайну лекарств. Эти задачи относят к обучению с учителем или [[Обучение с частичным привлечением учителя|с частичным привлечением учителя]]. Кроме того, машинное обучение стали применять в персонализированной медицине и генерации данных различных исследований для анонимизации данных пациентов. В этих задачах сейчас все больше применяют [[Обучение с подкреплением|обучение с подкреплением]] и обучение без учителя, в частности, [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

==Диагностика заболеваний по результатам рентгенологических и УЗИ исследований==
===Диагностика по изображению===
{|align="center"
|-valign="top"
|[[Файл:Covid cnn recognition.png|thumb|750px|Пример вероятностной классификации КТ грудной клетки. Источник:https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf]]
|[[Файл:Spine x ray cnn.png|400px|thumb|Пример локализации шейного отдела позвоночника на рентгене. Источник: https://lhncbc.nlm.nih.gov/system/files/pub9781.pdf]]
|}
[[Файл:Brain tumor mri cnn.jpg|200px|thumb|Пример классификации результатов МРТ на изображения с опухолью и без. Источник: https://biomedpharmajournal.org/vol11no3/brain-tumor-classification-using-convolutional-neural-networks/]]
В диагностике заболеваний есть большое количество задач, которые можно решить при помощи машинного обучения, а в частности, при помощи анализа результатов различных исследований, таких как рентген, УЗИ или МРТ. В основном задача любой модели сводится к предсказанию, болен ли человек сейчас (иногда обычная мультиклассовая классификация, иногда {{---}} вероятностная классификация).

Для решения таких задач чаще всего используют [[глубокое обучение]]. Такие модели на вход получают картинку с рентгенологическим или ультразвуковым исследованием пациента и по ним предсказывают наличие болезни. Обычно внутри таких моделей-классификаторов лежат [[сверточные нейронные сети]], а иногда к ним добавляются [[механизм внимания]]. За основу берутся state-of-the-art модели в области сверточных нейронных сетей, такие как GoogleLeNet<ref>[https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/43022.pdf Szegedy et al., Going Deeper with Convolutions, 2015. GoogLeNet.]</ref>, при этом точность предсказаний превышает 90%. Такие модели учатся на размеченных тренировочных наборах данных, поэтому их можно отнести к обучению с учителем. Большое распространение такие классификаторы получили в предсказании злокачественности новообразований, классификации заболеваний легких, подборе дозы контраста при проведении МРТ.

Кроме того, есть и другое применение. Многие модели учатся не только определять, есть ли опухоль на данном образце, но и локализировать ее положение. Таким образом, необходимо решить задачу сегментации изображения, то есть выделения каких-то ее наиболее важных частей. Технически задача не сильно отличается от предыдущей и решается все теми же сверточными нейронными сетями.

===Применения===
Поскольку точность предсказаний у описанных выше моделей достаточно высока, их стали применять на практике. Сейчас ведутся исследования по внедрению таких моделей в УЗИ-аппараты для того, чтобы быстрее и точнее определять местоположение и злокачественность опухоли. Кроме того, такие модели стали применять в направленной лучевой терапии, когда злокачественная опухоль облучается различными видами частиц. Известно, что эти частицы уничтожают не только раковые, но и здоровые клетки. Именно поэтому активно внедряются модели, которые могут подсказать аппарату точное направление облучения. Также сверточные сети стали использовать для определения дозы контрастного вещества при МРТ<ref>[https://www.sciencedirect.com/science/article/pii/S0939388918301181 Lundervold et al., An overview of deep learning in medical imaging focusing on MRI, 2019]</ref>.

===Генерация результатов исследований===
[[Файл:3d mri models comparison.png|450px|thumb|Сравнение различных моделей для генерации 3D изображений МРТ исследований. Источник: https://arxiv.org/pdf/1908.02498.pdf]]

Для обучения сверточных нейронных сетей необходимо большое количество данных, которые очень часто достаточно тяжело или даже невозможно получить из-за запрета на использование данных исследований даже в анонимном формате без согласия пациента. Поэтому сейчас для получения достаточно больших датасетов стали применять [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

Задачу таких GAN можно оделить на две: генерация изображений здоровых пациентов и изображений с патологиями. В случае второй задачи важно, чтобы сгенерированные изображения правильно определялись именно по типу патологии.

Основная проблема, с которой сталкиваются такие модели {{---}} необходимость очень точно определять границы объекта на сгенерированном изображении, а также не допускать размытости. Эти две проблемы долгое время не получалось решить без большого количества реальных данных, вследствие чего не было возможным применение сгенерированных изображений на практике.

Сильно улучшить поведение моделей удалось путем использования метрики Васерштейна<ref>[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0_%D0%92%D0%B0%D1%81%D0%B5%D1%80%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0 Википедия:Метрика Васерштейна]</ref>, которая, если провести аналогию с землей, измеряет минимальную стоимость преобразования одного распределения земли в другое, при этом предполагается, что стоимость прямо пропорциональна количеству земли и расстоянию, на которое ее надо перетащить. Использование такой метрики в GAN помогло сильно улучшить поведение моделей при генерации данных МРТ исследований.

==Персонализированная медицина==
Персонализированная медицина {{---}} новая организационная модель построения медицинской помощи пациентам, которая основывается на подборе индивидуальных лечебных, диагностических и превентивных средств, оптимально подходящих по биохимическим, физиологическим и генетическим особенностям организма.

Основная цель нового направления в медицине заключается в персонализации и оптимизации профилактических мероприятий и лечения пациентов для исключения негативных последствий и осложнений, проявляющихся из-за индивидуальных особенностей.
Основные отрасли медицины, где применяются новые принципы — онкология, фармация и фармакогеномика. Последняя занимается изучением реакций организма на медицинские препараты в зависимости от индивидуальных наследственных факторов.

===Экспрессия генов и анализ транскриптомных данных===
[[Файл:Gene expression based cnn.jpg|400px|thumb|Примеры архитектур сверточных сетей, предсказывающих вероятность рака по экспрессии генов. Источник: https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2]]
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети, располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.

Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптом {{---}} совокупность всех молекул РНК, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК). Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (RNA-seq) или ДНК-микрочипов (DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют мРНК, которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].

===Уменьшение размерности при работе с данными экспрессии генов===
[[Файл:Melif scheme.png|400px|thumb|Описание алгоритма MeLiF]]
Для уменьшения размерности в случае биологических данных применяются методы, основным критерием которых становится их скорость. Поскольку количество генов очень велико, чаще всего нет возможности опробовать встраиваемые и оберточные методы. Чаще всего, используют фильтры.

Одним из примеров моделей, основанных на фильтрах является модель MeLiF<ref>[https://www.researchgate.net/publication/317201206_MeLiF_Filter_Ensemble_Learning_Algorithm_for_Gene_Selection| Smetannikov et al., MeLiF: Filter Ensemble Learning Algorithm for Gene Selection]</ref>, которая берет несколько фильтров <tex>M_i</tex> с соответствующими функциями измерения релевантности признака <tex>\mu_i</tex>, после чего строит новую меру значимости как <tex>\mu=\sum_{i=1}^{|M|} \alpha_{i} \mu_{i}</tex>, где <tex>\left\{\alpha_{i}\right\}_{i=1}^{|M|}</tex> {{---}} набор вещественных коэффициентов. После получения новой меры значимости происходит оценка модели на <tex>t</tex> лучших выбранных признаках. В случае удовлетворительного результата алгоритм завершается, возвращая текущий набор признаков, иначе {{---}} возвращается снова к получению новой меры на <tex>t+1</tex> признаках.

===Медицинская карта===
Другая задача {{---}} предсказать, заболеет ли человек в будущем. Для этого часто используется электронная медицинская карта пациента, и на вход сети подаются данные о пациенте, результаты исследований, его генеалогическое древо и другая медицинская информация. Основываясь на полученных данных, модель должна предсказать вероятность того, что человек может заболеть каждым болезнью из приведенного набора. Если вероятность хотя бы по одному из маркеров превышает некоторое значение {{---}} такая модель рекомендует пациенту обратиться к специалисту и относит его в группу высокого риска по этому параметру. В свою очередь специалист может подтвердить или же опровергнуть опасения модели, отдавая ей результат {{---}} права модель или нет. Таким образом, эта проблема относится к классу задач обучения с подкреплением В таких задачах часто используют [[метод опорных векторов (SVM)]] или [[глубокое обучение]].

==Поиск лекарств==
Поиск лекарств (англ. drug discovery, drug design) {{---}} процесс поиска новых лекарственных средств, часто основанный на знаниях о биологической мишени.
При поиске новых лекарственных средств часто прибегают к помощи машинного обучения в таких задачах, как предсказание молекулярных свойств потенциальной молекулы лекарства, формы какого-либо белка, активности взаимодействия между двумя молекулами и т.д.

===Предсказание молекулярных свойств===
[[Файл:MoleculeGNN.PNG|400px|thumb|Молекулярный граф]]
[[Файл:Morgan fingerprint.jpg|400px|thumb|Пример Morgan Fingerprint для молекулы. Источник: https://www.sciencedirect.com/science/article/abs/pii/S1046202314002631]]
Одна из главных задач машинного обучения при поиске новых лекарств {{---}} сужение круга их поиска. Чаще всего фармацевтические компании имеют на руках библиотеки с огромным количеством веществ, которые они потенциально могут синтезировать и опробовать в качестве лекарства. Но обычно размеры этих библиотек составляют тысячи молекул, поэтому синтезировать и проверить каждую из них не представляется возможным. В этом случае прибегают к предсказанию некоторых свойств этих молекул, которые точно определяют, может ли молекула быть использована как лекарство. Для предсказания свойств молекул обычно используют молекулярный граф {{---}} графическое представление молекулы (ее атомов и связей).

Первые нейронные сети для предсказания молекулярных свойств использовали Моргановские фингерпринты (англ. Morgan fingerpints), которые для каждого атома в молекуле выделяли всех его соседей на каком-то определенном расстоянии (которое является гиперпараметром) и смотрели на наличие такой подструктуры в молекуле. Получался аналог некоторого оne-hot кодирования. Впоследствии этот метод был несколько усовершенствован, и стали смотреть не на наличие подструктуры, а на то, сколько раз она встречается в молекуле. Прорыв в этой области случился с появлением сети NeuralFingerprints <ref>[https://arxiv.org/abs/1509.09292 Duvenaud et al., Convolutional Networks on Graphs for Learning Molecular Fingerprints, 2015]</ref>, которая является примером одной из первых попыток применения [[графовые нейронные сети|графовых нейронных сетей]] в этой области.

NeuralFingerprints принимает один гиперпараметр {{---}} максимальное расстояние, которое нужно учитывать при просмотре соседей каждого атома. После этого для каждого расстояния для каждого атома суммируются атомные представления его соседей на текущем расстоянии. Таким образом, получается векторное представление текущего атома фиксированной длины, которая равна количеству свойств у одного атома. Каждый элемент такого представления умножается на обучаемый параметр, уникальный для номера свойства и текущего рассматриваемого расстояния. После этого применяется функция активации к полученному ранее вектору, умноженному на вес, отвечающий за текущее расстояние. Полученные результаты для каждого из атомов на каждом из расстояний суммируются и получается результирующий вектор свойств для молекулы. Таким образом, в этой сети обучаемые параметры {{---}} веса для каждого из свойств атомов на каждом расстоянии (<tex>H^i_j</tex>, где <tex>i</tex> {{---}} индекс номера свойства (в модели их всего 5), <tex>j</tex> {{---}} индекс для текущего расстояния) и веса для каждого из расстояний (<tex>W_j</tex>, где <tex>j</tex> {{---}} индекс для текущего расстояния). Псевдокод представлен ниже.
'''function''' neuralFingerptint(molecule, R, H, W): # R - максимальное расстояние, H - матрица весов размера len(molecule)<tex>\cdot</tex>R, W - вектор весов размера R
f = array[len(molecule), 0]
'''for''' a in molecule:
r[a] = g(a) # записываем свойства для каждого атома
'''for''' L = 1 to R:
'''for''' a in molecule:
neighbors = '''neighbors'''(a) # смотрим соседей на расстоянии L от текущего атома a
v = r[a] + '''sum'''(r[i] for i in neighbors) # суммируем вектора соседей и вектор текущего атома
r[a] = '''σ'''(v <tex>\cdot</tex>H[a][L]) # изменяем представление текущего атома
i = '''softmax'''(r[a]<tex>\cdot</tex>W[L]) # получаем вектор для текущего атома и расстояния
f = f + i # добавляем его к ответу
'''return''' f

Эта сеть была одной из первых в этой области, и сейчас используется как базовый метод в огромном количестве статей. В основу новых методов сейчас все еще чаще всего ложатся [[графовые нейронные сети]]. Подходы графовых нейронных сетей адаптируют под молекулярный граф путем поиска элементов на расстоянии не более, чем N (где N является гиперпараметром), или последовательным рассмотрением каждой вершины и усреднением полученых значений.

===Предсказание формы белка===
[[Файл:AlphaFold 2 block design.png|400px|thumb|Архитектура AlphaFold2, модели для предсказания пространственной структуры белка. Источник: https://en.wikipedia.org/wiki/AlphaFold]]
Секвенирование {{---}} процесс получения нуклеотидной последовательности из молекулы ДНК. <ref>[https://en.wikipedia.org/wiki/Sequencing Википедия: Секвенирование]</ref>
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая в свою очередь кодирует любой белок в организме.

Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Пространственная же структура белка важна для генерации мишеней, поэтому задача предсказания структуры является очень важной. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать сможет ли это соединение захватить свою мишень, не дав ей закрепиться в организме пациента.

Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили, что решили проблему пространственной структуры белка.<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref> Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10-10м).

===Генерация молекулярных структур===
[[Файл:Ranc scheme.png|400px|thumb|Пример генеративной состязательной сети для лекарственных молекул. Сеть RANC (Reinforced Adversarial Neural Computer). Источник: https://pubs.acs.org/doi/10.1021/acs.jcim.7b00690]]
Еще одна задача, которая есть сейчас в мире машинного обучения {{---}} генерировать новые молекулы, которые могут потенциально быть лекарствами. Для этого используют [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Основное преимущество такого подхода заключается в том, что при работе с библиотеками уже синтезированных лекарств есть вероятность "пропустить" важное соединение просто потому, что в этой библиотеке его не было. Поэтому используется абсолютно другой подход {{---}} предлагается наоборот генерировать различные молекулы, а уже потом проверять, действительно ли их можно использовать как лекарство и насколько сложно их синтезировать. Часто эти свойства вносят в метрику качества генератора.

SMILES {{---}} способ однозначного задания молекулы при помощи строки. Таким образом, задача генератора {{---}} сгенерировать такую строку SMILES для молекулы, чтобы дискриминатор не отличил ее от настоящей. Архитектура дискриминатора чаще всего остается очень похожей на архитектуру обычной сети, предсказывающей молекулярные свойства. Таким образом, в качестве дискриминатора часто используются графовые или сверточные нейронные сети. Для генератора же часто используют механизм памяти, чтобы сеть помнила, какие части уже были сгенерированы и отталкивалась от них.

==См. также==
* [[Нейронные сети, перцептрон]]
* [[Глубокое обучение]]
* [[Графовые нейронные сети]]
* [[Компьютерное зрение]]
* [[Обучение с подкреплением]]

==Примечания==
* [https://en.wikipedia.org/wiki/Protein_structure_prediction#:~:text=Protein%20structure%20prediction%20is%20the,inverse%20problem%20of%20protein%20design. Protein structure prediction]
* [https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D0%B0 Википедия: Персонализированная медицина]
* [https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf CoroNet: A deep neural network for detection and diagnosis of COVID-19 from chest x-ray images]
* [https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/ 7 Applications of Machine Learning in Pharma and Medicine]
* [https://www.nature.com/articles/s41563-019-0360-1 Ascent of machine learning in medicine]
* [http://jtelemed.ru/article/glubokoe-mashinnoe-obuchenie-iskusstvennyj-intellekt-v-ultrazvukovoj-diagnostike Глубокое машинное обучение (искусственный интеллект) в ультразвуковой диагностике]
* [https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2 Convolutional neural network models for cancer type prediction based on gene expression]
* [https://docplayer.ru/85522413-Smetannikov-ivan-borisovich.html Сметанников Иван Борисович, Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных]

==Источники информации==

[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
[[Категория: Практические применения машинного обучения]]

Машинное обучение в медицине

2021-01-08T14:40:48Z

188.170.82.221: /* Экспрессия генов и анализ транскриптомных данных */

Машинное обучение в медицине начали применять еще в 2000-ых, и сейчас машинное обучение, а в частности, [[Нейронные сети, перцептрон|нейронные сети]] пытаются решать огромное количество задач по диагностике заболеваний и дизайну лекарств. Эти задачи относят к обучению с учителем или [[Обучение с частичным привлечением учителя|с частичным привлечением учителя]]. Кроме того, машинное обучение стали применять в персонализированной медицине и генерации данных различных исследований для анонимизации данных пациентов. В этих задачах сейчас все больше применяют [[Обучение с подкреплением|обучение с подкреплением]] и обучение без учителя, в частности, [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

==Диагностика заболеваний по результатам рентгенологических и УЗИ исследований==
===Диагностика по изображению===
{|align="center"
|-valign="top"
|[[Файл:Covid cnn recognition.png|thumb|750px|Пример вероятностной классификации КТ грудной клетки. Источник:https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf]]
|[[Файл:Spine x ray cnn.png|400px|thumb|Пример локализации шейного отдела позвоночника на рентгене. Источник: https://lhncbc.nlm.nih.gov/system/files/pub9781.pdf]]
|}
[[Файл:Brain tumor mri cnn.jpg|200px|thumb|Пример классификации результатов МРТ на изображения с опухолью и без. Источник: https://biomedpharmajournal.org/vol11no3/brain-tumor-classification-using-convolutional-neural-networks/]]
В диагностике заболеваний есть большое количество задач, которые можно решить при помощи машинного обучения, а в частности, при помощи анализа результатов различных исследований, таких как рентген, УЗИ или МРТ. В основном задача любой модели сводится к предсказанию, болен ли человек сейчас (иногда обычная мультиклассовая классификация, иногда {{---}} вероятностная классификация).

Для решения таких задач чаще всего используют [[глубокое обучение]]. Такие модели на вход получают картинку с рентгенологическим или ультразвуковым исследованием пациента и по ним предсказывают наличие болезни. Обычно внутри таких моделей-классификаторов лежат [[сверточные нейронные сети]], а иногда к ним добавляются [[механизм внимания]]. За основу берутся state-of-the-art модели в области сверточных нейронных сетей, такие как GoogleLeNet<ref>[https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/43022.pdf Szegedy et al., Going Deeper with Convolutions, 2015. GoogLeNet.]</ref>, при этом точность предсказаний превышает 90%. Такие модели учатся на размеченных тренировочных наборах данных, поэтому их можно отнести к обучению с учителем. Большое распространение такие классификаторы получили в предсказании злокачественности новообразований, классификации заболеваний легких, подборе дозы контраста при проведении МРТ.

Кроме того, есть и другое применение. Многие модели учатся не только определять, есть ли опухоль на данном образце, но и локализировать ее положение. Таким образом, необходимо решить задачу сегментации изображения, то есть выделения каких-то ее наиболее важных частей. Технически задача не сильно отличается от предыдущей и решается все теми же сверточными нейронными сетями.

===Применения===
Поскольку точность предсказаний у описанных выше моделей достаточно высока, их стали применять на практике. Сейчас ведутся исследования по внедрению таких моделей в УЗИ-аппараты для того, чтобы быстрее и точнее определять местоположение и злокачественность опухоли. Кроме того, такие модели стали применять в направленной лучевой терапии, когда злокачественная опухоль облучается различными видами частиц. Известно, что эти частицы уничтожают не только раковые, но и здоровые клетки. Именно поэтому активно внедряются модели, которые могут подсказать аппарату точное направление облучения. Также сверточные сети стали использовать для определения дозы контрастного вещества при МРТ<ref>[https://www.sciencedirect.com/science/article/pii/S0939388918301181 Lundervold et al., An overview of deep learning in medical imaging focusing on MRI, 2019]</ref>.

===Генерация результатов исследований===
[[Файл:3d mri models comparison.png|450px|thumb|Сравнение различных моделей для генерации 3D изображений МРТ исследований. Источник: https://arxiv.org/pdf/1908.02498.pdf]]

Для обучения сверточных нейронных сетей необходимо большое количество данных, которые очень часто достаточно тяжело или даже невозможно получить из-за запрета на использование данных исследований даже в анонимном формате без согласия пациента. Поэтому сейчас для получения достаточно больших датасетов стали применять [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

Задачу таких GAN можно оделить на две: генерация изображений здоровых пациентов и изображений с патологиями. В случае второй задачи важно, чтобы сгенерированные изображения правильно определялись именно по типу патологии.

Основная проблема, с которой сталкиваются такие модели {{---}} необходимость очень точно определять границы объекта на сгенерированном изображении, а также не допускать размытости. Эти две проблемы долгое время не получалось решить без большого количества реальных данных, вследствие чего не было возможным применение сгенерированных изображений на практике.

Сильно улучшить поведение моделей удалось путем использования метрики Васерштейна<ref>[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0_%D0%92%D0%B0%D1%81%D0%B5%D1%80%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0 Википедия:Метрика Васерштейна]</ref>, которая, если провести аналогию с землей, измеряет минимальную стоимость преобразования одного распределения земли в другое, при этом предполагается, что стоимость прямо пропорциональна количеству земли и расстоянию, на которое ее надо перетащить. Использование такой метрики в GAN помогло сильно улучшить поведение моделей при генерации данных МРТ исследований.

==Персонализированная медицина==
Персонализированная медицина {{---}} новая организационная модель построения медицинской помощи пациентам, которая основывается на подборе индивидуальных лечебных, диагностических и превентивных средств, оптимально подходящих по биохимическим, физиологическим и генетическим особенностям организма.

Основная цель нового направления в медицине заключается в персонализации и оптимизации профилактических мероприятий и лечения пациентов для исключения негативных последствий и осложнений, проявляющихся из-за индивидуальных особенностей.
Основные отрасли медицины, где применяются новые принципы — онкология, фармация и фармакогеномика. Последняя занимается изучением реакций организма на медицинские препараты в зависимости от индивидуальных наследственных факторов.

===Экспрессия генов и анализ транскриптомных данных===
[[Файл:Gene expression based cnn.jpg|400px|thumb|Примеры архитектур сверточных сетей, предсказывающих вероятность рака по экспрессии генов. Источник: https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2]]
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети, располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.

Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптом {{---}} совокупность всех молекул РНК, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК). Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (RNA-seq) или ДНК-микрочипов (DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют мРНК, которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].

===Уменьшение размерности при работе с данными экспрессии генов===
[[Файл:Melif scheme.png|400px|thumb|Описание алгоритма MeLiF]]
Для уменьшения размерности в случае биологических данных применяются методы, основным критерием которых становится их скорость. Поскольку количество генов очень велико, чаще всего нет возможности опробовать встраиваемые и оберточные методы. Чаще всего, используют фильтры.

Одним из примеров моделей, основанных на фильтрах является модель MeLiF<ref>[https://www.researchgate.net/publication/317201206_MeLiF_Filter_Ensemble_Learning_Algorithm_for_Gene_Selection| Smetannikov et al., MeLiF: Filter Ensemble Learning Algorithm for Gene Selection]</ref>, которая берет несколько фильтров <tex>M_i</tex> с соответствующими функциями измерения релевантности признака <tex>\mu_i</tex>, после чего строит новую меру значимости как <tex>\mu=\sum_{i=1}^{|M|} \alpha_{i} \mu_{i}</tex>, где <tex>\left\{\alpha_{i}\right\}_{i=1}^{|M|}</tex> {{---}} набор вещественных коэффициентов. После получения новой меры значимости происходит оценка модели на <tex>t</tex> лучших выбранных признаках. В случае удовлетворительного результата алгоритм завершается, возвращая текущий набор признаков, иначе {{---}} возвращается снова к получению новой меры на <tex>t+1</tex> признаках.

===Медицинская карта===
Другая задача {{---}} предсказать, заболеет ли человек в будущем. Для этого часто используется электронная медицинская карта пациента, и на вход сети подаются данные о пациенте, результаты исследований, его генеалогическое древо и другая медицинская информация. Основываясь на полученных данных, модель должна предсказать вероятность того, что человек может заболеть каждым болезнью из приведенного набора. Если вероятность хотя бы по одному из маркеров превышает некоторое значение {{---}} такая модель рекомендует пациенту обратиться к специалисту и относит его в группу высокого риска по этому параметру. В свою очередь специалист может подтвердить или же опровергнуть опасения модели, отдавая ей результат {{---}} права модель или нет. Таким образом, эта проблема относится к классу задач обучения с подкреплением В таких задачах часто используют [[метод опорных векторов (SVM)]] или [[глубокое обучение]].

==Поиск лекарств==
Поиск лекарств (англ. drug discovery, drug design) {{---}} процесс поиска новых лекарственных средств, часто основанный на знаниях о биологической мишени.
При поиске новых лекарственных средств часто прибегают к помощи машинного обучения в таких задачах, как предсказание молекулярных свойств потенциальной молекулы лекарства, формы какого-либо белка, активности взаимодействия между двумя молекулами и т.д.

===Предсказание молекулярных свойств===
[[Файл:MoleculeGNN.PNG|400px|thumb|Молекулярный граф]]
[[Файл:Morgan fingerprint.jpg|400px|thumb|Пример Morgan Fingerprint для молекулы. Источник: https://www.sciencedirect.com/science/article/abs/pii/S1046202314002631]]
Одна из главных задач машинного обучения при поиске новых лекарств {{---}} сужение круга их поиска. Чаще всего фармацевтические компании имеют на руках библиотеки с огромным количеством веществ, которые они потенциально могут синтезировать и опробовать в качестве лекарства. Но обычно размеры этих библиотек составляют тысячи молекул, поэтому синтезировать и проверить каждую из них не представляется возможным. В этом случае прибегают к предсказанию некоторых свойств этих молекул, которые точно определяют, может ли молекула быть использована как лекарство. Для предсказания свойств молекул обычно используют молекулярный граф {{---}} графическое представление молекулы (ее атомов и связей).

Первые нейронные сети для предсказания молекулярных свойств использовали Моргановские фингерпринты (англ. Morgan fingerpints), которые для каждого атома в молекуле выделяли всех его соседей на каком-то определенном расстоянии (которое является гиперпараметром) и смотрели на наличие такой подструктуры в молекуле. Получался аналог некоторого оne-hot кодирования. Впоследствии этот метод был несколько усовершенствован, и стали смотреть не на наличие подструктуры, а на то, сколько раз она встречается в молекуле. Прорыв в этой области случился с появлением сети NeuralFingerprints <ref>[https://arxiv.org/abs/1509.09292 Duvenaud et al., Convolutional Networks on Graphs for Learning Molecular Fingerprints, 2015]</ref>, которая является примером одной из первых попыток применения [[графовые нейронные сети|графовых нейронных сетей]] в этой области.

NeuralFingerprints принимает один гиперпараметр {{---}} максимальное расстояние, которое нужно учитывать при просмотре соседей каждого атома. После этого для каждого расстояния для каждого атома суммируются атомные представления его соседей на текущем расстоянии. Таким образом, получается векторное представление текущего атома фиксированной длины, которая равна количеству свойств у одного атома. Каждый элемент такого представления умножается на обучаемый параметр, уникальный для номера свойства и текущего рассматриваемого расстояния. После этого применяется функция активации к полученному ранее вектору, умноженному на вес, отвечающий за текущее расстояние. Полученные результаты для каждого из атомов на каждом из расстояний суммируются и получается результирующий вектор свойств для молекулы. Таким образом, в этой сети обучаемые параметры {{---}} веса для каждого из свойств атомов на каждом расстоянии (<tex>H^i_j</tex>, где <tex>i</tex> {{---}} индекс номера свойства (в модели их всего 5), <tex>j</tex> {{---}} индекс для текущего расстояния) и веса для каждого из расстояний (<tex>W_j</tex>, где <tex>j</tex> {{---}} индекс для текущего расстояния). Псевдокод представлен ниже.
'''function''' neuralFingerptint(molecule, R, H, W): # R - максимальное расстояние, H - матрица весов размера len(molecule)<tex>\cdot</tex>R, W - вектор весов размера R
f = array[len(molecule), 0]
'''for''' a in molecule:
r[a] = g(a) # записываем свойства для каждого атома
'''for''' L = 1 to R:
'''for''' a in molecule:
neighbors = '''neighbors'''(a) # смотрим соседей на расстоянии L от текущего атома a
v = r[a] + '''sum'''(r[i] for i in neighbors) # суммируем вектора соседей и вектор текущего атома
r[a] = '''σ'''(v <tex>\cdot</tex>H[a][L]) # изменяем представление текущего атома
i = '''softmax'''(r[a]<tex>\cdot</tex>W[L]) # получаем вектор для текущего атома и расстояния
f = f + i # добавляем его к ответу
'''return''' f

Эта сеть была одной из первых в этой области, и сейчас используется как базовый метод в огромном количестве статей. В основу новых методов сейчас все еще чаще всего ложатся [[графовые нейронные сети]]. Подходы графовых нейронных сетей адаптируют под молекулярный граф путем поиска элементов на расстоянии не более, чем N (где N является гиперпараметром), или последовательным рассмотрением каждой вершины и усреднением полученых значений.

===Предсказание формы белка===
[[Файл:AlphaFold 2 block design.png|400px|thumb|Архитектура AlphaFold2, модели для предсказания пространственной структуры белка. Источник: https://en.wikipedia.org/wiki/AlphaFold]]
Секвенирование {{---}} процесс получения нуклеотидной последовательности из молекулы ДНК. <ref>[https://en.wikipedia.org/wiki/Sequencing Википедия: Секвенирование]</ref>
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая в свою очередь кодирует любой белок в организме.

Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Пространственная же структура белка важна для генерации мишеней, поэтому задача предсказания структуры является очень важной. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать сможет ли это соединение захватить свою мишень, не дав ей закрепиться в организме пациента.

Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили, что решили проблему пространственной структуры белка.<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref> Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10-10м).

===Генерация молекулярных структур===
[[Файл:Ranc scheme.png|400px|thumb|Пример генеративной состязательной сети для лекарственных молекул. Сеть RANC (Reinforced Adversarial Neural Computer). Источник: https://pubs.acs.org/doi/10.1021/acs.jcim.7b00690]]
Еще одна задача, которая есть сейчас в мире машинного обучения {{---}} генерировать новые молкулы, которые могут потенциально быть лекарствами. Для этого используют [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Основное преимущество такого подхода заключается в том, что при работе с библиотеками уже синтезированных лекарств есть вероятность "пропустить" важное соединение просто потому, что в этой библиотеке его не было. Поэтому используется абсолютно другой подход {{---}} предлагается наоборот генерировать различные молекулы, а уже потом проверять, действительно ли их можно использовать как лекарство и насколько сложно их синтезировать. Часто эти свойства вносят в метрику качества генератора.

SMILES {{---}} способ однозначного задания молекулы при помощи строки. Таким образом, задача генератора {{---}} сгенерировать такую строку SMILES для молекулы, чтобы дискриминатор не отличил ее от настоящей. Архитектура дискриминатора чаще всего остается очень похожей на архитектуру обычной сети, предсказывающей молекулярные свойства. Таким обрзом, в качестве дискриминатора часто используются графовые или сверточные нейронные сети. Для генератора же часто используют механизм памяти, чтобы сеть помнила, какие части уже были сгенерированны и отталкивалась от них.

==См. также==
* [[Нейронные сети, перцептрон]]
* [[Глубокое обучение]]
* [[Графовые нейронные сети]]
* [[Компьютерное зрение]]
* [[Обучение с подкреплением]]

==Примечания==
* [https://en.wikipedia.org/wiki/Protein_structure_prediction#:~:text=Protein%20structure%20prediction%20is%20the,inverse%20problem%20of%20protein%20design. Protein structure prediction]
* [https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D0%B0 Википедия: Персонализированная медицина]
* [https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf CoroNet: A deep neural network for detection and diagnosis of COVID-19 from chest x-ray images]
* [https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/ 7 Applications of Machine Learning in Pharma and Medicine]
* [https://www.nature.com/articles/s41563-019-0360-1 Ascent of machine learning in medicine]
* [http://jtelemed.ru/article/glubokoe-mashinnoe-obuchenie-iskusstvennyj-intellekt-v-ultrazvukovoj-diagnostike Глубокое машинное обучение (искусственный интеллект) в ультразвуковой диагностике]
* [https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2 Convolutional neural network models for cancer type prediction based on gene expression]
* [https://docplayer.ru/85522413-Smetannikov-ivan-borisovich.html Сметанников Иван Борисович, Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных]

==Источники информации==

[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
[[Категория: Практические применения машинного обучения]]

Машинное обучение в медицине

2021-01-08T14:14:53Z

188.170.82.221: /* Генерация результатов исследований */

Машинное обучение в медицине начали применять еще в 2000-ых, и сейчас машинное обучение, а в частности, [[Нейронные сети, перцептрон|нейронные сети]] пытаются решать огромное количество задач по диагностике заболеваний и дизайну лекарств. Эти задачи относят к обучению с учителем или [[Обучение с частичным привлечением учителя|с частичным привлечением учителя]]. Кроме того, машинное обучение стали применять в персонализированной медицине и генерации данных различных исследований для анонимизации данных пациентов. В этих задачах сейчас все больше применяют [[Обучение с подкреплением|обучение с подкреплением]] и обучение без учителя, в частности, [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

==Диагностика заболеваний по результатам рентгенологических и УЗИ исследований==
===Диагностика по изображению===
{|align="center"
|-valign="top"
|[[Файл:Covid cnn recognition.png|thumb|750px|Пример вероятностной классификации КТ грудной клетки. Источник:https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf]]
|[[Файл:Spine x ray cnn.png|400px|thumb|Пример локализации шейного отдела позвоночника на рентгене. Источник: https://lhncbc.nlm.nih.gov/system/files/pub9781.pdf]]
|}
[[Файл:Brain tumor mri cnn.jpg|200px|thumb|Пример классификации результатов МРТ на изображения с опухолью и без. Источник: https://biomedpharmajournal.org/vol11no3/brain-tumor-classification-using-convolutional-neural-networks/]]
В диагностике заболеваний есть большое количество задач, которые можно решить при помощи машинного обучения, а в частности, при помощи анализа результатов различных исследований, таких как рентген, УЗИ или МРТ. В основном задача любой модели сводится к предсказанию, болен ли человек сейчас (иногда обычная мультиклассовая классификация, иногда {{---}} вероятностная классификация).

Для решения таких задач чаще всего используют [[глубокое обучение]]. Такие модели на вход получают картинку с рентгенологическим или ультразвуковым исследованием пациента и по ним предсказывают наличие болезни. Обычно внутри таких моделей-классификаторов лежат [[сверточные нейронные сети]], а иногда к ним добавляются [[механизм внимания]]. За основу берутся state-of-the-art модели в области сверточных нейронных сетей, такие как GoogleLeNet<ref>[https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/43022.pdf Szegedy et al., Going Deeper with Convolutions, 2015. GoogLeNet.]</ref>, при этом точность предсказаний превышает 90%. Такие модели учатся на размеченных тренировочных наборах данных, поэтому их можно отнести к обучению с учителем. Большое распространение такие классификаторы получили в предсказании злокачественности новообразований, классификации заболеваний легких, подборе дозы контраста при проведении МРТ.

Кроме того, есть и другое применение. Многие модели учатся не только определять, есть ли опухоль на данном образце, но и локализировать ее положение. Таким образом, необходимо решить задачу сегментации изображения, то есть выделения каких-то ее наиболее важных частей. Технически задача не сильно отличается от предыдущей и решается все теми же сверточными нейронными сетями.

===Применения===
Поскольку точность предсказаний у описанных выше моделей достаточно высока, их стали применять на практике. Сейчас ведутся исследования по внедрению таких моделей в УЗИ-аппараты для того, чтобы быстрее и точнее определять местоположение и злокачественность опухоли. Кроме того, такие модели стали применять в направленной лучевой терапии, когда злокачественная опухоль облучается различными видами частиц. Известно, что эти частицы уничтожают не только раковые, но и здоровые клетки. Именно поэтому активно внедряются модели, которые могут подсказать аппарату точное направление облучения. Также сверточные сети стали использовать для определения дозы контрастного вещества при МРТ<ref>[https://www.sciencedirect.com/science/article/pii/S0939388918301181 Lundervold et al., An overview of deep learning in medical imaging focusing on MRI, 2019]</ref>.

===Генерация результатов исследований===
[[Файл:3d mri models comparison.png|450px|thumb|Сравнение различных моделей для генерации 3D изображений МРТ исследований. Источник: https://arxiv.org/pdf/1908.02498.pdf]]

Для обучения сверточных нейронных сетей необходимо большое количество данных, которые очень часто достаточно тяжело или даже невозможно получить из-за запрета на использование данных исследований даже в анонимном формате без согласия пациента. Поэтому сейчас для получения достаточно больших датасетов стали применять [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

Задачу таких GAN можно оделить на две: генерация изображений здоровых пациентов и изображений с патологиями. В случае второй задачи важно, чтобы сгенерированные изображения правильно определялись именно по типу патологии.

Основная проблема, с которой сталкиваются такие модели {{---}} необходимость очень точно определять границы объекта на сгенерированном изображении, а также не допускать размытости. Эти две проблемы долгое время не получалось решить без большого количества реальных данных, вследствие чего не было возможным применение сгенерированных изображений на практике.

Сильно улучшить поведение моделей удалось путем использования метрики Васерштейна<ref>[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0_%D0%92%D0%B0%D1%81%D0%B5%D1%80%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0 Википедия:Метрика Васерштейна]</ref>, которая, если провести аналогию с землей, измеряет минимальную стоимость преобразования одного распределения земли в другое, при этом предполагается, что стоимость прямо пропорциональна количеству земли и расстоянию, на которое ее надо перетащить. Использование такой метрики в GAN помогло сильно улучшить поведение моделей при генерации данных МРТ исследований.

==Персонализированная медицина==
Персонализированная медицина {{---}} новая организационная модель построения медицинской помощи пациентам, которая основывается на подборе индивидуальных лечебных, диагностических и превентивных средств, оптимально подходящих по биохимическим, физиологическим и генетическим особенностям организма.

Основная цель нового направления в медицине заключается в персонализации и оптимизации профилактических мероприятий и лечения пациентов для исключения негативных последствий и осложнений, проявляющихся из-за индивидуальных особенностей.
Основные отрасли медицины, где применяются новые принципы — онкология, фармация и фармакогеномика. Последняя занимается изучением реакций организма на медицинские препараты в зависимости от индивидуальных наследственных факторов.

===Экспрессия генов и анализ транскриптомных данных===
[[Файл:Gene expression based cnn.jpg|400px|thumb|Примеры архитектур сверточных сетей, предсказывающих вероятность рака по экспрессии генов. Источник: https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2]]
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети, располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.

Транскриптом {{---}} совокупность всех молекул РНК, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК).

Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (RNA-seq) или ДНК-микрочипов (DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют мРНК, которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].

===Уменьшение размерности при работе с данными экспрессии генов===
[[Файл:Melif scheme.png|400px|thumb|Описание алгоритма MeLiF]]
Для уменьшения размерности в случае биологических данных применяются методы, основным критерием которых становится их скорость. Поскольку количество генов очень велико, чаще всего нет возможности опробовать встраиваемые и оберточные методы. Чаще всего, используют фильтры.

Одним из примеров моделей, основанных на фильтрах является модель MeLiF<ref>[https://www.researchgate.net/publication/317201206_MeLiF_Filter_Ensemble_Learning_Algorithm_for_Gene_Selection| Smetannikov et al., MeLiF: Filter Ensemble Learning Algorithm for Gene Selection]</ref>, которая берет несколько фильтров <tex>M_i</tex> с соответствующими функциями измерения релевантности признака <tex>\mu_i</tex>, после чего строит новую меру значимости как <tex>\mu=\sum_{i=1}^{|M|} \alpha_{i} \mu_{i}</tex>, где <tex>\left\{\alpha_{i}\right\}_{i=1}^{|M|}</tex> {{---}} набор вещественных коэффициентов. После получения новой меры значимости происходит оценка модели на <tex>t</tex> лучших выбранных признаках. В случае удовлетворительного результата алгоритм завершается, возвращая текущий набор признаков, иначе {{---}} возвращается снова к получению новой меры на <tex>t+1</tex> признаках.

===Медицинская карта===
Другая задача {{---}} предсказать, заболеет ли человек в будущем. Для этого часто используется электронная медицинская карта пациента, и на вход сети подаются данные о пациенте, результаты исследований, его генеалогическое древо и другая медицинская информация. Основываясь на полученных данных, модель должна предсказать вероятность того, что человек может заболеть каждым болезнью из приведенного набора. Если вероятность хотя бы по одному из маркеров превышает некоторое значение {{---}} такая модель рекомендует пациенту обратиться к специалисту и относит его в группу высокого риска по этому параметру. В свою очередь специалист может подтвердить или же опровергнуть опасения модели, отдавая ей результат {{---}} права модель или нет. Таким образом, эта проблема относится к классу задач обучения с подкреплением В таких задачах часто используют [[метод опорных векторов (SVM)]] или [[глубокое обучение]].

==Поиск лекарств==
Поиск лекарств (англ. drug discovery, drug design) {{---}} процесс поиска новых лекарственных средств, часто основанный на знаниях о биологической мишени.
При поиске новых лекарственных средств часто прибегают к помощи машинного обучения в таких задачах, как предсказание молекулярных свойств потенциальной молекулы лекарства, формы какого-либо белка, активности взаимодействия между двумя молекулами и т.д.

===Предсказание молекулярных свойств===
[[Файл:MoleculeGNN.PNG|400px|thumb|Молекулярный граф]]
[[Файл:Morgan fingerprint.jpg|400px|thumb|Пример Morgan Fingerprint для молекулы. Источник: https://www.sciencedirect.com/science/article/abs/pii/S1046202314002631]]
Одна из главных задач машинного обучения при поиске новых лекарств {{---}} сужение круга их поиска. Чаще всего фармацевтические компании имеют на руках библиотеки с огромным количеством веществ, которые они потенциально могут синтезировать и опробовать в качестве лекарства. Но обычно размеры этих библиотек составляют тысячи молекул, поэтому синтезировать и проверить каждую из них не представляется возможным. В этом случае прибегают к предсказанию некоторых свойств этих молекул, которые точно определяют, может ли молекула быть использована как лекарство. Для предсказания свойств молекул обычно используют молекулярный граф {{---}} графическое представление молекулы (ее атомов и связей).

Первые нейронные сети для предсказания молекулярных свойств использовали Моргановские фингерпринты (англ. Morgan fingerpints), которые для каждого атома в молекуле выделяли всех его соседей на каком-то определенном расстоянии (которое является гиперпараметром) и смотрели на наличие такой подструктуры в молекуле. Получался аналог некоторого оne-hot кодирования. Впоследствии этот метод был несколько усовершенствован, и стали смотреть не на наличие подструктуры, а на то, сколько раз она встречается в молекуле. Прорыв в этой области случился с появлением сети NeuralFingerprints <ref>[https://arxiv.org/abs/1509.09292 Duvenaud et al., Convolutional Networks on Graphs for Learning Molecular Fingerprints, 2015]</ref>, которая является примером одной из первых попыток применения [[графовые нейронные сети|графовых нейронных сетей]] в этой области.

NeuralFingerprints принимает один гиперпараметр {{---}} максимальное расстояние, которое нужно учитывать при просмотре соседей каждого атома. После этого для каждого расстояния для каждого атома суммируются атомные представления его соседей на текущем расстоянии. Таким образом, получается векторное представление текущего атома фиксированной длины, которая равна количеству свойств у одного атома. Каждый элемент такого представления умножается на обучаемый параметр, уникальный для номера свойства и текущего рассматриваемого расстояния. После этого применяется функция активации к полученному ранее вектору, умноженному на вес, отвечающий за текущее расстояние. Полученные результаты для каждого из атомов на каждом из расстояний суммируются и получается результирующий вектор свойств для молекулы. Таким образом, в этой сети обучаемые параметры {{---}} веса для каждого из свойств атомов на каждом расстоянии (<tex>H^i_j</tex>, где <tex>i</tex> {{---}} индекс номера свойства (в модели их всего 5), <tex>j</tex> {{---}} индекс для текущего расстояния) и веса для каждого из расстояний (<tex>W_j</tex>, где <tex>j</tex> {{---}} индекс для текущего расстояния). Псевдокод представлен ниже.
'''function''' neuralFingerptint(molecule, R, H, W): # R - максимальное расстояние, H - матрица весов размера len(molecule)<tex>\cdot</tex>R, W - вектор весов размера R
f = array[len(molecule), 0]
'''for''' a in molecule:
r[a] = g(a) # записываем свойства для каждого атома
'''for''' L = 1 to R:
'''for''' a in molecule:
neighbors = '''neighbors'''(a) # смотрим соседей на расстоянии L от текущего атома a
v = r[a] + '''sum'''(r[i] for i in neighbors) # суммируем вектора соседей и вектор текущего атома
r[a] = '''σ'''(v <tex>\cdot</tex>H[a][L]) # изменяем представление текущего атома
i = '''softmax'''(r[a]<tex>\cdot</tex>W[L]) # получаем вектор для текущего атома и расстояния
f = f + i # добавляем его к ответу
'''return''' f

Эта сеть была одной из первых в этой области, и сейчас используется как базовый метод в огромном количестве статей. В основу новых методов сейчас все еще чаще всего ложатся [[графовые нейронные сети]]. Подходы графовых нейронных сетей адаптируют под молекулярный граф путем поиска элементов на расстоянии не более, чем N (где N является гиперпараметром), или последовательным рассмотрением каждой вершины и усреднением полученых значений.

===Предсказание формы белка===
[[Файл:AlphaFold 2 block design.png|400px|thumb|Архитектура AlphaFold2, модели для предсказания пространственной структуры белка. Источник: https://en.wikipedia.org/wiki/AlphaFold]]
Секвенирование {{---}} процесс получения нуклеотидной последовательности из молекулы ДНК. <ref>[https://en.wikipedia.org/wiki/Sequencing Википедия: Секвенирование]</ref>
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая в свою очередь кодирует любой белок в организме.

Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Пространственная же структура белка важна для генерации мишеней, поэтому задача предсказания структуры является очень важной. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать сможет ли это соединение захватить свою мишень, не дав ей закрепиться в организме пациента.

Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили, что решили проблему пространственной структуры белка.<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref> Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10-10м).

===Генерация молекулярных структур===
[[Файл:Ranc scheme.png|400px|thumb|Пример генеративной состязательной сети для лекарственных молекул. Сеть RANC (Reinforced Adversarial Neural Computer). Источник: https://pubs.acs.org/doi/10.1021/acs.jcim.7b00690]]
Еще одна задача, которая есть сейчас в мире машинного обучения {{---}} генерировать новые молкулы, которые могут потенциально быть лекарствами. Для этого используют [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Основное преимущество такого подхода заключается в том, что при работе с библиотеками уже синтезированных лекарств есть вероятность "пропустить" важное соединение просто потому, что в этой библиотеке его не было. Поэтому используется абсолютно другой подход {{---}} предлагается наоборот генерировать различные молекулы, а уже потом проверять, действительно ли их можно использовать как лекарство и насколько сложно их синтезировать. Часто эти свойства вносят в метрику качества генератора.

SMILES {{---}} способ однозначного задания молекулы при помощи строки. Таким образом, задача генератора {{---}} сгенерировать такую строку SMILES для молекулы, чтобы дискриминатор не отличил ее от настоящей. Архитектура дискриминатора чаще всего остается очень похожей на архитектуру обычной сети, предсказывающей молекулярные свойства. Таким обрзом, в качестве дискриминатора часто используются графовые или сверточные нейронные сети. Для генератора же часто используют механизм памяти, чтобы сеть помнила, какие части уже были сгенерированны и отталкивалась от них.

==См. также==
* [[Нейронные сети, перцептрон]]
* [[Глубокое обучение]]
* [[Графовые нейронные сети]]
* [[Компьютерное зрение]]
* [[Обучение с подкреплением]]

==Примечания==
* [https://en.wikipedia.org/wiki/Protein_structure_prediction#:~:text=Protein%20structure%20prediction%20is%20the,inverse%20problem%20of%20protein%20design. Protein structure prediction]
* [https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D0%B0 Википедия: Персонализированная медицина]
* [https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf CoroNet: A deep neural network for detection and diagnosis of COVID-19 from chest x-ray images]
* [https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/ 7 Applications of Machine Learning in Pharma and Medicine]
* [https://www.nature.com/articles/s41563-019-0360-1 Ascent of machine learning in medicine]
* [http://jtelemed.ru/article/glubokoe-mashinnoe-obuchenie-iskusstvennyj-intellekt-v-ultrazvukovoj-diagnostike Глубокое машинное обучение (искусственный интеллект) в ультразвуковой диагностике]
* [https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2 Convolutional neural network models for cancer type prediction based on gene expression]
* [https://docplayer.ru/85522413-Smetannikov-ivan-borisovich.html Сметанников Иван Борисович, Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных]

==Источники информации==

[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
[[Категория: Практические применения машинного обучения]]

Машинное обучение в медицине

2021-01-08T14:14:07Z

188.170.82.221: /* Генерация результатов исследований */

Машинное обучение в медицине начали применять еще в 2000-ых, и сейчас машинное обучение, а в частности, [[Нейронные сети, перцептрон|нейронные сети]] пытаются решать огромное количество задач по диагностике заболеваний и дизайну лекарств. Эти задачи относят к обучению с учителем или [[Обучение с частичным привлечением учителя|с частичным привлечением учителя]]. Кроме того, машинное обучение стали применять в персонализированной медицине и генерации данных различных исследований для анонимизации данных пациентов. В этих задачах сейчас все больше применяют [[Обучение с подкреплением|обучение с подкреплением]] и обучение без учителя, в частности, [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

==Диагностика заболеваний по результатам рентгенологических и УЗИ исследований==
===Диагностика по изображению===
{|align="center"
|-valign="top"
|[[Файл:Covid cnn recognition.png|thumb|750px|Пример вероятностной классификации КТ грудной клетки. Источник:https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf]]
|[[Файл:Spine x ray cnn.png|400px|thumb|Пример локализации шейного отдела позвоночника на рентгене. Источник: https://lhncbc.nlm.nih.gov/system/files/pub9781.pdf]]
|}
[[Файл:Brain tumor mri cnn.jpg|200px|thumb|Пример классификации результатов МРТ на изображения с опухолью и без. Источник: https://biomedpharmajournal.org/vol11no3/brain-tumor-classification-using-convolutional-neural-networks/]]
В диагностике заболеваний есть большое количество задач, которые можно решить при помощи машинного обучения, а в частности, при помощи анализа результатов различных исследований, таких как рентген, УЗИ или МРТ. В основном задача любой модели сводится к предсказанию, болен ли человек сейчас (иногда обычная мультиклассовая классификация, иногда {{---}} вероятностная классификация).

Для решения таких задач чаще всего используют [[глубокое обучение]]. Такие модели на вход получают картинку с рентгенологическим или ультразвуковым исследованием пациента и по ним предсказывают наличие болезни. Обычно внутри таких моделей-классификаторов лежат [[сверточные нейронные сети]], а иногда к ним добавляются [[механизм внимания]]. За основу берутся state-of-the-art модели в области сверточных нейронных сетей, такие как GoogleLeNet<ref>[https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/43022.pdf Szegedy et al., Going Deeper with Convolutions, 2015. GoogLeNet.]</ref>, при этом точность предсказаний превышает 90%. Такие модели учатся на размеченных тренировочных наборах данных, поэтому их можно отнести к обучению с учителем. Большое распространение такие классификаторы получили в предсказании злокачественности новообразований, классификации заболеваний легких, подборе дозы контраста при проведении МРТ.

Кроме того, есть и другое применение. Многие модели учатся не только определять, есть ли опухоль на данном образце, но и локализировать ее положение. Таким образом, необходимо решить задачу сегментации изображения, то есть выделения каких-то ее наиболее важных частей. Технически задача не сильно отличается от предыдущей и решается все теми же сверточными нейронными сетями.

===Применения===
Поскольку точность предсказаний у описанных выше моделей достаточно высока, их стали применять на практике. Сейчас ведутся исследования по внедрению таких моделей в УЗИ-аппараты для того, чтобы быстрее и точнее определять местоположение и злокачественность опухоли. Кроме того, такие модели стали применять в направленной лучевой терапии, когда злокачественная опухоль облучается различными видами частиц. Известно, что эти частицы уничтожают не только раковые, но и здоровые клетки. Именно поэтому активно внедряются модели, которые могут подсказать аппарату точное направление облучения. Также сверточные сети стали использовать для определения дозы контрастного вещества при МРТ<ref>[https://www.sciencedirect.com/science/article/pii/S0939388918301181 Lundervold et al., An overview of deep learning in medical imaging focusing on MRI, 2019]</ref>.

===Генерация результатов исследований===
[[Файл:3d mri models comparison.png|450px|thumb|Сравнение различных моделей для генерации 3D изображений МРТ исследований. Источник: https://arxiv.org/pdf/1908.02498.pdf]]

Для обучения сверточных нейронных сетей необходимо большое количество данных, которые очень часто достаточно тяжело или даже невозможно получить из-за запрета на использование данных исследований даже в анонимном формате без согласия пациента. Поэтому сейчас для получения достаточно больших датасетов стали применять [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].

Задачу таких GAN можно оделить на две: генерация изображений здоровых пациентов и изображений с патологиями. В случае второй задачи важно, чтобы сгенерированные изображения правильно определялись именно по типу патологии.

Основная проблема, с которой сталкиваются такие модели {{---}} необходимость очень точно определеять границы объекта на сгенерированном изображении, а также не допускать размытости. Эти две проблемы долгое время не получалось решить без большого количества реальных данных, вследствие чего не было возможным применение сгенерированных изображений на практике.

Сильно улучшить поведение моделей удалось путем использования метрики Васерштейна<ref>[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0_%D0%92%D0%B0%D1%81%D0%B5%D1%80%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0 Википедия:Метрика Васерштейна]</ref>, которая, если провести аналогию с землей, измеряет минимальную стоимость преобразования одного распределения земли в другое, при этом предполагается, что стоимость прямо пропорциональна количеству земли и расстоянию, на которое ее надо перетащить. Использование такой метрики в GAN помогло сильно улучшить поведение моделей при генерации данных МРТ исследований.

==Персонализированная медицина==
Персонализированная медицина {{---}} новая организационная модель построения медицинской помощи пациентам, которая основывается на подборе индивидуальных лечебных, диагностических и превентивных средств, оптимально подходящих по биохимическим, физиологическим и генетическим особенностям организма.

Основная цель нового направления в медицине заключается в персонализации и оптимизации профилактических мероприятий и лечения пациентов для исключения негативных последствий и осложнений, проявляющихся из-за индивидуальных особенностей.
Основные отрасли медицины, где применяются новые принципы — онкология, фармация и фармакогеномика. Последняя занимается изучением реакций организма на медицинские препараты в зависимости от индивидуальных наследственных факторов.

===Экспрессия генов и анализ транскриптомных данных===
[[Файл:Gene expression based cnn.jpg|400px|thumb|Примеры архитектур сверточных сетей, предсказывающих вероятность рака по экспрессии генов. Источник: https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2]]
Многие модели ориентируются на данные экспрессии генов<ref>[https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D0%BF%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B3%D0%B5%D0%BD%D0%BE%D0%B2 Википедия: Экспрессия генов]</ref> (в широком смысле {{---}} процесс получения белка из последовательности ДНК). Известно, что от количества некоторых белков напрямую зависит возможность клеток становиться раковыми, а также порождать другие заболевания. Совокупность изменений в большом количестве различных белков может приводить к заболеванию. Именно поэтому модели персонализированной медицины основываются на данных экспрессии. Часто в качестве основы используют сверточные нейронные сети, располагая гены, отвечающие за похожие по своей функции белки, рядом друг с другом.

Транскриптом {{---}} совокупность всех молекул РНК, которые присутствовали в клетке после завершения процесса трансрипции (получение РНК с матрицы ДНК).

Прямой анализ экспрессии генов {{---}} трудная и дорогостоящая задача, поэтому часто обращаются к транскриптомным данным. Транскриптомные данные чаще всего получают с помощью РНК-секвенирования (RNA-seq) или ДНК-микрочипов (DNA-microarray). С помощью специальных процедур из взятой у пациента пробы выделяют мРНК, которая затем наносится на ДНК-микрочип, где цепочки мРНК зацепляются, образуя двухцепочечные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании. Так косвенно определяют экспрессию каждого из генов. Следующая проблема, с которой сталкиваются исследователи {{---}} слишком большое количество генов (например, у человека их около 28000). Вследствие этого очень тяжело обучать модели, поэтому приходится прибегать к [[Уменьшение размерности|уменьшению размерности]].

===Уменьшение размерности при работе с данными экспрессии генов===
[[Файл:Melif scheme.png|400px|thumb|Описание алгоритма MeLiF]]
Для уменьшения размерности в случае биологических данных применяются методы, основным критерием которых становится их скорость. Поскольку количество генов очень велико, чаще всего нет возможности опробовать встраиваемые и оберточные методы. Чаще всего, используют фильтры.

Одним из примеров моделей, основанных на фильтрах является модель MeLiF<ref>[https://www.researchgate.net/publication/317201206_MeLiF_Filter_Ensemble_Learning_Algorithm_for_Gene_Selection| Smetannikov et al., MeLiF: Filter Ensemble Learning Algorithm for Gene Selection]</ref>, которая берет несколько фильтров <tex>M_i</tex> с соответствующими функциями измерения релевантности признака <tex>\mu_i</tex>, после чего строит новую меру значимости как <tex>\mu=\sum_{i=1}^{|M|} \alpha_{i} \mu_{i}</tex>, где <tex>\left\{\alpha_{i}\right\}_{i=1}^{|M|}</tex> {{---}} набор вещественных коэффициентов. После получения новой меры значимости происходит оценка модели на <tex>t</tex> лучших выбранных признаках. В случае удовлетворительного результата алгоритм завершается, возвращая текущий набор признаков, иначе {{---}} возвращается снова к получению новой меры на <tex>t+1</tex> признаках.

===Медицинская карта===
Другая задача {{---}} предсказать, заболеет ли человек в будущем. Для этого часто используется электронная медицинская карта пациента, и на вход сети подаются данные о пациенте, результаты исследований, его генеалогическое древо и другая медицинская информация. Основываясь на полученных данных, модель должна предсказать вероятность того, что человек может заболеть каждым болезнью из приведенного набора. Если вероятность хотя бы по одному из маркеров превышает некоторое значение {{---}} такая модель рекомендует пациенту обратиться к специалисту и относит его в группу высокого риска по этому параметру. В свою очередь специалист может подтвердить или же опровергнуть опасения модели, отдавая ей результат {{---}} права модель или нет. Таким образом, эта проблема относится к классу задач обучения с подкреплением В таких задачах часто используют [[метод опорных векторов (SVM)]] или [[глубокое обучение]].

==Поиск лекарств==
Поиск лекарств (англ. drug discovery, drug design) {{---}} процесс поиска новых лекарственных средств, часто основанный на знаниях о биологической мишени.
При поиске новых лекарственных средств часто прибегают к помощи машинного обучения в таких задачах, как предсказание молекулярных свойств потенциальной молекулы лекарства, формы какого-либо белка, активности взаимодействия между двумя молекулами и т.д.

===Предсказание молекулярных свойств===
[[Файл:MoleculeGNN.PNG|400px|thumb|Молекулярный граф]]
[[Файл:Morgan fingerprint.jpg|400px|thumb|Пример Morgan Fingerprint для молекулы. Источник: https://www.sciencedirect.com/science/article/abs/pii/S1046202314002631]]
Одна из главных задач машинного обучения при поиске новых лекарств {{---}} сужение круга их поиска. Чаще всего фармацевтические компании имеют на руках библиотеки с огромным количеством веществ, которые они потенциально могут синтезировать и опробовать в качестве лекарства. Но обычно размеры этих библиотек составляют тысячи молекул, поэтому синтезировать и проверить каждую из них не представляется возможным. В этом случае прибегают к предсказанию некоторых свойств этих молекул, которые точно определяют, может ли молекула быть использована как лекарство. Для предсказания свойств молекул обычно используют молекулярный граф {{---}} графическое представление молекулы (ее атомов и связей).

Первые нейронные сети для предсказания молекулярных свойств использовали Моргановские фингерпринты (англ. Morgan fingerpints), которые для каждого атома в молекуле выделяли всех его соседей на каком-то определенном расстоянии (которое является гиперпараметром) и смотрели на наличие такой подструктуры в молекуле. Получался аналог некоторого оne-hot кодирования. Впоследствии этот метод был несколько усовершенствован, и стали смотреть не на наличие подструктуры, а на то, сколько раз она встречается в молекуле. Прорыв в этой области случился с появлением сети NeuralFingerprints <ref>[https://arxiv.org/abs/1509.09292 Duvenaud et al., Convolutional Networks on Graphs for Learning Molecular Fingerprints, 2015]</ref>, которая является примером одной из первых попыток применения [[графовые нейронные сети|графовых нейронных сетей]] в этой области.

NeuralFingerprints принимает один гиперпараметр {{---}} максимальное расстояние, которое нужно учитывать при просмотре соседей каждого атома. После этого для каждого расстояния для каждого атома суммируются атомные представления его соседей на текущем расстоянии. Таким образом, получается векторное представление текущего атома фиксированной длины, которая равна количеству свойств у одного атома. Каждый элемент такого представления умножается на обучаемый параметр, уникальный для номера свойства и текущего рассматриваемого расстояния. После этого применяется функция активации к полученному ранее вектору, умноженному на вес, отвечающий за текущее расстояние. Полученные результаты для каждого из атомов на каждом из расстояний суммируются и получается результирующий вектор свойств для молекулы. Таким образом, в этой сети обучаемые параметры {{---}} веса для каждого из свойств атомов на каждом расстоянии (<tex>H^i_j</tex>, где <tex>i</tex> {{---}} индекс номера свойства (в модели их всего 5), <tex>j</tex> {{---}} индекс для текущего расстояния) и веса для каждого из расстояний (<tex>W_j</tex>, где <tex>j</tex> {{---}} индекс для текущего расстояния). Псевдокод представлен ниже.
'''function''' neuralFingerptint(molecule, R, H, W): # R - максимальное расстояние, H - матрица весов размера len(molecule)<tex>\cdot</tex>R, W - вектор весов размера R
f = array[len(molecule), 0]
'''for''' a in molecule:
r[a] = g(a) # записываем свойства для каждого атома
'''for''' L = 1 to R:
'''for''' a in molecule:
neighbors = '''neighbors'''(a) # смотрим соседей на расстоянии L от текущего атома a
v = r[a] + '''sum'''(r[i] for i in neighbors) # суммируем вектора соседей и вектор текущего атома
r[a] = '''σ'''(v <tex>\cdot</tex>H[a][L]) # изменяем представление текущего атома
i = '''softmax'''(r[a]<tex>\cdot</tex>W[L]) # получаем вектор для текущего атома и расстояния
f = f + i # добавляем его к ответу
'''return''' f

Эта сеть была одной из первых в этой области, и сейчас используется как базовый метод в огромном количестве статей. В основу новых методов сейчас все еще чаще всего ложатся [[графовые нейронные сети]]. Подходы графовых нейронных сетей адаптируют под молекулярный граф путем поиска элементов на расстоянии не более, чем N (где N является гиперпараметром), или последовательным рассмотрением каждой вершины и усреднением полученых значений.

===Предсказание формы белка===
[[Файл:AlphaFold 2 block design.png|400px|thumb|Архитектура AlphaFold2, модели для предсказания пространственной структуры белка. Источник: https://en.wikipedia.org/wiki/AlphaFold]]
Секвенирование {{---}} процесс получения нуклеотидной последовательности из молекулы ДНК. <ref>[https://en.wikipedia.org/wiki/Sequencing Википедия: Секвенирование]</ref>
Из нуклеотидной последовательности можно получить аминокислотную последовательность, которая в свою очередь кодирует любой белок в организме.

Предсказание формы белка {{---}} другая очень важная задача машинного обучения в фармацевтике. С возникновением технологий секвенирования ДНК у сообщества появилась возможность быстро и достаточно качественно прочитывать белковые последовательности, но получать пространственную структуру полученных белков экспериментально все еще очень трудоемко и дорого. Пространственная же структура белка важна для генерации мишеней, поэтому задача предсказания структуры является очень важной. Например, при подборе потенциальной вакцины, необходимо точно знать форму антитела, чтобы понимать сможет ли это соединение захватить свою мишень, не дав ей закрепиться в организме пациента.

Предсказание формы белков основано на нейронных сетях, которые как вход используют очень длинную аминокислотную последовательность (размер алфавита ограничен {{---}} всего различных аминокислот 20), а на выходе должны предсказать значения торсионных углов<ref>[https://kodomo.fbb.msu.ru/~youthofchemist/projects/Term_1/Protein/phipsi.html Торсионные углы]</ref> между аминокислотами. В декабре 2020 года DeepMind (исследовательское подразделение Google) заявили, что решили проблему пространственной структуры белка.<ref>[https://meduza.io/feature/2020/12/13/fundamentalnaya-problema-belka-reshena-uchenye-bilis-nad-ney-polveka-no-vse-sdelali-programmisty-google-i-eto-mozhet-byt-ochen-vazhno-dlya-meditsiny Фундаментальная «проблема белка» решена]</ref> Авторы модели утверждают, что значение метрики глобального расстояния (англ. global distance test) превысило 90%. Метрика глобального расстояния {{---}} это метрика, которая вычисляется для каждой аминокислоты как процент атомов углерода из главной цепи белка, которые в сгенерированном белке расположены не более чем на расстоянии какого-то определенного количества ангстрем от соответствующего атома углерода в исходном белке. Обычно это значение берется равным 1, 2, 4 или 8 ангстрем (10-10м).

===Генерация молекулярных структур===
[[Файл:Ranc scheme.png|400px|thumb|Пример генеративной состязательной сети для лекарственных молекул. Сеть RANC (Reinforced Adversarial Neural Computer). Источник: https://pubs.acs.org/doi/10.1021/acs.jcim.7b00690]]
Еще одна задача, которая есть сейчас в мире машинного обучения {{---}} генерировать новые молкулы, которые могут потенциально быть лекарствами. Для этого используют [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]]. Основное преимущество такого подхода заключается в том, что при работе с библиотеками уже синтезированных лекарств есть вероятность "пропустить" важное соединение просто потому, что в этой библиотеке его не было. Поэтому используется абсолютно другой подход {{---}} предлагается наоборот генерировать различные молекулы, а уже потом проверять, действительно ли их можно использовать как лекарство и насколько сложно их синтезировать. Часто эти свойства вносят в метрику качества генератора.

SMILES {{---}} способ однозначного задания молекулы при помощи строки. Таким образом, задача генератора {{---}} сгенерировать такую строку SMILES для молекулы, чтобы дискриминатор не отличил ее от настоящей. Архитектура дискриминатора чаще всего остается очень похожей на архитектуру обычной сети, предсказывающей молекулярные свойства. Таким обрзом, в качестве дискриминатора часто используются графовые или сверточные нейронные сети. Для генератора же часто используют механизм памяти, чтобы сеть помнила, какие части уже были сгенерированны и отталкивалась от них.

==См. также==
* [[Нейронные сети, перцептрон]]
* [[Глубокое обучение]]
* [[Графовые нейронные сети]]
* [[Компьютерное зрение]]
* [[Обучение с подкреплением]]

==Примечания==
* [https://en.wikipedia.org/wiki/Protein_structure_prediction#:~:text=Protein%20structure%20prediction%20is%20the,inverse%20problem%20of%20protein%20design. Protein structure prediction]
* [https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D0%B0 Википедия: Персонализированная медицина]
* [https://arxiv.org/ftp/arxiv/papers/2004/2004.04931.pdf CoroNet: A deep neural network for detection and diagnosis of COVID-19 from chest x-ray images]
* [https://emerj.com/ai-sector-overviews/machine-learning-in-pharma-medicine/ 7 Applications of Machine Learning in Pharma and Medicine]
* [https://www.nature.com/articles/s41563-019-0360-1 Ascent of machine learning in medicine]
* [http://jtelemed.ru/article/glubokoe-mashinnoe-obuchenie-iskusstvennyj-intellekt-v-ultrazvukovoj-diagnostike Глубокое машинное обучение (искусственный интеллект) в ультразвуковой диагностике]
* [https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-020-0677-2 Convolutional neural network models for cancer type prediction based on gene expression]
* [https://docplayer.ru/85522413-Smetannikov-ivan-borisovich.html Сметанников Иван Борисович, Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных]

==Источники информации==

[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
[[Категория: Практические применения машинного обучения]]