36
правок
Изменения
→Построение при помощи методов машинного обучения
Для представления графовых данных используются семантика RDF (Resource Description Framework)<ref>[https://en.wikipedia.org/wiki/Resource_Description_Framework, Wikipedia {{---}} Resource Description Framework]</ref> где связи представляются триплетом "''субъект — предикат — объект''". Для моделирования бинарных отношений на графе удобно использовать трехсторонний тензор <math>X</math>, в котором две моды образованы идентично на основе связываемых объектов-узлов, а третья мода содержит отношения между ними (см. иллюстрацию). Элемент тензора <math>x_{ijk} = 1</math>, когда существует отношение (i-й объект, k-е отношение, j-й объект). В противном случае для несуществующих или неизвестных отношений <math>x_{ijk} = 0</math>.
===Обучение онтологий===
[[Файл:Ontology-learning-layer-cake.png|400px|thumb|Слоеный пирог обучения онтологий]]
Процесс получения онтологий начинается с вынесения множества терминов из текста и получения их синонимов. Далее они преобразуются во множество концептов. После чего выявляются связи между концептами, и в итоге формируются схемы аксиом и извлекаются аксиомы. Данный процесс называют '''слоеным пирогом обучения онтологии'''.
Алгоритмы, используемые в разных слоях при построении онтологии разбивают на 3 основные группы:
* Лингвистические
* Статистические
* Логические
Сначала текст обрабатывается лингвистическими техниками, такими как
* part of speech tagging
* parsing
* lemmatization
После этого извлекаются необходимые термы и концепты. На этом этапе используются следующие техники:
*Лингвистические
** syntactic parsing
** subcategorization frames
** seed words extraction
*Статистические
** C/NC value
** contrastive analysis
** co-occurrence analysis
** latent semantic analysis (LSA) and clustering
Помимо нахождения самих концептов необходимо найти связи между ними. Обычно для этого используют смесь обработки текстов на естественном языке (англ. Natural Laguange Processing, NLP) и статистические подходы такие как:
* dependency analysis
* lexico-syntactic analysis
* term subsumption, formal concept analysis (FCA)
* hierarchical clustering
* association rule mining (ARM)
На следующем шаге формируются аксиомы при помощи Индуктивного Логического Программирования (англ. Inductive Logic Programming, ILP).
Для формировния целостной онтологии инпользуются различные методы, например:
* gold standard-based
* application-based
* data-driven
* human-based
==См. также==