Изменения

Атрибутные транслирующие грамматики

3623 байта добавлено, 17:00, 11 февраля 2019

→‎Атрибуты в ANTLR

Часто, осуществляя разбор, мы хотим извлечь какие-то данные или произвести какие-то действия, а не просто выяснить, разбирается ли текст в данной грамматике.

Вообще говоря, сначала можно получить [[Контекстно-свободные_грамматики,_вывод,_лево-_и_правосторонний_вывод,_дерево_разбора#Дерево_разбора|дерево разбора]], а потом уже, обходя его, выполнять эти действия.

В этом случае происходит дублирование функционала: промежуточное сохранение данных в виде дерева разбора не нужно, а иногда его просто слишком расточительно хранить в памяти целиком.

В связи с этим хочется какие-то действия производить уже на этапе разбора.

Например, мы хотим не только построить дерево разбора для арифметических выражений, а ещё и вычислить значение этого выражения. Возможно, даже не строя само дерево разбора.

Такой подход называется '''~~Синтаксически~~ синтаксически управляемой трансляцией'''.

==Синтаксически управляемая трансляция==

{{Определение

|definition =

'''Атрибут''' ''(англ. attribute)'' {{---}} дополнительные данные, ассоциированные с грамматическими символами.Если $X$ представляет собой символ, а $a$ — один из его атрибутов, то значение $a$ в некотором узле дерева разбора, помеченном $X$, записывается как $X.a$. Если узлы дерева разбора реализованы в виде записей или объектов, то атрибуты $X$ могут быть реализованы как поля данных в записях, представляющих узлы $X$. Атрибуты могут быть любого вида: числами, типами, таблицами ссылок или строками.

}}

{{Определение

|definition =

Дерево разбора, в каждом узле которого атрибуты уже вычислены, называется '''аннотированным''' ''(англ. annotated)'', а процесс вычисления этих атрибутов {{- --}} '''аннотированием''' дерева разбора.

}}

{{Определение

|id = tr_char

|definition =

'''Транслирующий символ''' {{---}} нетерминал, который раскрывается в $\varepsilon$ и в момент раскрытия выполняет ~~какое-то действие, которое~~ связанное с ним ~~связано~~действие. Действия пишутся в фигурных скобках рядом с транслирующим символом.

}}

S \to E \\

E \to E + T \mid T \\

T \to T ~~\times~~ * F \mid F \\

F \to n \mid (E)

$

Все соображения, связанные с атрибутами, применимы как при нисходящем, так и при восходящем раброре, однако для нисходящего разборщика нужно будет сперва [[Устранение_левой_рекурсии| устранить левую рекурсию]]:

$

~~S \to E \\~~

~~E \to TE' \\~~

~~E' \to +TE' \mid \varepsilon \\~~

~~T \to FT' \\~~

~~T' \to * FT' \mid \varepsilon \\~~

~~F \to n \mid (E)~~

$

{| style="background-color:#CCC;margin:0.5px"

!style="background-color:#EEE"| ~~продукции~~Продукция

!style="background-color:#EEE"| Семантические правила

|-

===Пример S-атрибутной грамматики===

Выпишем синтаксически управляемое определение для грамматики арифметических выражений с операторами $+$ и $*$: (~~Здесь~~ здесь $\{ADD {{...}} \}$ и $\{MUL {{...}} \}$ {{--- }} [[Атрибутные_транслирующие_грамматики#tr_char|транслирующие символы]]. Если в продукции несколько раз встречается одинаковый нетерминал, будем добавлять к нему индексы, считая от начала продукции.):

{| style="background-color:#CCC;margin:0.5px"

!style="background-color:#EEE"| Продукция

!style="background-color:#EEE"| Семантические правила

!style="background-color:#EEE"| Пояснения

|-

|style="background-color:#FFF;padding:2px 30px"| $S \to E$

|style="background-color:#FFF;padding:2px 30px"| $S.val=E.val$

|style="background-color:#FFF;padding:2px 30px"|

|-

|style="background-color:#FFF;padding:2px 30px"| $~~val\ E~~ E_0 \to E E_1 + T\ \{ADD\ res = op_1 + op_2\}$

|style="background-color:#FFF;padding:2px 30px"| $ADD.op_1=E_1.val \\ ADD.op_2=T.val \\ E_0.val=ADD.res $

|style="background-color:#FFF;padding:2px 30px"| В фигурных скобках {{---}} действия транслирующего символа ADD. $op_1$, $op_2$ и $res$ {{---}} атрибуты транслирующего символа.

|-

|style="background-color:#FFF;padding:2px 30px"| $E \to T$

|style="background-color:#FFF;padding:2px 30px"| $E.val=T.val$

|style="background-color:#FFF;padding:2px 30px"|

|-

|style="background-color:#FFF;padding:2px 30px"| $~~val\ T~~ T_0 \to ~~T \times~~ T_1 * F \ \{MUL\ res = op_1 * \times op_2\}$

|style="background-color:#FFF;padding:2px 30px"| $MUL.op_1=T.val \\ MUL.op_2=F.val \\ T_0.val=MUL.res$

|style="background-color:#FFF;padding:2px 30px"| В фигурных скобках {{---}} действия транслирующего символа MUL. $op_1$, $op_2$ и $res$ {{---}} атрибуты транслирующего символа.

|-

|style="background-color:#FFF;padding:2px 30px"| $T \to F$

|style="background-color:#FFF;padding:2px 30px"| $T.val=F.val$

|style="background-color:#FFF;padding:2px 30px"|

|-

|style="background-color:#FFF;padding:2px 30px"| $F \to n$

|style="background-color:#FFF;padding:2px 30px"| $F.val=n.val$

|style="background-color:#FFF;padding:2px 30px"|

|-

|style="background-color:#FFF;padding:2px 30px"| $F \to (E)$

|style="background-color:#FFF;padding:2px 30px"| $F.val=E.val$

|style="background-color:#FFF;padding:2px 30px"|

|}

В нашем примере видно, что $val$ зависит только от детей в дереве разбора, то есть это синтезируемый атрибут. Результат умножителя ($MUL.res$) зависит только от атрибутов атрибутов самого умножителя ($MUL.op_1$ и $MUL.op_2$), а значит тоже является синтезируемым(аналогично с сумматором $ADD$).

[[Файл:3mul5add4.png|500px|thumb|center|~~аннотированное~~ Аннотированное дерево разбора для '''$3*5+4$''']]

После такого разбора в $S.val$ будет лежать вычисленное значение выражения. Можно, например сразу напечатать его, добавив к нему правило $\{print(S.val)\}$.

Хотя всегда можно переписать синтаксически управляемое определение таким образом, чтобы использовались только синтезируемые атрибуты, зачастую более удобно и естественно будет воспользоваться также и наследуемыми атрибутами.

</wikitex>

===Пример L-атрибутной грамматики===

Для наглядности рассмотрим грамматику объявления переменных: (в начале строки идет тип, затем через запятую имена переменных. Примеры строк, разбираемых в ней: '''int a''' или '''real x,y,z''' и подобные.): $D \to TL \\T \to int \mid real \\L \to L,id \mid id$ Выпишем продукции (с транслирующими символами) и ассоциируем с ними семантические правила(здесь $\{ENTRY {{...}} \}$ {{---}} [[Атрибутные_транслирующие_грамматики#tr_char|транслирующий символ]]. Если в продукции несколько раз встречается одинаковый нетерминал, будем добавлять к нему индексы, считая от начала продукции.):

{| style="background-color:#CCC;margin:0.5px"

|style="background-color:#FFF;padding:2px 30px"| $T.type = real$

|-

|style="background-color:#FFF;padding:2px 30px"| $L L_0 \to LL_1,id\ \{ENTRY addtype(key, value)\}$|style="background-color:#FFF;padding:2px 30px"| $L_1.ininh =LL0.inh \\ ENTRY.key=id.text \\ ENTRY.value=LL_0.inh$

|-

|style="background-color:#FFF;padding:2px 30px"| $L~~.id~~ \to id\ \{ENTRY addtype(key, value)\}$

|style="background-color:#FFF;padding:2px 30px"| $ENTRY.key=id.text \\ ENTRY.value=L.inh$

|}

Семантическое правило $L.inh = T.type$, связанное с продукцией $D \to TL$, определяет наследуемый атрибут $L.inh$ как тип объявления. Затем приведенные правила распространяют этот тип вниз по дереву разбора с использованием атрибута $L.inh$. Транслирующий символ $ENTRY$, связанный с продукциями для $L$, вызывает процедуру $addtype$ для добавления типа каждого идентификатора к его записи в таблице символов (по ключу, определяемому атрибутом $text$).

[[Файл:Real_id1,_id2,_id3.png|600px|center|thumb|~~аннотированное~~ Аннотированное дерево разбора для '''$\mathbf{real }\ id1, \ id2, \ id3$'''|600px]]

</wikitex>

==Пример работы с атрибутами в нисходящем разборе==

Рассмотрим работы с атрибутами на примере $LL(1)$-грамматики арифметических выражений, которая уже была разобрана [[Построение FIRST и FOLLOW#Пример | ранее]] и расширим код [[Предиктивный_синтаксический_анализ | разборщика]] для нее:

$

В данной реализации рекурсивные функции от нетерминалов получают на вход (если необходимо) наследуемые атрибуты узла и возвращают вершины дерева разбора, в атрибутах которых записан результат вычислений соответствующего подвыражения. Однако этот код легко изменить, чтобы он только вычислял значение выражения и не строил дерево разбора. Как мы видим, $val$ {{---}} синтезируемый атрибут, $acc$ {{---}} наследуемый атрибут, $ADD$ {{---}} транслирующий символ. Синим подсвечены строки, отвечающие за работу с атрибутами.

Здесь <tex>\mathtt{Node}</tex> {{---}} структура следующего вида:

'''struct''' Node

children : '''map<String, Node>'''

name : '''string'''

val : '''int''' // атрибут нетерминала

'''function''' addChild('''Node''') // функция, подвешивающая поддерево к данному узлу

E() : '''Node'''

Node res = Node("E")

'''switch''' (curToken)

'''case''' n, '(' :

res.addChild(T()) // подвешиваем левого сына

temp = res.children["T"].val // атрибут левого сына

Node rightSon = E'(temp) // отдадим атрибут левого сына правому как наследуемый атрибут

res.addChild(rightSon) // подвешиваем правого сына сына

res.val = res.children["E'"].val

'''break'''

'''default''' :

error("unexpected char")

'''return''' res

~~E() : '''int'''~~

~~T.val = T()~~

~~E'.val = E'(T.val)~~

~~'''return''' E'.val~~

E'(acc) : '''~~int~~Node''' Node res = Node("E'")

'''switch''' (curToken)

'''case''' '+' :

consume('+')

Tres.addChild(Node("+")) res = .addChild(T()) temp = res.children["T"].val ADD.res = ADD(acc, temp) // ADD проведет вычисления из наследуемого атрибута add и атрибута ребенка "T" res.addChild(E'(ADD.~~val~~res))// результат вычислений будет передан правому ребенку как наследуемый атрибут E'res.val = res.children["E'~~(ADD~~"].~~res)~~val '''~~return~~break''' '' E'case''' '$', ')' : res.val= acc

'''break'''

'''~~case''~~default' '~~\varepsylon~~': ~~'''return''' acc~~ ~~'''default'''~~ error("unexpected char") '''return''' res

F() : '''~~int~~Node''' Node res = Node("F")

'''switch''' (curToken)

'''case''' n :

consume(n)

Fres.addChild(Node(curToken)) res.val = n.val '''~~return~~break''' ~~F.val~~

'''case''' '(' :

consume('(')

Fres.addChild(Node("(")) res.addChild(E()) rev.val = res.children["E()"].val

consume(')')

~~'''return''' F~~res.~~val~~addChild(Node(")"))

'''default''' :

error("unexpected char")

'''return''' res

Функции для $T$ и $T'$ строятся аналогично.

[[Файл:2add3add7.png|600px|center|thumb| Дерево разбора для '''$2\ +\ 3\ +\ 7$''']]

</wikitex>

==Атрибуты в ANTLR==

Общедоступный ~~генератора~~ генератор разборщиков ANTLR<ref>[http://www.antlr.org/ ANTLR {{---}} Parser generator]</ref> поддерживает синтаксически управляемое определение. Рассмотрим для той же грамматики арифметических выражений с операторами <tex>+,\ *</tex>, скобками и выводом результата выражения пример на ANTLR. grammar Expression; '''@header''' { package ru.ifmo.ctddev.wiki; } Естественным образом можно добавлять действия в продукции, где это нужно. Действия выполняются после предыдущего элемента грамматики и до следующего. Стартовый нетерминал печатает результат: s : expr { System.out.println($expr.val); };

~~Рассмотрим~~ В продукции для ~~примера грамматику арифметических выражений с оператором~~ нетерминала <code>expr</code> определяется возвращаемое значение (<code>['''int''' val]</code>). Обращение к этому атрибуту имеет вид <code>$~~+$, $*$, и выводом результата выражениая~~expr.value</code>. В фигурных скобках записаны семантические правила.

~~Вне продукций грамматики бывает нужно вставить~~ Разобранные нетерминалы возвращают результат, вычисленный в ~~сгенерированный разборщик~~поддереве(~~для Java~~<code>returns [int val]</code>) ~~package~~как свой синтезируемый атрибут, ~~import, а также некоторые поля и методы~~процесс вычисления которого описан в фигурных скобках <code>{ $val = $exprP.val; }</code>. ~~Это делается с помощью '''@header''' и '''@members''':~~

~~grammar Expr;~~ ~~'''@header''' { package tools; import java.util.*; }~~ ~~'''@parser::members''' {~~ ~~Map~~Наследуемые атрибуты передаются нетерминалу как параметр(<~~String, Integer~~code> ~~memory = new HashMap~~exprP[$term.val]<~~String, Integer~~/code>(); ~~int eval(int left, int op, int right) {~~ ... } }

~~Естественным образом можно добавлять действия в продукции, где это нужно:~~ expr '''~~stat:~~returns''' ['''eint''' ~~NEWLINE {System.out.println($e.~~val~~);}~~ ] ~~| ID '=' '''e''' NEWLINE {memory.put(~~: term exprP[$IDterm.~~text,~~ val] { $e.val~~); System.out.println($ID.text + "~~=~~" +~~ $eexprP.val);} ~~| NEWLINE~~ ;

~~Действия выполняются после предыдущего элемента грамматики и до следующего~~ exprP['''int''' i] '''returns''' ['''int''' val] : { $val = $i; } // <tex>\varepsilon</tex>-правило | '+' term expr = exprP[$i + $term. В данном примере действия добавлены на конце альтернативы, поэтому действие выполнится после того, как разборщик распознает все выражениеval] { $val = $expr. ~~Когда разборщик встречает выражение, за которым идет символ новой строки, ему нужно напечатать результат~~val; } ; term '''returns''' ['''int''' val] : fact termP[$fact. ~~Когда он встречает присваивание - ему нужно записать имя и значение переменной в память~~val] { $val = $termP.val; } ;

~~Правило для~~ termP['''eint''' ~~теперь выглядит следующим образом~~i] '''returns''' '''[int''' val] : { $val = $i; } | '*' fact expr = termP[$i * $fact.val] { $val = $expr.val; } ;

fact '''ereturns''' ['''~~returns~~int''' ~~[int~~ val] : ~~a=e op=~~'('*expr ') ~~b=e {$val = eval($a.val, $op.type, $b.val);}~~ ~~| a=e op=(~~'~~+') b=e~~ {$val = ~~eval($a.val,~~ $~~op.type, $b~~expr.val);} | ~~INT~~ NUM {$val = ~~$INT~~Integer.~~int;}~~ ~~| ID {~~ ~~String id =~~ parseInt($IDNUM.text; ~~$v = memory.containsKey(id) ? memory.get(id~~) ~~: 0~~; } ~~| '(' '''e''' ')' {$val = $e.val;}~~ ;

~~В первой строке здесь определяется возвращаемое значение ('''[int val]''')~~ Техническая деталь для ~~нетерминала '''e'''. Это именно тот атрибут~~ANTLR, ~~на который ссылается '''$e.val''' в примерах выше.~~правила для лексического анализатора:Во второй строке, присваивания '''a=e''' и '''b=e''' иллюстрируют семантические правила, а действие '''{$val = eval($a.val, $op.type, $b.val) WS : [ \t \r \n]+ -> skip ;~~}''' {{~~ NUM : [0-~~--}} транслирующий символ из определений, которые мы рассматривали в начале статьи.~~9]+ ;

== Примечания ==

* Альфред Ахо, Рави Сети, Джеффри Ульман. Компиляторы. Принципы, технологии, инструменты. Издательство Вильямс. Первое издание. 2003. Стр. 279 {{---}} 305.

* Альфред Ахо, Рави Сети, Джеффри Ульман. Компиляторы. Принципы, технологии, инструменты. Издательство Вильямс. Второе издание. 2008. Стр. 383 {{---}} 398.

* [https://theantlrguy.atlassian.net/wiki/display/ANTLR4/Parser+Rules#ParserRules ANTLR Documentation {{---}} ~~RuleAttributeDefinitions| ANTLR Documentation -~~ Rule Attribute Definitions]

* [http://www.amazon.com/The-Definitive-ANTLR-4-Reference/dp/1934356999| The Definitive ANTLR 4 Reference]

[[Категория: Методы трансляции]]

[[Категория: Нисходящий разбор]]

Анонимный участник

109.172.15.23

Изменения

Атрибутные транслирующие грамматики

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты