Предиктивный синтаксический анализ — различия между версиями

Версия 16:28, 24 мая 2015

Эта статья находится в разработке!

Общая схема построения парсеров с помощью FIRST и FOLLOW

Для LL(1) грамматик возможна автоматическая генерация парсеров, если известны множества FIRST и FOLLOW. Существуют общедоступные генераторы: ANTLR, GNU bison, Yacc.

Пусть [math]\Gamma[/math] — LL(1)-грамматика. Построим для нее парсер.

Для каждого нетерминала A : создадим функцию A() : Node, возвращающую фрагмент дерева разбора, выведенный из нетерминала A.

Здесь Node — структура вида:

Node
    children : list<Node> // список детей данного узла
    value : string // терминал или не терминал, записанный в данном узле дерева
    addChild(Node) // функция, подвешивающая поддерево к данному узлу

Тут картинка про строку.

Токен — один или несколько нетерминалов, для удобства объединяемые по смыслу в одну логическую единицу. curToken — текущий токен строки. nextToken — следующий за ним токен.

A() : Node
    res = Node("A")
    switch (curToken) :
         case : [math]FIRST(\alpha_1) \cup ((\varepsilon \in FIRST(\alpha_1))  ?  FOLLOW(A)  :  \varnothing)[/math] :
            // \alpha_1 = x_1x_2..x_{t_1}
            for x_1 .. x_{t_1}
                if x_1 is terminal
                    consume(x_1)
                    res.addChild(new Node("x_1")
                    nextToken()
                else
                    Node t = X_1()
                    res.addChild(t)
            break
        case [math]FIRST(\alpha_2) \cup ((\varepsilon \in FIRST(\alpha_2))  ?  FOLLOW(A)  :  \varnothing)[/math] : 
            ...
            break
        ...
        default :
            error("unexpected char")
    return res

consume(char c) 
    if (curToken != c)
        error("expected" + c)
    nextToken()

Такой парсер не только разбирает строку, но и находит ошибки в неудовлетворяющих грамматике выражениях.

Пример

Рассмотрим построение парсера на примере грамматики арифметических выражений. Запишем грамматику.

Данная грамматика не является LL(1)-грамматикой, так как содержит правое ветвление, от него нужно избавиться перед построением парсера:

Теперь грамматика стала LL(1)-грамматикой, построим для нее множества FIRST и FOLLOW (их построение подробно разобрано здесь).

Правило	FIRST	FOLLOW
[math]E[/math]	[math]\{\ n,\ (\ \} [/math]	[math]\{\ \$,\ )\ \} [/math]
[math]E'[/math]	[math]\{\ +,\ \varepsilon\ \} [/math]	[math]\{\ \$,\ )\ \} [/math]
[math]T[/math]	[math]\{\ n,\ (\ \} [/math]	[math]\{\ +,\ \$\ ,\ )\ \}[/math]
[math]T'[/math]		[math]\{\ +,\ \$\ ,\ )\ \}[/math]
[math]F[/math]	[math]\{\ n,\ (\ \} [/math]

Построим функции обработки некоторых нетерминалов.

E()
    res = Node("E")
    switch(curToken)
        case 'n', '(' :
            res.addChild(T())
            res.addChild(E'())
            break
        default :
            error("unexpected char")
    return res

E'()
    res = Node("E'")
    switch(curToken) 
        case '+' :
            consume('+')
            res.addChild(Node("+"))
            res.addChild(T())
            res.addChild(E'())
            break
        case '$', ')' :
            break
        default :
            error("unexpected char")
     return res

F()
    res = Node("F")
    switch(curToken)
        case 'n' :
            consume('n')
            res.addChild(Node("n"))
            break
        case '(' :
            consume('(')
            res.addChild(Node("("))
            res.addChild(E())
            consume(')')
            res.addChild(Node(")"))
        default :
            error("unexpected char")
    return res

Функции для T и T' строятся аналогично.

TODO: Картинки примеров разбора чего-нибудь типа 1+2*3

TODO: Построение таблицы предиктивного анализа

Предиктивный синтаксический анализ — различия между версиями

Версия 16:28, 24 мая 2015

Общая схема построения парсеров с помощью FIRST и FOLLOW

Пример

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты

@@ Строка 9: / Строка 9: @@
 Здесь Node {{---}} структура вида:
   Node
-      children : list<Node>
+      children : list<Node> // список детей данного узла
-      value : string
+      value : string // терминал или не терминал, записанный в данном узле дерева
+     addChild(Node) // функция, подвешивающая поддерево к данному узлу
 Тут картинка про строку.
+Токен {{---}} один или несколько нетерминалов, для удобства объединяемые по смыслу в одну логическую единицу.
+curToken {{---}} текущий токен строки.
+nextToken {{---}} следующий за ним токен.
   A() : Node
@@ Строка 40: / Строка 45: @@
           error("expected" + c)
       nextToken()
+Такой парсер не только разбирает строку, но и находит ошибки в неудовлетворяющих грамматике выражениях.
 == Пример ==