terminal y no terminal se denominan categorías.
Figura 1. Gramática de estructura de frases sin contextoRegla S -> NP VP (SubCl) Regla NP -> {(Det) (AdjP) N (PrepP)} / PR Regla Det -> DT / PR
Considere la gramática de la estructura de frases sin contexto al estilo PC-PATR en la figura 1. Tiene diez símbolos no terminales (S, NP, Det, VP, VerbalP, AuxP, PrepP,
AdjP, AdvP y SubCl) y nueve símbolos terminales (N, PR, DT, V, AUX, PP, AV, AJ y CJ). Esta gramática describe un pequeño subconjunto de oraciones en inglés. Vale la
pena mencionar varios aspectos de esta gramática.
1. Los componentes opcionales (o conjuntos de constituyentes) en el lado derecho están entre paréntesis.
2. Los componentes alternativos (o conjuntos de componentes) en el lado derecho están separados por barras.
3. Los corsés se utilizan para agrupar conjuntos alternativos de elementos, de modo que las alternancias no sean ambiguas.
4. Los símbolos no deben repetirse literalmente dentro de una regla. Los símbolos repetidos deben distinguirse entre sí añadiendo un número de índice diferente a un
símbolo cada vez que se repita. Los números de índice se introducen con el carácter de guión bajo (_).
Figura 2. Análisis de la frase de ejemplo en inglés segundo /\ / \
Figura 3. Análisis de la oración de muestra (salida de PC-PATR) segundo __________|__________ VP de NP ___|_____ _________|__________
Se puede hacer una cantidad significativa de desarrollo gramatical solo con reglas de estructura de frases sin contexto como estas. Por ejemplo, analizar la frase "el hombre
nos ve con un telescopio" con esta gramática simple produce un árbol de análisis como el que se muestra en la figura 2. (Con el fin de minimizar la altura de los árboles de
análisis sin necesidad de usar una interfaz gráfica, PC-PATR en realidad dibuja árboles de análisis como el que se muestra en la figura 3.) Analizar la frase similar "vemos
al hombre con un telescopio" produce dos análisis diferentes como se muestra en la figura 4, mostrando correctamente la ambigüedad entre si usamos un telescopio para
ver al hombre, o si el hombre tenía un telescopio cuando lo vimos.
Figura 4. Análisis de una frase ambigua en inglés S_1 __________|__________ NP_2+ VP_4 | _____________|_____________ PR_3+ VerbalP_5+ NP_7 AdvP_11
Un problema fundamental con las gramáticas de estructura de frases sin contexto es que tienden a sobregenerar. Por ejemplo, la gramática de muestra reconocería
incorrectamente la frase "* ve al hombre con un telescopio", asignándole estructuras de árbol similares a las que se muestran en la figura 4. Con solo las categorías simples
utilizadas por las reglas de estructura de frases sin contexto, se requiere un gran número de reglas para manejar con precisión incluso un pequeño subconjunto de la
gramática de un idioma. Esta es la motivación principal detrás de las estructuras de características, la mejora básica de PATR-II sobre las gramáticas de la estructura de
frases sin contexto.( 2)
2.2 Estructuras de características
La estructura de datos básica del formalismo PATR-II se llama estructura característica. Una estructura de características contiene una o más características. Una
característica consiste en un nombre de atributo y un valor. Las estructuras de características se escriben comúnmente como matrices de atributos-valor como esta (ejemplo
1):
(1) [ lex: telescopio gato: N ]
donde lex y cat son nombres de atributos, y telescopio y N son los valores de esos atributos. Tenga en cuenta que la estructura de características está entre paréntesis. Cada
característica se produce en una línea separada, con el nombre primero, seguido de un punto y luego su valor. Los nombres de las características y los valores (simples) son
palabras individuales que consisten en caracteres alfanuméricos.
Las estructuras de características pueden tener valores simples, como el ejemplo anterior, o valores complejos, como este (ejemplo 2):
(2) [ lex: telescopio gato: N brillo: `telescopio cabeza: [ agr: [ 3sg: + ]
donde el valor de la característica principal es otra estructura de características, que también contiene una estructura de características incrustada. Las estructuras de
características se pueden anidar arbitrariamente de esta manera.
Se puede hacer referencia a partes de una estructura de características utilizando la notación de ruta. Una ruta es una secuencia de uno o más nombres de entidades
encerrados entre corchetes en ángulo (<>). Por ejemplo, los ejemplos 3-5 serían rutas de características válidas basadas en la estructura de características del ejemplo 2:
(3) <head> (4) <número de cabeza> (5) <head agr 3sg>
Las rutas se utilizan en las plantillas de características y las restricciones de características, que se describen a continuación.
Different features within a feature structure can share values. This is not the same thing as two features having identical values. In Example 6 below, the <head agr> and
<subj head agr> features have identical values, but in Example 7, they share the same value:
(6) [ gato: S pred: [ gato: vicepresidente cabeza: [ agr: [ 3sg: + ]
(7) [ gato: S pred: [ gato: vicepresidente cabeza: [ agr: $1[ 3sg: + ]
Los valores compartidos se indican con los marcadores de coindexación de $1, $2, etc.
Tenga en cuenta que las letras mayúsculas y minúsculas utilizadas en los nombres y valores de las entidades son distintivas. Por ejemplo, NUMBER no es lo mismo que
Number o number. (Esto también es cierto para los símbolos utilizados en las reglas de estructura de frases sin contexto).
2.3 Unificación
La unificación es la operación básica aplicada a las estructuras de características en PC-PATR. Consiste en la fusión de la información de dos estructuras de características.
Dos estructuras de características pueden unificar si sus características comunes tienen los mismos valores, pero no se unifican si algún valor de característica entra en
conflicto.
Considere las siguientes estructuras de características:
(8) [ acuerdo: [ número: singular persona: primero ] ] (9) [ acuerdo: [ número: singular ]
La función 9 se puede unificar con la función 8 (función de producción 11) o la función 10 (función de producción 12). Sin embargo, la función 8 no puede unificarse con