Manual de referencia de PC-PATR

Telechargé par habeascorpus

04/09/2022 17:48Manual de referencia de PC-PATR
Page 1 sur 21https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Manual de referencia de PC-PATR
un analizador sintáctico basado en la uniﬁcación
versión 1.4.0
Noviembre de 2006
por Stephen McConnel (cambios para v. 1.2.5-1.4.0 por H. Andrew Black)
Tabla de contenidos
Introducción al programa PC-PATR
El formalismo PATR-II
1 Reglas de estructura de frases
2 Estructuras de características
3 Uniﬁcación
4 Restricciones de características
5 El léxico
PC-PATR en ejecución
1 Opciones de línea de comandos de PC-PATR
2 Comandos interactivos
2.1 cd
2.2 claro
2.3 cerrar
2.4 directorio
2.5 editar
2.6 salida
2.7 archivo
2.7.1 desambiguación del archivo
2.7.2 análisis de archivos
2.8 ayuda
2.9 carga
2.9.1 amplio control de carga
2.9.2 cargar un diccionario amplio
2.9.3 carga amplio control de texto
2.9.4 análisis de carga
2.9.5 gramática de carga
2.9.6 carga de gramática kimmo
2.9.7 léxico kimmo de carga
2.9.8 reglas de kimmo de carga
2.9.9 léxico de carga
2.10 registro
2.11 análisis
2.12 salir
2.13 guardar
2.13.1 guardar léxico
2.13.2 Guardar estado
2.14 conjunto
2.14.1 ambigüedades del conjunto
2.14.2 conjunto de diccionario amplio
2.14.3 ciclos de comprobación del conjunto
Comentario del conjunto 3.2.14.4
2.14.5 errores de conﬁguración
2.14.6 características del conjunto
2.14.7 establecer la puntuación ﬁnal
2.14.8 brillo del conjunto
2.14.9 conjunto de ciclos de comprobación de kimmo
2.14.10 establecer kimmo promover los predeterminados
2.14.11 conjunto de ﬁltro de arriba hacia abajo kimmo
2.14.12 límite establecido
2.14.13 categoría de marcador de conjunto
2.14.14 características del marcador de ajuste
2.14.15 brillo del marcador de conjunto
2.14.16 establecido el registro del marcador
2.14.17 establecer brillo de raíz de marcador
2.14.18 establecer la palabra marcadora
2.14.19 establecer incumplimientos de la promoción
2.14.20 establecer propiedad-es-función
2.14.21 conjunto de solo reconocimiento
2.14.22 conjunto de brillo de raíz
2.14.23 tiempo establecido
2.14.24 establecer el ﬁltro de arriba hacia abajo
2.14.25 árbol de conjunto
2.14.26 establece características vacías de recorte

04/09/2022 17:48Manual de referencia de PC-PATR
Page 2 sur 21https://software.sil.org/downloads/r/pc-patr/pcpatr.html
3.2.14.27 uniﬁcación del conjunto
3.2.14.28 establecer verboso
3.2.14.29 establecer advertencias
3.2.14.30 conjunto de análisis de escritura-ample-parse
3.2.15 mostrar
3.2.15.1 mostrar léxico
3.2.15.2 mostrar estado
3.2.16 estado
3.2.17 sistema
3.2.18 tomar
4 El archivo de gramática PC-PATR
4.1 Reglas
4.1.1 Operaciones sindicales prioritarias
4.1.2 Operaciones de restricción lógica
4.2 Plantillas de funciones
4.3 Ajustes de parámetros
4.4 Reglas léxicos
4.5 Plantillas de restricciones
5 Formato estándar
6 El archivo Léxico PC-PATR
7 El archivo de análisis AMPLE
7.1 Campos de archivo de análisis AMPLE
7.1.1 Análisis: \a
7.1.2 Descomposición (formas superﬁciales): \d
7.1.3 Categoría (posible palabra o morfema): \cat
7.1.4 Propiedades: \p
7.1.5 Descriptores de características: \fd
7.1.6 Formas subyacentes (descomposición): \u
7.1.7 Word (antes de la descapitalización y los cambios de ortografía): \w
7.1.8 Formato (basura antes de la palabra): \f
7.1.9 Indicador de mayúsculas: \c
7.1.10 No alfabético (basura después de la palabra): \n
7.2 Análisis ambiguos
7.3 Fallos de análisis
8 Uso de los analizadores morfológicos integrados
8.1 PC-Kimmo
8.2 AMPLITUD
9 Índice
1 Introducción al programa PC-PATR
Este documento describe PC-PATR, una implementación del formalismo lingüístico computacional PATR-II (además de algunas mejoras) para ordenadores personales.
Está disponible para MS-DOS, Microsoft Windows, Macintosh y Unix.( 1)
PC-PATR utiliza un analizador de gráﬁcos en la esquina izquierda con estas características:
análisis de abajo hacia arriba con ﬁltrado de arriba hacia abajo basado en las categorías
orden de izquierda a derecha: después de que cada palabra se agregue al gráﬁco, todos los bordes posibles que se pueden derivar de ese punto se calculan como un
efecto secundario
PC-PATR todavía está en desarrollo. El autor agradecería los comentarios dirigidos a la siguiente dirección:
Stephen McConnel (972)708-7361 (oficina) Desarrollo de software de lenguaje (972)708-7561 (fax) SIL Internacional 7500 W. Camp Wisdom Road Dallas, TX 75236 [email protected]
2 El formalismo PATR-II
El formalismo PATR-II puede verse como un lenguaje informático para codiﬁcar información lingüística. No presupone ninguna teoría particular de la sintaxis. Fue
desarrollado originalmente por Stuart M. Shieber en la Universidad de Stanford a principios de la década de 1980 (Shieber 1984, Shieber 1986). Una gramática PATR-II
consiste en un conjunto de reglas y un léxico. Cada regla consiste en una regla de estructura de frases sin contexto y un conjunto de restricciones de características, es
decir, uniﬁcaciones en las estructuras de características asociadas con los componentes de las reglas de estructura de frases. El léxico proporciona los elementos que
pueden reemplazar los símbolos terminales de las reglas de estructura de la frase, es decir, las palabras del idioma junto con sus características relevantes.
Reglas de la estructura de la frase
Estructuras de características
uniﬁcación
Restricciones de características
El léxico
2.1 Reglas de estructura de frases
Las reglas de estructura de frases sin contexto deben ser familiares para cualquier persona que haya estudiado teoría lingüística o informática. Se ven así:
LHS -> RHS_1 RHS_2 ... 
`LHS'(el símbolo a la izquierda de la ﬂecha) es un símbolo no terminal para el tipo de frase que se está describiendo. A la derecha de la ﬂecha hay una lista ordenada de los
componentes de la frase. Estos componentes son símbolos no terminales, que aparecen en el lado izquierdo de alguna regla de la gramática, o símbolos terminales, que
representan clases básicas de elementos del léxico. Estas clases básicas suelen corresponder a lo que comúnmente se llama partes del habla. En PATR-II, los símbolos

04/09/2022 17:48Manual de referencia de PC-PATR

Page 3 sur 21https://software.sil.org/downloads/r/pc-patr/pcpatr.html

terminal y no terminal se denominan categorías.

Figura 1. Gramática de estructura de frases sin contextoRegla S -> NP VP (SubCl) Regla NP -> {(Det) (AdjP) N (PrepP)} / PR Regla Det -> DT / PR

Considere la gramática de la estructura de frases sin contexto al estilo PC-PATR en la ﬁgura 1. Tiene diez símbolos no terminales (S, NP, Det, VP, VerbalP, AuxP, PrepP,

AdjP, AdvP y SubCl) y nueve símbolos terminales (N, PR, DT, V, AUX, PP, AV, AJ y CJ). Esta gramática describe un pequeño subconjunto de oraciones en inglés. Vale la

pena mencionar varios aspectos de esta gramática.

1. Los componentes opcionales (o conjuntos de constituyentes) en el lado derecho están entre paréntesis.

2. Los componentes alternativos (o conjuntos de componentes) en el lado derecho están separados por barras.

3. Los corsés se utilizan para agrupar conjuntos alternativos de elementos, de modo que las alternancias no sean ambiguas.

4. Los símbolos no deben repetirse literalmente dentro de una regla. Los símbolos repetidos deben distinguirse entre sí añadiendo un número de índice diferente a un

símbolo cada vez que se repita. Los números de índice se introducen con el carácter de guión bajo (_).

Figura 2. Análisis de la frase de ejemplo en inglés segundo /\ / \

Figura 3. Análisis de la oración de muestra (salida de PC-PATR) segundo __________|__________ VP de NP ___|_____ _________|__________

Se puede hacer una cantidad signiﬁcativa de desarrollo gramatical solo con reglas de estructura de frases sin contexto como estas. Por ejemplo, analizar la frase "el hombre

nos ve con un telescopio" con esta gramática simple produce un árbol de análisis como el que se muestra en la ﬁgura 2. (Con el ﬁn de minimizar la altura de los árboles de

análisis sin necesidad de usar una interfaz gráﬁca, PC-PATR en realidad dibuja árboles de análisis como el que se muestra en la ﬁgura 3.) Analizar la frase similar "vemos

al hombre con un telescopio" produce dos análisis diferentes como se muestra en la ﬁgura 4, mostrando correctamente la ambigüedad entre si usamos un telescopio para

ver al hombre, o si el hombre tenía un telescopio cuando lo vimos.

Figura 4. Análisis de una frase ambigua en inglés S_1 __________|__________ NP_2+ VP_4 | _____________|_____________ PR_3+ VerbalP_5+ NP_7 AdvP_11

Un problema fundamental con las gramáticas de estructura de frases sin contexto es que tienden a sobregenerar. Por ejemplo, la gramática de muestra reconocería

incorrectamente la frase "* ve al hombre con un telescopio", asignándole estructuras de árbol similares a las que se muestran en la ﬁgura 4. Con solo las categorías simples

utilizadas por las reglas de estructura de frases sin contexto, se requiere un gran número de reglas para manejar con precisión incluso un pequeño subconjunto de la

gramática de un idioma. Esta es la motivación principal detrás de las estructuras de características, la mejora básica de PATR-II sobre las gramáticas de la estructura de

frases sin contexto.( 2)

2.2 Estructuras de características

La estructura de datos básica del formalismo PATR-II se llama estructura característica. Una estructura de características contiene una o más características. Una

característica consiste en un nombre de atributo y un valor. Las estructuras de características se escriben comúnmente como matrices de atributos-valor como esta (ejemplo

1):

(1) [ lex: telescopio gato: N ]

donde lex y cat son nombres de atributos, y telescopio y N son los valores de esos atributos. Tenga en cuenta que la estructura de características está entre paréntesis. Cada

característica se produce en una línea separada, con el nombre primero, seguido de un punto y luego su valor. Los nombres de las características y los valores (simples) son

palabras individuales que consisten en caracteres alfanuméricos.

Las estructuras de características pueden tener valores simples, como el ejemplo anterior, o valores complejos, como este (ejemplo 2):

(2) [ lex: telescopio gato: N brillo: `telescopio cabeza: [ agr: [ 3sg: + ]

donde el valor de la característica principal es otra estructura de características, que también contiene una estructura de características incrustada. Las estructuras de

características se pueden anidar arbitrariamente de esta manera.

Se puede hacer referencia a partes de una estructura de características utilizando la notación de ruta. Una ruta es una secuencia de uno o más nombres de entidades

encerrados entre corchetes en ángulo (<>). Por ejemplo, los ejemplos 3-5 serían rutas de características válidas basadas en la estructura de características del ejemplo 2:

(3) <head> (4) <número de cabeza> (5) <head agr 3sg>

Las rutas se utilizan en las plantillas de características y las restricciones de características, que se describen a continuación.

Different features within a feature structure can share values. This is not the same thing as two features having identical values. In Example 6 below, the <head agr> and

<subj head agr> features have identical values, but in Example 7, they share the same value:

(6) [ gato: S pred: [ gato: vicepresidente cabeza: [ agr: [ 3sg: + ]

(7) [ gato: S pred: [ gato: vicepresidente cabeza: [ agr: $1[ 3sg: + ]

Los valores compartidos se indican con los marcadores de coindexación de $1, $2, etc.

Tenga en cuenta que las letras mayúsculas y minúsculas utilizadas en los nombres y valores de las entidades son distintivas. Por ejemplo, NUMBER no es lo mismo que

Number o number. (Esto también es cierto para los símbolos utilizados en las reglas de estructura de frases sin contexto).

2.3 Uniﬁcación

La uniﬁcación es la operación básica aplicada a las estructuras de características en PC-PATR. Consiste en la fusión de la información de dos estructuras de características.

Dos estructuras de características pueden uniﬁcar si sus características comunes tienen los mismos valores, pero no se uniﬁcan si algún valor de característica entra en

conﬂicto.

Considere las siguientes estructuras de características:

(8) [ acuerdo: [ número: singular persona: primero ] ] (9) [ acuerdo: [ número: singular ]

La función 9 se puede uniﬁcar con la función 8 (función de producción 11) o la función 10 (función de producción 12). Sin embargo, la función 8 no puede uniﬁcarse con

04/09/2022 17:48Manual de referencia de PC-PATR

Page 4 sur 21https://software.sil.org/downloads/r/pc-patr/pcpatr.html

la función 10 debido al conﬂicto en los valores de sus características <agreement person>.

2.4 Restricciones de características

Las restricciones de características asociadas con las reglas de estructura de frases en PATR-II consisten en un conjunto de expresiones de uniﬁcación (las restricciones de

uniﬁcación). Cada expresión de uniﬁcación tiene tres partes, en este orden:

1. una ruta de función, cuyo primer elemento es uno de los símbolos de la regla de la estructura de la frase

2. un signo igual (=)

3. ya sea un valor simple u otra ruta de función que también comience con un símbolo de la regla de estructura de la frase

Por ejemplo, considere las siguientes reglas de PC-PATR:

(13) Regla S -> NP VP (SubCl) <NP head agr> = <VP head agr> <estuche de cabezaNP> = NOM <S subj> = <NP>

Rule 13 has two feature constraints that limit the co-occurrence of NP and VP, and two feature constraints that build the feature structures for S. This highlights the dual

purpose of feature constraints in PC-PATR: limiting the co-occurrence of phrase structure elements and constructing the feature structure for the element deﬁned by a rule.

The ﬁrst constraint states that the NP and VP <head agr> features must unify successfully, and also modiﬁes both of those features if they do unify. The second constraint

states that NP's <head case> feature must either be equal to NOM or else be undeﬁned. In the latter case, it is set equal to NOM. The last two constraints create a new feature

structure for S from the feature structures for NP and VP.

La regla 14 ilustra otro punto importante sobre las restricciones de uniﬁcación de características: se aplican solo si implican los componentes de la estructura de la frase

que realmente se encuentran para la regla.

Figura 5. Gramática PC-PATR del subconjunto inglésRegla S -> NP VP (SubCl) <NP head agr> = <VP head agr> <estuche de cabezaNP> = NOM

Figura 6. Salida PC-PATR con estructura de características1: segundo __________|__________ VP de NP ___|_____ _________|__________

Figure 5 shows the grammar of ﬁgure 1 augmented with a number of feature constraints. With this grammar (and a suitable lexicon), the parse output shown in ﬁgure 2

would include the sentence feature structure, as shown in ﬁgure 6. Note that the <subj head agr> and <pred head agr> features share a common value as a result of the

feature constraint uniﬁcations associated with the rule S -> NP VP (SubCl).

PC-PATR permite restricciones de uniﬁcación de características disyuntivas con sus reglas de estructura de frases. Considere las reglas 15 y 16 a continuación. Estas dos

reglas tienen la misma parte de la regla de estructura de la frase. Por lo tanto, pueden convertirse en la única regla 17, que tiene una disyunción en sus restricciones de

uniﬁcación.

(15) Regla CP -> NP C' ; para preguntas con NP frontal <NP tipo wh> = + <C' movió A-bar> = <NP>

PC-PATR no solo permite restricciones de uniﬁcación disyuntiva, sino que también permite reglas de estructura de frases disyuntivas. Considere la regla 18: es muy similar

a la regla 17. Estas dos reglas se pueden combinar aún más para formar la regla 19, que tiene desvinciones tanto en su regla de estructura de frases como en sus

restricciones de uniﬁcación.

(18) Regla CP -> PP C' ; para preguntas con PP frontal <PP tipo wh> = + <C' movido A-bar> = <PP>

Dado que el corsé abierto ({) introduce disyunciones tanto en la regla de la estructura de la frase como en las restricciones de uniﬁcación, se debe tener cuidado de evitar

confundir a PC-PATR cuando se está cargando el archivo gramatical. El ﬁnal de la regla de la estructura de la frase, y el comienzo de las restricciones de uniﬁcación, se

indica mediante la primera restricción que comienza con un corchete de ángulo abierto (<) o con dos puntos (:). Si la primera restricción es parte de una disyunción,

entonces la regla de la estructura de la frase debe terminar con dos puntos. De lo contrario, PC-PATR tratará la restricción de uniﬁcación como parte de la regla de la

estructura de la frase y en breve se quejará de los errores de sintaxis en el archivo gramatical.

Tal vez debería tenerse en cuenta que las disyunciones en las reglas de estructura de frases o las uniﬁcaciones se amplían cuando se lee el archivo gramatical. Solo sirven

como una conveniencia para la persona que escribe las reglas.

2.5 El léxico

El léxico proporciona los elementos básicos (átomos) de la gramática, que suelen ser palabras. Se proporciona información como la que se muestra en la función 2 para

cada entrada del léxico. A diferencia de la implementación original de PATR-II, PC-PATR almacena el léxico en un archivo separado de las reglas gramaticales. Consulte la

sección 6 El archivo de léxico PC-PATR, a continuación para obtener más detalles.

3 PC-PATR en ejecución

PC-PATR es un programa interactivo. Tiene algunas opciones de línea de comandos, pero se controla principalmente mediante comandos escritos en el teclado (o cargados

desde un archivo previamente preparado).

Opciones de línea de comandos

Comandos interactivos

3.1 Opciones de línea de comandos de PC-PATR

El programa PC-PATR utiliza una interfaz de línea de comandos anticuada siguiendo la convención de opciones que comienzan con un carácter de guión (``-'). Las

opciones disponibles se enumeran a continuación en orden alfabético. Las opciones que requieren un argumento tienen el tipo de argumento que sigue a la letra de opción.

-a filename

carga el léxico desde un archivo de salida de análisis AMPLE.

-g filename

carga la gramática de un archivo gramatical PC-PATR.

-l filename

carga el léxico de un archivo de léxico PC-PATR.

-t filename

04/09/2022 17:48Manual de referencia de PC-PATR
Page 5 sur 21https://software.sil.org/downloads/r/pc-patr/pcpatr.html
abre un archivo que contiene uno o más comandos PC-PATR. Consulte la sección 3.2 Comandos interactivos.
Las siguientes opciones solo existen en las versiones de prueba beta del programa, ya que se utilizan solo para la depuración.
-/ incrementa el nivel de depuración. El valor predeterminado es cero (sin salida de depuración).
-z filename
abre un archivo para registrar un registro de asignación de memoria.
-Z address,count
traps the program at the point where address is allocated or freed for the count'th time.
3.2 Comandos interactivos
A continuación se describe cada uno de los comandos disponibles en PC-PATR. Cada comando consta de una o más palabras clave seguidas de cero o más argumentos. Las
palabras clave se pueden abreviar a la longitud mínima necesaria para evitar ambigüedades.
candela
borrar
CERRAR
Directorio
editar
salida
Archivo
ayuda
carga
registro
analizar
dejar de fumar
guardar
Conjunto
Mostrar
Estado
Sistema
toma
3.2.1 cd
cd directorycambia el directorio actual al especiﬁcado. No se permiten espacios en la ruta de acceso del directorio.
For MS-DOS or Windows, you can give a full path starting with the disk letter and a colon (for example, a:); a path starting with \ which indicates a directory at the top
level of the current disk; a path starting with .. which indicates the directory above the current one; and so on. Directories are separated by the \ character. (The forward
slash / works just as well as the backslash \ for MS-DOS or Windows.)
For the Macintosh, you can give a full path starting with the name of a hard disk, a path starting with : which means the current folder, or one starting :: which means the
folder containing the current one (and so on).
For Unix, you can give a full path starting with a / (for example, /usr/pcpatr); a path starting with .. which indicates the directory above the current one; and so on.
Directories are separated by the / character.
3.2.2 claro
clear erases all existing grammar and lexicon information, allowing the user to prepare to load information for a new language. Strictly speaking, it is not needed since the
load grammar command erases the previously existing grammar, and the load lexicon and load analysis commands erase any previously existing lexicon.
3.2.3 cerrar
close closes the current log ﬁle opened by a previous log command.
3.2.4 directorio
directoryenumera el contenido del directorio actual. Este comando solo está disponible para las implementaciones de MS-DOS y Unix. No existe para Microsoft
Windows ni para Macintosh.
3.2.5 editar
edit ﬁlename attempts to edit the speciﬁed ﬁle using the program indicated by the environment variable EDITOR. If this environment variable is not deﬁned, then edlin is
used to edit the ﬁle on MS-DOS, and vi is used to edit the ﬁle on Unix. (These defaults should convince you to set this variable!) This command is not available for
Microsoft Windows or the Macintosh.
3.2.6 salida
exitdetiene PC-PATR, devolviendo el control al sistema operativo. Esto es lo mismo que quit.
3.2.7 archivo
The file commands process data from a ﬁle, optionally writing the parse results to another ﬁle. Each of these commands is described below.
desambiguación del archivo
análisis de archivos

1 / 21 100%

Documents connexes

Manual de referencia de PC-PATR

Gramática I

Sanchez Marimon Oscar TFG GEAO 2014-15

Manzano Villalta MariaRosa TFG GEAO 2014-15

Como escribir bien en español. Manual de Redacción ( PDFDrive.com )

Modelització i simulació aplicades a la recerca i Xavier Rubio Campillo

INSTRUCTIONS FOR INSTALLATION OF THE COMBINATION ARC

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Manual de referencia de PC-PATR

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Manual de referencia de PC-PATR

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib