Telechargé par habeascorpus

Manual de referencia de PC-PATR

publicité
Manual de referencia de PC-PATR
04/09/2022 17:48
Manual de referencia de PC-PATR
un analizador sintáctico basado en la unificación
versión 1.4.0
Noviembre de 2006
por Stephen McConnel (cambios para v. 1.2.5-1.4.0 por H. Andrew Black)
Tabla de contenidos
1 Introducción al programa PC-PATR
2 El formalismo PATR-II
2.1 Reglas de estructura de frases
2.2 Estructuras de características
2.3 Unificación
2.4 Restricciones de características
2.5 El léxico
3 PC-PATR en ejecución
3.1 Opciones de línea de comandos de PC-PATR
3.2 Comandos interactivos
3.2.1 cd
3.2.2 claro
3.2.3 cerrar
3.2.4 directorio
3.2.5 editar
3.2.6 salida
3.2.7 archivo
3.2.7.1 desambiguación del archivo
3.2.7.2 análisis de archivos
3.2.8 ayuda
3.2.9 carga
3.2.9.1 amplio control de carga
3.2.9.2 cargar un diccionario amplio
3.2.9.3 carga amplio control de texto
3.2.9.4 análisis de carga
3.2.9.5 gramática de carga
3.2.9.6 carga de gramática kimmo
3.2.9.7 léxico kimmo de carga
3.2.9.8 reglas de kimmo de carga
3.2.9.9 léxico de carga
3.2.10 registro
3.2.11 análisis
3.2.12 salir
3.2.13 guardar
3.2.13.1 guardar léxico
3.2.13.2 Guardar estado
3.2.14 conjunto
3.2.14.1 ambigüedades del conjunto
3.2.14.2 conjunto de diccionario amplio
3.2.14.3 ciclos de comprobación del conjunto
Comentario del conjunto 3.2.14.4
3.2.14.5 errores de configuración
3.2.14.6 características del conjunto
3.2.14.7 establecer la puntuación final
3.2.14.8 brillo del conjunto
3.2.14.9 conjunto de ciclos de comprobación de kimmo
3.2.14.10 establecer kimmo promover los predeterminados
3.2.14.11 conjunto de filtro de arriba hacia abajo kimmo
3.2.14.12 límite establecido
3.2.14.13 categoría de marcador de conjunto
3.2.14.14 características del marcador de ajuste
3.2.14.15 brillo del marcador de conjunto
3.2.14.16 establecido el registro del marcador
3.2.14.17 establecer brillo de raíz de marcador
3.2.14.18 establecer la palabra marcadora
3.2.14.19 establecer incumplimientos de la promoción
3.2.14.20 establecer propiedad-es-función
3.2.14.21 conjunto de solo reconocimiento
3.2.14.22 conjunto de brillo de raíz
3.2.14.23 tiempo establecido
3.2.14.24 establecer el filtro de arriba hacia abajo
3.2.14.25 árbol de conjunto
3.2.14.26 establece características vacías de recorte
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 1 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
3.2.14.27 unificación del conjunto
3.2.14.28 establecer verboso
3.2.14.29 establecer advertencias
3.2.14.30 conjunto de análisis de escritura-ample-parse
3.2.15 mostrar
3.2.15.1 mostrar léxico
3.2.15.2 mostrar estado
3.2.16 estado
3.2.17 sistema
3.2.18 tomar
4 El archivo de gramática PC-PATR
4.1 Reglas
4.1.1 Operaciones sindicales prioritarias
4.1.2 Operaciones de restricción lógica
4.2 Plantillas de funciones
4.3 Ajustes de parámetros
4.4 Reglas léxicos
4.5 Plantillas de restricciones
5 Formato estándar
6 El archivo Léxico PC-PATR
7 El archivo de análisis AMPLE
7.1 Campos de archivo de análisis AMPLE
7.1.1 Análisis: \a
7.1.2 Descomposición (formas superficiales): \d
7.1.3 Categoría (posible palabra o morfema): \cat
7.1.4 Propiedades: \p
7.1.5 Descriptores de características: \fd
7.1.6 Formas subyacentes (descomposición): \u
7.1.7 Word (antes de la descapitalización y los cambios de ortografía): \w
7.1.8 Formato (basura antes de la palabra): \f
7.1.9 Indicador de mayúsculas: \c
7.1.10 No alfabético (basura después de la palabra): \n
7.2 Análisis ambiguos
7.3 Fallos de análisis
8 Uso de los analizadores morfológicos integrados
8.1 PC-Kimmo
8.2 AMPLITUD
9 Índice
1 Introducción al programa PC-PATR
Este documento describe PC-PATR, una implementación del formalismo lingüístico computacional PATR-II (además de algunas mejoras) para ordenadores personales.
Está disponible para MS-DOS, Microsoft Windows, Macintosh y Unix.( 1)
PC-PATR utiliza un analizador de gráficos en la esquina izquierda con estas características:
análisis de abajo hacia arriba con filtrado de arriba hacia abajo basado en las categorías
orden de izquierda a derecha: después de que cada palabra se agregue al gráfico, todos los bordes posibles que se pueden derivar de ese punto se calculan como un
efecto secundario
PC-PATR todavía está en desarrollo. El autor agradecería los comentarios dirigidos a la siguiente dirección:
Stephen McConnel (972)708-7361 (oficina) Desarrollo de software de lenguaje (972)708-7561 (fax) SIL Internacional 7500 W. Camp Wisdom Road Dallas,
2 El formalismo PATR-II
El formalismo PATR-II puede verse como un lenguaje informático para codificar información lingüística. No presupone ninguna teoría particular de la sintaxis. Fue
desarrollado originalmente por Stuart M. Shieber en la Universidad de Stanford a principios de la década de 1980 (Shieber 1984, Shieber 1986). Una gramática PATR-II
consiste en un conjunto de reglas y un léxico. Cada regla consiste en una regla de estructura de frases sin contexto y un conjunto de restricciones de características, es
decir, unificaciones en las estructuras de características asociadas con los componentes de las reglas de estructura de frases. El léxico proporciona los elementos que
pueden reemplazar los símbolos terminales de las reglas de estructura de la frase, es decir, las palabras del idioma junto con sus características relevantes.
Reglas de la estructura de la frase
Estructuras de características
unificación
Restricciones de características
El léxico
2.1 Reglas de estructura de frases
Las reglas de estructura de frases sin contexto deben ser familiares para cualquier persona que haya estudiado teoría lingüística o informática. Se ven así:
LHS -> RHS_1 RHS_2 ...
`LHS'(el
símbolo a la izquierda de la flecha) es un símbolo no terminal para el tipo de frase que se está describiendo. A la derecha de la flecha hay una lista ordenada de los
componentes de la frase. Estos componentes son símbolos no terminales, que aparecen en el lado izquierdo de alguna regla de la gramática, o símbolos terminales, que
representan clases básicas de elementos del léxico. Estas clases básicas suelen corresponder a lo que comúnmente se llama partes del habla. En PATR-II, los símbolos
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 2 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
terminal y no terminal se denominan categorías.
Figura 1. Gramática de estructura de frases sin contextoRegla S -> NP VP (SubCl) Regla NP -> {(Det) (AdjP) N (PrepP)} / PR Regla Det -> DT / PR
Considere la gramática de la estructura de frases sin contexto al estilo PC-PATR en la figura 1. Tiene diez símbolos no terminales (S, NP, Det, VP, VerbalP, AuxP, PrepP,
AdjP, AdvP y SubCl) y nueve símbolos terminales (N, PR, DT, V, AUX, PP, AV, AJ y CJ). Esta gramática describe un pequeño subconjunto de oraciones en inglés. Vale la
pena mencionar varios aspectos de esta gramática.
1.
2.
3.
4.
Los componentes opcionales (o conjuntos de constituyentes) en el lado derecho están entre paréntesis.
Los componentes alternativos (o conjuntos de componentes) en el lado derecho están separados por barras.
Los corsés se utilizan para agrupar conjuntos alternativos de elementos, de modo que las alternancias no sean ambiguas.
Los símbolos no deben repetirse literalmente dentro de una regla. Los símbolos repetidos deben distinguirse entre sí añadiendo un número de índice diferente a un
símbolo cada vez que se repita. Los números de índice se introducen con el carácter de guión bajo (_).
Figura 2. Análisis de la frase de ejemplo en inglés
segundo
Figura 3. Análisis de la oración de muestra (salida de PC-PATR)
segundo
/\
/ \
__________|__________
VP de NP ___|_____
Se puede hacer una cantidad significativa de desarrollo gramatical solo con reglas de estructura de frases sin contexto como estas. Por ejemplo, analizar la frase "el hombre
nos ve con un telescopio" con esta gramática simple produce un árbol de análisis como el que se muestra en la figura 2. (Con el fin de minimizar la altura de los árboles de
análisis sin necesidad de usar una interfaz gráfica, PC-PATR en realidad dibuja árboles de análisis como el que se muestra en la figura 3.) Analizar la frase similar "vemos
al hombre con un telescopio" produce dos análisis diferentes como se muestra en la figura 4, mostrando correctamente la ambigüedad entre si usamos un telescopio para
ver al hombre, o si el hombre tenía un telescopio cuando lo vimos.
Figura 4. Análisis de una frase ambigua en inglés
S_1 __________|__________ NP_2+ VP_4 | _____________|_____________ PR_3+ V
Un problema fundamental con las gramáticas de estructura de frases sin contexto es que tienden a sobregenerar. Por ejemplo, la gramática de muestra reconocería
incorrectamente la frase "* ve al hombre con un telescopio", asignándole estructuras de árbol similares a las que se muestran en la figura 4. Con solo las categorías simples
utilizadas por las reglas de estructura de frases sin contexto, se requiere un gran número de reglas para manejar con precisión incluso un pequeño subconjunto de la
gramática de un idioma. Esta es la motivación principal detrás de las estructuras de características, la mejora básica de PATR-II sobre las gramáticas de la estructura de
frases sin contexto.( 2)
2.2 Estructuras de características
La estructura de datos básica del formalismo PATR-II se llama estructura característica. Una estructura de características contiene una o más características. Una
característica consiste en un nombre de atributo y un valor. Las estructuras de características se escriben comúnmente como matrices de atributos-valor como esta (ejemplo
1):
(1) [ lex: telescopio
gato: N ]
donde lex y cat son nombres de atributos, y telescopio y N son los valores de esos atributos. Tenga en cuenta que la estructura de características está entre paréntesis. Cada
característica se produce en una línea separada, con el nombre primero, seguido de un punto y luego su valor. Los nombres de las características y los valores (simples) son
palabras individuales que consisten en caracteres alfanuméricos.
Las estructuras de características pueden tener valores simples, como el ejemplo anterior, o valores complejos, como este (ejemplo 2):
(2) [ lex: telescopio
gato: N
brillo: `telescopio
cabeza: [ agr: [ 3sg: + ]
donde el valor de la característica principal es otra estructura de características, que también contiene una estructura de características incrustada. Las estructuras de
características se pueden anidar arbitrariamente de esta manera.
Se puede hacer referencia a partes de una estructura de características utilizando la notación de ruta. Una ruta es una secuencia de uno o más nombres de entidades
encerrados entre corchetes en ángulo (<>). Por ejemplo, los ejemplos 3-5 serían rutas de características válidas basadas en la estructura de características del ejemplo 2:
(3) <head> (4) <número de cabeza> (5) <head agr 3sg>
Las rutas se utilizan en las plantillas de características y las restricciones de características, que se describen a continuación.
Different features within a feature structure can share values. This is not the same thing as two features having identical values. In Example 6 below, the <head agr> and
<subj head agr> features have identical values, but in Example 7, they share the same value:
(6) [ gato: S
pred: [ gato: vicepresidente
cabeza: [ agr: [ 3sg: + ]
(7) [ gato: S
pred: [ gato: vicepresidente
cabeza: [ agr: $1[ 3sg: + ]
Los valores compartidos se indican con los marcadores de coindexación de $1, $2, etc.
Tenga en cuenta que las letras mayúsculas y minúsculas utilizadas en los nombres y valores de las entidades son distintivas. Por ejemplo, NUMBER no es lo mismo que
Number o number. (Esto también es cierto para los símbolos utilizados en las reglas de estructura de frases sin contexto).
2.3 Unificación
La unificación es la operación básica aplicada a las estructuras de características en PC-PATR. Consiste en la fusión de la información de dos estructuras de características.
Dos estructuras de características pueden unificar si sus características comunes tienen los mismos valores, pero no se unifican si algún valor de característica entra en
conflicto.
Considere las siguientes estructuras de características:
(8) [ acuerdo: [ número: singular
persona: primero ] ]
(9) [ acuerdo: [ número: singular ]
La función 9 se puede unificar con la función 8 (función de producción 11) o la función 10 (función de producción 12). Sin embargo, la función 8 no puede unificarse con
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 3 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
la función 10 debido al conflicto en los valores de sus características <agreement person>.
2.4 Restricciones de características
Las restricciones de características asociadas con las reglas de estructura de frases en PATR-II consisten en un conjunto de expresiones de unificación (las restricciones de
unificación). Cada expresión de unificación tiene tres partes, en este orden:
1. una ruta de función, cuyo primer elemento es uno de los símbolos de la regla de la estructura de la frase
2. un signo igual (=)
3. ya sea un valor simple u otra ruta de función que también comience con un símbolo de la regla de estructura de la frase
Por ejemplo, considere las siguientes reglas de PC-PATR:
(13)
Regla S -> NP VP (SubCl)
<NP head agr> = <VP head agr>
<estuche de cabezaNP> = NOM
<S subj> = <NP>
Rule 13 has two feature constraints that limit the co-occurrence of NP and VP, and two feature constraints that build the feature structures for S. This highlights the dual
purpose of feature constraints in PC-PATR: limiting the co-occurrence of phrase structure elements and constructing the feature structure for the element defined by a rule.
The first constraint states that the NP and VP <head agr> features must unify successfully, and also modifies both of those features if they do unify. The second constraint
states that NP's <head case> feature must either be equal to NOM or else be undefined. In the latter case, it is set equal to NOM. The last two constraints create a new feature
structure for S from the feature structures for NP and VP.
La regla 14 ilustra otro punto importante sobre las restricciones de unificación de características: se aplican solo si implican los componentes de la estructura de la frase
que realmente se encuentran para la regla.
Figura 5. Gramática PC-PATR del subconjunto inglésRegla S -> NP VP (SubCl)
<NP head agr> = <VP head agr>
<estuche de cabeza
Figura 6. Salida PC-PATR con estructura de características1:
segundo
VP de NP ___|_____
__________|__________
Figure 5 shows the grammar of figure 1 augmented with a number of feature constraints. With this grammar (and a suitable lexicon), the parse output shown in figure 2
would include the sentence feature structure, as shown in figure 6. Note that the <subj head agr> and <pred head agr> features share a common value as a result of the
feature constraint unifications associated with the rule S -> NP VP (SubCl).
PC-PATR permite restricciones de unificación de características disyuntivas con sus reglas de estructura de frases. Considere las reglas 15 y 16 a continuación. Estas dos
reglas tienen la misma parte de la regla de estructura de la frase. Por lo tanto, pueden convertirse en la única regla 17, que tiene una disyunción en sus restricciones de
unificación.
(15)
Regla CP -> NP C' ; para preguntas con NP frontal
<NP tipo wh> = +
<C' movió A-bar> = <NP>
PC-PATR no solo permite restricciones de unificación disyuntiva, sino que también permite reglas de estructura de frases disyuntivas. Considere la regla 18: es muy similar
a la regla 17. Estas dos reglas se pueden combinar aún más para formar la regla 19, que tiene desvinciones tanto en su regla de estructura de frases como en sus
restricciones de unificación.
(18)
Regla CP -> PP C' ; para preguntas con PP frontal
<PP tipo wh> = +
<C' movido A-bar> = <PP>
Dado que el corsé abierto ({) introduce disyunciones tanto en la regla de la estructura de la frase como en las restricciones de unificación, se debe tener cuidado de evitar
confundir a PC-PATR cuando se está cargando el archivo gramatical. El final de la regla de la estructura de la frase, y el comienzo de las restricciones de unificación, se
indica mediante la primera restricción que comienza con un corchete de ángulo abierto (<) o con dos puntos (:). Si la primera restricción es parte de una disyunción,
entonces la regla de la estructura de la frase debe terminar con dos puntos. De lo contrario, PC-PATR tratará la restricción de unificación como parte de la regla de la
estructura de la frase y en breve se quejará de los errores de sintaxis en el archivo gramatical.
Tal vez debería tenerse en cuenta que las disyunciones en las reglas de estructura de frases o las unificaciones se amplían cuando se lee el archivo gramatical. Solo sirven
como una conveniencia para la persona que escribe las reglas.
2.5 El léxico
El léxico proporciona los elementos básicos (átomos) de la gramática, que suelen ser palabras. Se proporciona información como la que se muestra en la función 2 para
cada entrada del léxico. A diferencia de la implementación original de PATR-II, PC-PATR almacena el léxico en un archivo separado de las reglas gramaticales. Consulte la
sección 6 El archivo de léxico PC-PATR, a continuación para obtener más detalles.
3 PC-PATR en ejecución
PC-PATR es un programa interactivo. Tiene algunas opciones de línea de comandos, pero se controla principalmente mediante comandos escritos en el teclado (o cargados
desde un archivo previamente preparado).
Opciones de línea de comandos
Comandos interactivos
3.1 Opciones de línea de comandos de PC-PATR
El programa PC-PATR utiliza una interfaz de línea de comandos anticuada siguiendo la convención de opciones que comienzan con un carácter de guión (``-'). Las
opciones disponibles se enumeran a continuación en orden alfabético. Las opciones que requieren un argumento tienen el tipo de argumento que sigue a la letra de opción.
-a filename
carga el léxico desde un archivo de salida de análisis AMPLE.
-g filename
carga la gramática de un archivo gramatical PC-PATR.
-l filename
carga el léxico de un archivo de léxico PC-PATR.
-t filename
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 4 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
abre un archivo que contiene uno o más comandos PC-PATR. Consulte la sección 3.2 Comandos interactivos.
Las siguientes opciones solo existen en las versiones de prueba beta del programa, ya que se utilizan solo para la depuración.
-/
incrementa el nivel de depuración. El valor predeterminado es cero (sin salida de depuración).
-z filename
abre un archivo para registrar un registro de asignación de memoria.
-Z address,count
traps the program at the point where address is allocated or freed for the count'th time.
3.2 Comandos interactivos
A continuación se describe cada uno de los comandos disponibles en PC-PATR. Cada comando consta de una o más palabras clave seguidas de cero o más argumentos. Las
palabras clave se pueden abreviar a la longitud mínima necesaria para evitar ambigüedades.
candela
borrar
CERRAR
Directorio
editar
salida
Archivo
ayuda
carga
registro
analizar
dejar de fumar
guardar
Conjunto
Mostrar
Estado
Sistema
toma
3.2.1 cd
cd
directorycambia el directorio actual al especificado. No se permiten espacios en la ruta de acceso del directorio.
For MS-DOS or Windows, you can give a full path starting with the disk letter and a colon (for example, a:); a path starting with \ which indicates a directory at the top
level of the current disk; a path starting with .. which indicates the directory above the current one; and so on. Directories are separated by the \ character. (The forward
slash / works just as well as the backslash \ for MS-DOS or Windows.)
For the Macintosh, you can give a full path starting with the name of a hard disk, a path starting with : which means the current folder, or one starting :: which means the
folder containing the current one (and so on).
For Unix, you can give a full path starting with a / (for example, /usr/pcpatr); a path starting with .. which indicates the directory above the current one; and so on.
Directories are separated by the / character.
3.2.2 claro
clear erases all existing grammar and lexicon information, allowing the user to prepare to load information for a new language. Strictly speaking, it is not needed
load grammar command erases the previously existing grammar, and the load lexicon and load analysis commands erase any previously existing lexicon.
since the
3.2.3 cerrar
close
closes the current log file opened by a previous log command.
3.2.4 directorio
directoryenumera
el contenido del directorio actual. Este comando solo está disponible para las implementaciones de MS-DOS y Unix. No existe para Microsoft
Windows ni para Macintosh.
3.2.5 editar
filename attempts to edit the specified file using the program indicated by the environment variable EDITOR. If this environment variable is not defined, then edlin is
used to edit the file on MS-DOS, and vi is used to edit the file on Unix. (These defaults should convince you to set this variable!) This command is not available for
Microsoft Windows or the Macintosh.
edit
3.2.6 salida
exitdetiene
PC-PATR, devolviendo el control al sistema operativo. Esto es lo mismo que quit.
3.2.7 archivo
The file commands process data from a file, optionally writing the parse results to another file. Each of these commands is described below.
desambiguación del archivo
análisis de archivos
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 5 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
3.2.7.1 desambiguación del archivo
input.ana [out.ana]lee oraciones del archivo de análisis AMPLE especificado y escribe los árboles de análisis y las estructuras de características
correspondientes, ya sea en la pantalla o en el archivo de salida especificado opcionalmente. Si se escribe el archivo de salida, los análisis de palabras ambiguos se
eliminan tanto como sea posible como resultado del análisis de la oración. Cuando haya terminado, se muestra en la pantalla un informe estadístico de análisis exitosos
(sentencia).
file disambiguate
3.2.7.2 análisis de archivos
input-file [output-file]lee oraciones del archivo de entrada especificado, una por línea, y escribe los árboles de análisis y las estructuras de características
correspondientes en la pantalla o en el archivo de salida especificado opcionalmente. El carácter de comentario está en vigor mientras se lee este archivo. Actualmente, PCPATR no intenta manejar mayúsculas ni puntuación. PROBABLEMENTE SE AÑADIRÁ ALGUNA CAPACIDAD PARA MANEJAR LA PUNTUACIÓN EN ALGÚN
MOMENTO.
file parse
This command behaves the same as parse except that input comes from a file rather than the keyboard, and output may go to a file rather than the screen. When finished, a
statistical report of successful parses is displayed on the screen.
3.2.8 ayuda
help
command displays a description of the specified command. If help is typed by itself, PC-PATR displays a list of commands with short descriptions of each command.
3.2.9 carga
The load commands all load information stored in specially formatted files. The load ample and load kimmo commands activate morphological parsers, and serve as
alternatives to load lexicon (or load analysis) for obtaining the category and other feature information for words. Each of the load commands is described below.
amplio control de carga
cargar un diccionario amplio
cargar un amplio control de texto
análisis de carga
cargar gramática
cargar la gramática kimmo
léxico de carga kimmo
reglas de carga de kimmo
léxico de carga
3.2.9.1 amplio control de carga
xxad01.ctl xxancd.tab [xxordc.tab]borra cualquier información de AMPLE existente (incluidos los diccionarios) y lee la información de control de
los archivos especificados. Esto también borra cualquier información almacenada de PC-Kimmo.
load ample control
At least two and possibly three files are loaded by this command. The first file is the AMPLE analysis data file. It has a default filetype extension of .ctl but no default
filename. The second file is the AMPLE dictionary code table file. It has a default filetype extension of .tab but no default filename. The third file is an optional dictionary
orthography change table. It has a default filetype extension of .tab and no default filename.
l am ces
sinónimo de load ample control.
3.2.9.2 cargar un diccionario amplio
[prefix.dic] [infix.dic] [suffix.dic] root1.dic [...]Oregón
file01.dic [file02.dic ...]borra cualquier información existente del diccionario AMPLE y lee los archivos especificados. Esto también borra
cualquier información almacenada de PC-Kimmo.
load ample dictionary
load ample dictionary
La primera forma del comando es para usar un diccionario cuyos archivos se dividen de acuerdo con el tipo de morfema (set ample-dictionary split). Los diferentes
tipos de archivos de diccionario deben cargarse en el orden que se muestra, omiten los diccionarios de archivos afijos que no sean necesarios.
La segunda forma del comando es para usar un diccionario cuyas entradas contengan el tipo de morfema (set ample-dictionary unified).( 3)
l am des
un sinónimo de load ample dictionary.
3.2.9.3 carga amplio control de texto
xxintx.ctlborra cualquier información de control de entrada de texto AMPLE existente y lee el archivo especificado. Esto también borra
cualquier información almacenada de PC-Kimmo.
load ample text-control
El archivo de control de entrada de texto tiene una extensión de tipo de archivo predeterminada de .ctl, pero no un nombre de archivo predeterminado.
l am tes
sinónimo de load ample text-control.
3.2.9.4 análisis de carga
file1.ana [file2.ana ...] erases any existing lexicon and reads a new lexicon from the specified AMPLE analysis file(s). Note that more than one file may be
loaded with the single load analysis command: duplicate entries are not stored in the lexicon.
load analysis
The default filetype extension for load analysis is .ana, and the default filename is ample.ana.
l a
is a synonym for load analysis.
3.2.9.5 gramática de carga
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 6 sur 21
Manual de referencia de PC-PATR
load grammar
04/09/2022 17:48
file.grmborra cualquier gramática existente y lee una nueva gramática del archivo especificado.
The default filetype extension for load grammar is .grm, and the default filename is grammar.grm.
l g
is a synonym for load grammar.
3.2.9.6 carga de gramática kimmo
load kimmo grammar
file.grmborra cualquier gramática de PC-Kimmo (palabra) existente y lee una nueva gramática de palabras del archivo especificado.
The default filetype extension for load kimmo grammar is .grm, and the default filename is grammar.grm.
l k g
is a synonym for load kimmo grammar.
3.2.9.7 léxico kimmo de carga
file.lexborra cualquier información de léxico PC-Kimmo existente y lee un nuevo léxico de morfema del archivo especificado. Se debe cargar un
archivo de reglas de PC-Kimmo antes de que se pueda cargar un archivo de léxico de PC-Kimmo.
load kimmo lexicon
The default filetype extension for load kimmo lexicon is .lex, and the default filename is lexicon.lex.
l k les
sinónimo de load kimmo lexicon.
3.2.9.8 reglas de kimmo de carga
file.rulborra cualquier regla de PC-Kimmo existente y lee un nuevo conjunto de reglas del archivo especificado. Esto también borra cualquier
información AMPLE almacenada.
load kimmo rules
The default filetype extension for load kimmo rules is .rul, and the default filename is rules.rul.
l k r
is a synonym for load kimmo rules.
3.2.9.9 léxico de carga
file1.lex [file2.lex ...]borra cualquier léxico existente y lee un nuevo léxico de los archivos especificados. Tenga en cuenta que se puede cargar más de un
archivo con un solo comando load lexicon.
load lexicon
The default filetype extension for load lexicon is .lex, and the default filename is lexicon.lex.
l les
sinónimo de load lexicon.
3.2.10 registro
log
[file.log] opens a log file. Each item processed by a parse command is stored to the log file as well as being displayed on the screen.
If a filename is given on the same line as the log command, then that file is used for the log file. Any previously existing file with the same name will be overwritten. If no
filename is provided, then the file pcpatr.log in the current directory is used for the log file.
Use close to stop recording in a log file. If a log command is given when a log file is already open, then the earlier log file is closed before the new log file is opened.
3.2.11 análisis
[sentence or phrase] attempts to parse the input sentence according to the loaded grammar. If a sentence is typed on the same line as the command, then that
sentence is parsed. If the parse command is given by itself, then the user is prompted repeatedly for sentences to parse. This cycle of typing and parsing is terminated by
typing an empty "sentence" (that is, nothing but the Enter or Return key).
parse
Tanto la gramática como el léxico deben cargarse antes de usar este comando.
3.2.12 salir
quitdetiene
PC-PATR, devolviendo el control al sistema operativo. Esto es lo mismo que exit.
3.2.13 guardar
The save commands write information stored in memory to a file suitable for reloading into PC-PATR later. Each of these commands is described below.
guardar léxico
guardar estado
3.2.13.1 guardar léxico
[file.lex]escribe el contenido del léxico actual en el archivo designado. Se debe especificar el archivo léxico de salida. Esto puede ser útil si está utilizando
un analizador morfológico para rellenar el léxico.
save lexicon
3.2.13.2 Guardar estado
save status [file.tak] writes the current
pcpatr.tak in the current directory.
settings to the designated file in the form of PC-PATR commands. If the file is not specified, the settings are written to
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 7 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
3.2.14 conjunto
The set commands control program behavior by setting internal program variables. Each of these commands (and variables) is described below.
establecer ambigüedades
establecer un diccionario amplio
establecer ciclos de control
establecer comentario
establecer fallos
establecer características
establecer la puntuación final
brillo de conjunto
conjunto de ciclos de comprobación de kimmo
establecer kimmo promote-defaults
conjunto de filtro de arriba hacia abajo de kimmo
establecer el límite
establecer la categoría del marcador
establecer características del marcador
brillo del marcador de ajuste
establecer un récord de marcador
establecer brillo de raíz de marcador
establecer la palabra marcadora
establecer los predeterminados de promoción
establecer propiedad-es-función
establecer solo reconocimiento
establecer brillo de raíz
establecer el tiempo
establecer el filtro de arriba hacia abajo
establecer el árbol
establecer características vacías de trim-vacío
establecer la unificación
establecer verboso
establecer advertencias
establecer análisis de escritura-ample-parse
3.2.14.1 ambigüedades del conjunto
numberlimita el número de análisis impresos al número dado. El valor predeterminado es 10. Tenga en cuenta que esto no limita el número de análisis
producidos, solo el número impreso.
set ambiguities
3.2.14.2 conjunto de diccionario amplio
value determines whether or not the AMPLE dictionary files are divided according to morpheme type. set ample-dictionary split declares
that the AMPLE dictionary is divided into a prefix dictionary file, an infix dictionary file, a suffix dictionary file, and one or more root dictionary files. The existence of the
three affix dictionary depends on settings in the AMPLE analysis data file. If they exist, the load ample dictionary command requires that they be given in this relative
order: prefix, infix, suffix, root(s).
set ample-dictionary
declares that any of the AMPLE dictionary files may contain any type of morpheme. This implies that each dictionary entry may contain
a field specifying the type of morpheme (the default is root), and that the dictionary code table contains a \unified field. One of the changes listed under \unified must
convert a backslash code to T.
set ample-dictionary unified
El valor predeterminado es dividir el diccionario AMPLE.( 4)
3.2.14.3 ciclos de comprobación del conjunto
value enables or disables a check to prevent cycles in the parse chart. set check-cycles on turns on this check, and set check-cycles off turns it
off. This check slows down the parsing of a sentence, but it makes the parser less vulnerable to hanging on perverse grammars. The default setting is on.
set check-cycles
Comentario del conjunto 3.2.14.4
character sets the comment character to the indicated value. If character is missing (or equal to the current comment character), then comment handling is
disabled. The default comment character is ; (semicolon).
set comment
3.2.14.5 errores de configuración
value enables or disables grammar failure mode. set failures on turns on grammar failure mode, and set failures off turns it off. When grammar
failure mode is on, the partial results of forms that fail the grammar module are displayed. A form may fail the grammar either by failing the feature constraints or by
failing the constituent structure rules. In the latter case, a partial tree (bush) will be returned. The default setting is off.
set failures
Be careful with this option. Setting failures to on can cause the PC-PATR to go into an infinite loop for certain recursive grammars and certain input sentences. WE MAY
TRY TO DO SOMETHING TO DETECT THIS TYPE OF BEHAVIOR, AT LEAST PARTIALLY.
3.2.14.6 características del conjunto
set features
valuedetermina cómo se mostrarán las funciones.
set features allpermite
la visualización de las características de todos los nodos del árbol de análisis.
set features toppermite
la visualización de la estructura de características solo para el nodo superior del árbol de análisis. Esta es la configuración predeterminada.
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 8 sur 21
Manual de referencia de PC-PATR
set features flathace
04/09/2022 17:48
que las funciones se muestren en una cadena plana y lineal que consume menos espacio en la pantalla.
set features fullhace
que las características se muestren en una forma de sangría que deja clara la estructura incrustada del conjunto de características. Esta es la
configuración predeterminada.
set features onactiva
el modo de visualización de funciones, lo que permite mostrar las funciones. Esta es la configuración predeterminada.
set features offdesactiva
el modo de visualización de funciones, evitando que se muestren las funciones.
3.2.14.7 establecer la puntuación final
valuedefine el conjunto de caracteres utilizados para marcar los extremos de las oraciones. Los caracteres individuales deben estar separados por
espacios para que se puedan usar dígrafos y trígrafos, no solo unidades de un solo carácter. El valor predeterminado es . ! ? : ;.
set final-punctuation
Esta configuración de variable solo afecta al comando file disambiguate.
3.2.14.8 brillo del conjunto
set gloss value enables the display of glosses in the parse tree output if value is on, and disables the display of glosses if value is off.
file, then gloss is automatically turned on when the lexicon is loaded. If no glosses exist in the lexicon, then this flag is ignored.
If any glosses exist in the lexicon
3.2.14.9 conjunto de ciclos de comprobación de kimmo
set kimmo check-cycles value enables or disables a check to prevent cycles in a word parse chart created by the embedded PC-Kimmo morphological parser. set kimmo
check-cycles on turns on this check, and set kimmo check-cycles off turns it off. This check slows down the parsing of a sentence, but it makes the parser less
vulnerable to hanging on perverse grammars. The default setting is on.
3.2.14.10 establecer kimmo promover los predeterminados
value controls whether default atomic values in the feature structures loaded from the lexicon are "promoted" to ordinary atomic values
before parsing a word with the embedded PC-Kimmo morphological parser. set kimmo promote-defaults on turns on this behavior, and set kimmo promote-defaults
off turns it off. The default setting is on. (It is arguable that this is the wrong choice for the default, but this has been the behavior since the program was first written.)
set kimmo promote-default
3.2.14.11 conjunto de filtro de arriba hacia abajo kimmo
set kimmo top-down-filter value enables or disables top-down filtering in the embedded PC-Kimmo morphological parser, based on the morpheme categories. set
kimmo top-down-filter on turns on this filtering, and set kimmo top-down-filter off turns it off. The top-down filter speeds up the parsing of a sentence, but might
cause the parser to miss some valid parses. The default setting is on.
Esto no debería ser necesario en la versión final de PC-PATR.
3.2.14.12 límite establecido
numberestablece el límite de tiempo (en segundos) para analizar una oración. Su argumento es un número mayor o igual a cero, que es el número máximo de
segundos que se permite un análisis antes de ser cancelado. El valor predeterminado es 0, que tiene el significado especial de que no se impone ningún límite de tiempo.
set limit
NOTA: esta función es nueva y sigue siendo algo experimental. Puede que no se debapura por completo y puede causar efectos secundarios imprevistos, como bloqueos
del programa algún tiempo después de que se cancelen uno o más análisis debido a que se excede el límite de tiempo establecido.
3.2.14.13 categoría de marcador de conjunto
set marker category
markerestablece el marcador para el campo que contiene la función de categoría (parte del habla). El valor predeterminado es \c.
3.2.14.14 características del marcador de ajuste
set marker features
predeterminado es \f.
markerestablece el marcador para el campo que contiene características diversas. (Este campo no es necesario para muchas palabras). El valor
3.2.14.15 brillo del marcador de conjunto
set marker gloss
markerestablece el marcador para el campo que contiene la palabra brillo. El valor predeterminado es \g.
3.2.14.16 establecido el registro del marcador
markerestablece el marcador de campo que inicia un nuevo registro en el archivo léxico. Esto puede o no ser lo mismo que el marcador de word. El
valor predeterminado es \w.
set marker record
3.2.14.17 establecer brillo de raíz de marcador
markerestablece el marcador para el campo que contiene la palabra rootgloss. El valor predeterminado es \r. El brillo de raíz de la palabra puede
ser útil para manejar construcciones sintácticas como la reduplicación de verbos. Se puede escribir una restricción de unificación que garantice que el brillo raíz se unifique
entre dos elementos léxicos/símbolos terminales sucesivos. Ten en cuenta que esto no funciona cuando se usa Kimmo para analizar palabras.
set marker rootgloss
3.2.14.18 establecer la palabra marcadora
set marker word
markerestablece el marcador para el campo de palabras. El valor predeterminado es \w.
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 9 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
3.2.14.19 establecer incumplimientos de la promoción
set promote-defaults value controls whether default atomic values in the feature structures loaded from the lexicon are "promoted" to ordinary atomic values before
parsing a sentence. set promote-defaults on turns on this behavior, and set promote-defaults off turns it off. (This can affect feature unification since a conflicting
default value does not cause a failure: the default value merely disappears.) The default setting is on. (It is arguable that this is the wrong choice for the default, but this has
been the behavior since the program was first written.)
3.2.14.20 establecer propiedad-es-función
value controls whether the values in the AMPLE analysis \p (property) field are to be interpreted as feature template names, the same as the
values in the AMPLE analysis \fd (feature descriptor) field. set property-is-feature on turns on this behavior, and set property-is-feature off turns it off. The
default setting is off. (It is arguable that this is the wrong choice for the default, but this has been the behavior since the program was first written.)
set property-is-feature
3.2.14.21 conjunto de solo reconocimiento
set recognize-only
valuecontrola si el analizador actúa como un reconocedor o como un analizador real y, por lo tanto, produce todas las analizaciones posibles.
set recognize-only onhace
que el primer análisis exitoso termine el proceso de análisis.
set recognize-only offpermite
que todas las análisis posibles se comprueben y devuelvan mediante el proceso de análisis.
La configuración predeterminada está off.
3.2.14.22 conjunto de brillo de raíz
valueespecifica si los brillos de raíz deben tratarse como una característica léxica y, de ser así, qué raíz(s) en las raíces compuestas se utilizan. El brillo de
raíz de la palabra puede ser útil para manejar construcciones sintácticas como la reduplicación de verbos. Ten en cuenta que esto no funciona cuando se usa Kimmo para
analizar palabras.
set rootgloss
set rootgloss offdesactiva
el uso de la función de brillo raíz. Esta es la configuración predeterminada.
set rootgloss onactiva el uso de la función de brillo raíz. Este valor
lexicon file). N.B. que debe establecerse antes de cargar el archivo
debe usarse cuando se utiliza un léxico de palabras (es decir, cuando se utiliza el comando de load
léxico (de lo contrario, no se cargarán brillos raíz).
set rootgloss leftheadedactiva
el uso de la función de brillo raíz y, si uno está desambiguando un archivo ANA o usando AMPLE para analizar las palabras de una
oración, solo se utilizará la raíz más a la izquierda en las raíces compuestas como valor de la característica de brillo raíz.
set rootgloss rightheadedactiva
el uso de la función de brillo raíz y, si uno está desambiguando un archivo ANA o usando AMPLE para analizar las palabras de una
oración, solo se utilizará la raíz más a la derecha en las raíces compuestas como valor de la característica de brillo raíz.
set rootgloss allactiva
el uso de la función de brillo raíz y, si se está desambiguando un archivo ANA o se está usando AMPLE para analizar las palabras de una
oración, cada brillo raíz en las raíces compuestas se utilizará como valor de la característica de brillo raíz.
3.2.14.23 tiempo establecido
value enables timing mode if value is on, and disables timing mode if value is off. If timing mode is on, then the elapsed time required to process a command
is displayed when the command finishes. If timing mode is off, then the elapsed time is not shown. The default is off. (This option is useful only to satisfy idle curiosity.)
set timing
3.2.14.24 establecer el filtro de arriba hacia abajo
set top-down-filter value enables or disables top-down filtering based on the categories. set top-down-filter on turns on this filtering, and set top-down-filter
off turns it off. The top-down filter speeds up the parsing of a sentence, but might cause the parser to miss some valid parses. The default setting is on.
Esto no debería ser necesario en la versión final de PC-PATR.
3.2.14.25 árbol de conjunto
set tree
valueespecifica cómo se deben mostrar los árboles de análisis.
set tree fullactiva
la pantalla del árbol de análisis, mostrando el resultado del análisis como un árbol completo. Esta es la configuración predeterminada. Una frase
corta se vería así:
Sentencia_1
| Declarativo_2 _____|_____ NP_3 VP_5 | ___|____ N_4 V_6 COMP_7 las vacas comen |
NP_8
set tree flatactiva
la pantalla del árbol de análisis, mostrando el resultado del análisis como una estructura de árbol plana en forma de una cadena entre corchetes. La
misma frase corta se vería algo así:
(Sentence_1 (Declarative_2 (NP_3 (N_4 vacas))(VP_5 (V_6 eat)(COMP_7
set tree indentedactiva
(NP_8 (N_9 hierba))))))
la visualización del árbol de análisis, mostrando el resultado del análisis en un formato de sangría a veces llamado árbol noroeste. La misma
frase corta se vería así:
Sentencia_1
Declarativo_2
set tree xmlactiva
la visualización del árbol de análisis, mostrando el resultado del análisis en formato XML. La misma frase corta se vería así:
<Análisis count="1"> <Parse>
set tree offdesactiva
NP_3
N_4 vacas
<Node cat="Sentence" id="_1. _1">
<Fs>
VP_5
V_6 comer
<F name="cat"><str>Sentence</str></f>
</Fs>
<Node cat="Declara
la visualización de los árboles de análisis por completo.
3.2.14.26 establece características vacías de recorte
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 10 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
value disables the display of empty feature values if value is on, and enables the display of empty feature values if value is off. The default is
not to display empty feature values.
set trim-empty-features
3.2.14.27 unificación del conjunto
set unification
value enables or disables feature unification. set unification on turns on unification mode. This is the default setting.
set unification offdesactiva
la unificación de funciones en la gramática. Solo se utilizan las reglas de estructura de frases sin contexto para guiar el análisis; se ignoran
las restricciones de características. Esto puede ser peligroso, ya que es fácil introducir ciclos infinitos en las reglas de estructura de frases recursivas.
3.2.14.28 establecer verboso
set verbose
verbose off
value enables or disables the screen display of parse trees in the file parse command. set verbose on enables the screen display of parse trees, and set
disables such display. The default setting is off.
3.2.14.29 establecer advertencias
value enables warning mode if value is on, and disables warning mode if value is off. If warning mode is enabled, then warning messages are displayed on
the output. If warning mode is disabled, then no warning messages are displayed. The default setting is on.
set warnings
3.2.14.30 conjunto de análisis de escritura-ample-parse
value enables writing \parse and \features fields at the end of each sentence in the disambiguated analysis file if value is on, and disables
writing these fields if value is off. The default setting is off.
set write-ample-parses
Esta configuración de variable solo afecta al comando file disambiguate.
3.2.15 mostrar
The show commands display internal settings on the screen. Each of these commands is described below.
mostrar léxico
mostrar estado
3.2.15.1 mostrar léxico
show lexiconimprime
el contenido del léxico almacenado en la memoria en la salida estándar. ESTO NO ES MUY ÚTIL Y PUEDE ELIMINARSE.
3.2.15.2 mostrar estado
show statusmuestra
show
los nombres de la gramática, las oraciones y los archivos de registro actuales, y los valores de los interruptores establecidos por el comando set.
(by itself) and status are synonyms for show status.
3.2.16 estado
statusmuestra
los nombres de la gramática, las oraciones y los archivos de registro actuales, y los valores de los interruptores establecidos por el comando set.
3.2.17 sistema
[command]permite al usuario ejecutar un comando del sistema operativo (como comprobar el espacio disponible en un disco) desde PC-PATR. Esto solo está
disponible para MS-DOS y Unix, no para Microsoft Windows o Macintosh.
system
If no system-level command is given on the line with the system command, then PC-PATR is pushed into the background and a new system command processor (shell) is
started. Control is usually returned to PC-PATR in this case by typing exit as the operating system command.
!(punto
de exclamación) es sinónimo de system.
3.2.18 tomar
take
[file.tak]redirige la entrada de comandos al archivo especificado.
The default filetype extension for take is .tak, and the default filename is pcpatr.tak.
files can be nested three deep. That is, the user types take file1, file1 contains the command take file2, and file2 has the command take file3. It would be
an error for file3 to contain a take command. This should not prove to be a serious limitation.
take
A take file can also be specified by using the -t command line option when starting PC-PATR. When started, PC-PATR looks for a take file named `pcpatr.tak' in the
current directory to initialize itself with.
4 El archivo de gramática PC-PATR
Las siguientes especificaciones se aplican generalmente al archivo gramatical:
Las líneas, espacios y pestañas en blanco separan los elementos del archivo de gramática entre sí, pero se ignoran de otra manera.
The comment character declared by the set comment command (see section 3.2.14.4 set comment) is operative in the grammar file. The default comment character
is the semicolon (;). Comments may be placed anywhere in the grammar file. Everything following a comment character to the end of the line is ignored.
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 11 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
Un archivo de gramática se divide en campos identificados por un pequeño conjunto de palabras clave.
1. Ruleinicia una regla de estructura de frases sin contexto con su conjunto de restricciones de características. Estas reglas definen cómo las palabras se unen para
formar frases, cláusulas o oraciones. El léxico y la gramática están unidos mediante el uso de las categorías léxicas como símbolos terminales de las reglas de
la estructura de la frase y mediante el uso de las otras características léxicas en las restricciones de la característica.
2. Letinicia una definición de plantilla de función. Las plantillas de características se utilizan como macros (abreviaturas) en el léxico. También se pueden usar
para asignar estructuras de características predeterminadas a las categorías.
3. Parameterinicia una definición de parámetro de programa. Estos parámetros controlan varios aspectos del programa.
4. Defineinicia una definición de regla léxica. Como se señaló en Shieber (1985), a veces se necesita algo más poderoso que solo abreviaturas de elementos de
características comunes para representar las relaciones sistemáticas entre los elementos de un léxico. Esta necesidad se cumple con reglas léxicas, que
expresan transformaciones en lugar de meras abreviaturas. Las reglas léxicas tienen dos propósitos principales en PC-PATR: modificar las estructuras de
características asociadas con las entradas de léxico para producir entradas de léxico adicionales, y modificar las estructuras de características producidas por un
analizador morfológico para que se ajusten a la descripción de la gramática sintáctica.
5. Constraintinicia una definición de plantilla de restricción. Las plantillas de restricción se utilizan como macros (abreviaturas) en el archivo de gramática.
6. Lexiconinicia una sección de léxico. Esto es solo para la compatibilidad con el PATR-II original. El nombre de la sección se omite correctamente, pero no se
hace nada con él.
7. Wordinicia una entrada en el léxico. Esto es solo para la compatibilidad con el PATR-II original. La entrada se omite correctamente, pero no se hace nada con
ella.( 5)
8. Endtermina efectivamente el archivo. Cualquier cosa que siga esta palabra clave se ignora.
9. Comment starts a comment field. The rest of the line following the keyword is skipped over, and everything in following lines until the next keyword is also
ignored. If you must use a keyword (other than comment verbatim in one of the extra lines of a comment, put a comment character at the beginning of the line
containing the keyword.
Note that these keywords are not case sensitive: RULE is the same as rule, and both are the same as Rule. Also, in order to facilitate interaction with the `Shoebox'
program, any of the keywords may begin with a backslash \ character. For example, \Rule and \rule are both acceptable alternatives to RULE or rule. The
abbreviated form \co is a special synonym for comment or \comment. Note that there is no requirement that these keywords appear at the beginning of a line.
A excepción de los comment, cada uno de los campos del archivo de gramática puede terminar opcionalmente con un punto. Si no hay punto, la siguiente palabra
clave (en una ranura adecuada) marca el final de un campo y el comienzo del siguiente.
Reglas: Regla...
Plantillas de características: Que <nombre> sea ...
Configuración del parámetro: El parámetro <nombre> es ...
Reglas léxicas: Definir <nombre> como ...
Plantillas de restricción: La restricción <nombre> es ...
4.1 Reglas
Una regla gramatical de PC-PATR tiene estas partes, en el orden indicado:
1. la palabra claveRule
2. un identificador de regla opcional incluido en llaves ({})
3. una regla de estructura de frases que consta de lo siguiente:
1. el símbolo no terminal que se expandirá
2. una flecha (->) o un signo igual (=)
3. cero o más símbolos terminales o no terminales, posiblemente marcados para alternancia u opcionalidad
4. dos puntos opcionales (:)
5. cero o más restricciones de unificación
6. cero o más operaciones sindicales prioritarias
7. cero o más operaciones de restricción lógica
8. un período opcional (.)
El identificador de regla opcional consiste en una o más palabras incluidas en llaves. Su utilidad actual es solo como una forma especial de comentario que describe la
intención de la regla. (Finalmente, se puede usar como una etiqueta para añadir y eliminar reglas de forma interactiva). Los únicos límites del identificador de la regla son
que no contiene el carácter de comentario y que todo aparece en la misma línea en el archivo gramatical.
Los símbolos terminales y no terminales de la regla tienen las siguientes características:
Upper and lower case letters used in symbols are considered different. For example, NOUN is not the same as Noun, and neither is the same as noun.
The symbol X (capital letter x) may be used to stand for any terminal or nonterminal. For example, this rule says that any category in the grammar rules can be
replaced by two copies of the same category separated by a CJ.
Regla X -> X_1 CJ X_2
<X gato> = <X_1 gato>
<X gato> = <X_2 gato>
<X arg1> = <X_1 arg1>
<X arg1> = <X
El símbolo X puede ser útil para capturar generalidades. Se debe tener cuidado, ya que puede ser reemplazado por cualquier cosa.
Los números de índice se utilizan para distinguir las instancias de un símbolo que se utiliza más de una vez en una regla. Se añaden al final de un símbolo después de
un guión bajo (_). Esto se ilustra en la regla de X anterior.
The characters (){}[]<>=:/ cannot be used in terminal or nonterminal symbols since they are used for special purposes in the grammar file. The character _ can be
used only for attaching an index number to a symbol.
De forma predeterminada, el símbolo de la izquierda de la primera regla en el archivo de gramática es el símbolo de inicio de la gramática.
Los símbolos en el lado derecho de una regla de estructura de frase se pueden marcar o agrupar de varias maneras:
Los paréntesis alrededor de un elemento de la parte de expansión (mano derecha) de una regla indican que el elemento es opcional. Los paréntesis se pueden colocar
alrededor de varios elementos. Esto hace que sea un grupo opcional de elementos.
Se utiliza una barra diagonal (/) para separar elementos alternativos de la parte de expansión (mano derecha) de una regla.
Los corchetes rizados se pueden usar para agrupar elementos alternativos. Por ejemplo, lo siguiente dice que una S consiste en un NP seguido de un TVP o un IV:
Regla S -> NP {TVP / IV}
Se toman alternativas para que sean el mayor tiempo posible. Por lo tanto, si se omitieran los corchetes de la regla anterior, como en la regla de abajo, el TVP se
trataría como parte de la alternativa que contiene el NP. No se permitiría antes de la IV.
Regla S -> NP TVP / IV
Los paréntesis agrupan elementos cerrados de la misma manera que los corchetes. Las alternativas y los grupos delimitados por paréntesis o llaves pueden anidar a
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 12 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
cualquier profundidad.
La regla de la estructura de la frase puede ir seguida de cero o más restricciones de unificación que se refieren a los símbolos utilizados en la regla. Una restricción de
unificación tiene estas partes, en el orden indicado:
1. una ruta de función que comienza con uno de los símbolos de la regla de la estructura de la frase
2. un signo igual
3. ya sea otra ruta o un valor
Una restricción de unificación que se refiere solo a los símbolos en el lado derecho de la regla restringe su co-ocurrencia. En la siguiente regla y restricción, los valores de
las características agr para los nodos NP y VP del árbol de análisis deben unificarse:
Regla S -> VP de NP
<NP agr> = <VP agr>
Si una restricción de unificación se refiere a un símbolo en el lado derecho de la regla y tiene un valor atómico en su lado derecho, entonces la característica designada no
debe tener un valor diferente. En la siguiente regla y restricción, la característica de mayúsculas y minúsculas para el nodo NP del árbol de análisis debe estar originalmente
indefinida o igual a NOM:
Regla S -> VP de NP
<estuche de cabezaNP> = NOM
(Después de que la unificación tenga éxito, la característica del caso principal para el nodo NP del árbol de análisis será igual a NOM).
Una restricción de unificación que se refiere al símbolo en el lado izquierdo de la regla pasa información por el árbol de análisis. En la siguiente regla y restricción, el valor
de la característica de tiempo se pasa desde el nodo VP hasta el nodo S:
Regla S -> VP de NP
<S tense> = <VP tense>
Consulte la sección 2.4 Restricciones de características para obtener más detalles sobre las restricciones de unificación.
La regla de estructura de la frase también puede ir seguida de cero o más operaciones de unión prioritarias que se refieren a los símbolos utilizados en la regla. Una
operación de unión prioritaria tiene estas partes, en el orden indicado:
1. una ruta de función que comienza con uno de los símbolos de la regla de la estructura de la frase
2. un signo de operación de unión de prioridad (<=)
3. ya sea otra ruta o un valor atómico
Aunque las operaciones sindicales prioritarias pueden mezclarse con restricciones de unificación siguiendo la regla de estructura de frases, solo se aplican después de que
todas las restricciones de unificación hayan tenido éxito. Por lo tanto, tiene más sentido colocarlos después de todas las restricciones de unificación como recordatorio del
orden de aplicación.
Las operaciones de unión prioritaria pueden no aparecer dentro de una disyunción: si dos reglas difieren lógicamente solo en la aplicación de una unión prioritaria u otra,
ambas reglas deben estar escritas en su totalidad.
La regla de la estructura de la frase también puede ir seguida de cero u más operaciones de restricción lógicas que se refieren a los símbolos utilizados en la regla. Una
operación de restricción lógica tiene estas partes, en el orden indicado:
1. una ruta de función que comienza con uno de los símbolos de la regla de la estructura de la frase
2. un signo de operación de restricción lógica (===)
3. una expresión de restricción lógica o una etiqueta de plantilla de restricción
Aunque las operaciones de restricción lógica pueden mezclarse con restricciones de unificación u operaciones sindicales prioritarias siguiendo la regla de estructura de la
frase, solo se aplican después de que todas las restricciones de unificación hayan tenido éxito y se hayan aplicado todas las operaciones sindicales prioritarias. Por lo tanto,
tiene más sentido colocarlos después de todas las restricciones de unificación, y después de cualquier operación sindical prioritaria, como recordatorio del orden de
aplicación.
Las operaciones de restricción lógica pueden no aparecer dentro de una disyunción: si dos reglas difieren lógicamente solo en la aplicación de una restricción lógica u otra,
ambas reglas deben escribirse en su totalidad.
Estos dos últimos elementos de una regla PC-PATR son mejoras en el formalismo original de PATR-II. Por esta razón, se discuten con más detalle en las dos secciones
siguientes.
Operaciones sindicales prioritarias
Operaciones de restricción lógica
4.1.1 Operaciones sindicales prioritarias
La unificación es el único mecanismo implementado en el formulismo original de PATR-II para fusionar dos estructuras características. Hay situaciones en las que la
percolación deseada de la información no se expresa fácilmente en términos de unificación. Por ejemplo, considere la siguiente regla (donde ms significa características
morfosintácticas):
Tallo -> Derivación de la raíz:
<Root ms> = <Deriva msFrom>
<Stem ms> = <Root ms>
<Stem ms> = <Deriva msTo>
The first unification expression above imposes the agreement constraints for this rule. The second and third unification expressions attempt to provide the percolation of
information up to the Stem. However, it is quite possible for there to be a conflict between <Root ms> and <Deriv msTo>. Any such conflict would cause the third
unification expression to fail, causing the rule as a whole to fail. The only way around this at present is to provide a large number of unification expressions that go into
greater depth in the feature structures. Even then it may not be possible to always avoid conflicts.
Se proporciona un mecanismo adicional para fusionar estructuras de características para manejar adecuadamente la percolación de la información: sobreescritura a través
de la unión prioritaria. La notación del ejemplo anterior cambia ligeramente a la siguiente:
Tallo -> Derivación de la raíz:
<Root ms> = <Deriva msFrom>
<Stem ms> = <Root ms>
<Stem ms> <= <Deriv msTo>
The only change is in the third expression under the rule: the unification operator = has been changed to a priority union operator <=. This new operator is the same as
unification except for handling conflicts and storing results. In unification, a conflict causes the operation to fail. In priority union, a conflict is resolved by taking the value
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 13 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
in the right hand feature structure. In unification, both the left hand feature structure and the right hand feature structure are replaced by the unified result. In priority union,
only the left hand feature structure is replaced by the result.
Hay otra diferencia significativa entre la unificación y la unión prioritaria. La unificación es lógicamente un proceso sin orden; no importa en qué orden se escriben las
expresiones de unificación. La unión prioritaria, por otro lado, está intrínsecamente ordenada; una operación sindical prioritaria siempre anula cualquier resultado anterior
de la unión prioritaria (o la unificación). Por esta razón, todas las expresiones de unificación se evalúan antes que cualquier expresión de unión prioritaria, y el orden de las
expresiones de unión prioritarias es significativo.
A continuación se muestra una gramática BNF para las operaciones sindicales prioritarias de PC-PATR.
<priority-union> ::= <feature-path> '<=' <feature-path>
| <feature-path> '<=' <ATOM>
<feature-path> ::= '<' <label-list>
Note that both <LABEL> and <ATOM> refer to a single string token of contiguous characters.
4.1.2 Operaciones de restricción lógica
La unificación es el único mecanismo implementado en el formulismo original de PATR-II para imponer restricciones a las estructuras de características. Hay situaciones
en las que la restricción deseada no se expresa fácilmente en términos de unificación. Por ejemplo, considere la siguiente regla:
Tallo -> Derivación de la raíz:
<Root ms> = <Deriva msFrom>
<Stem ms> = <Root ms>
<Stem ms> <= <Deriv msTo>
where <Root ms> and <Deriv msFrom> have the following feature structures:
[Root: [ms: [finito: - ...]]]
[Deriva: [msFrom: [tense: pasado ...]]]
Assume that from our knowledge of verb morphology, we would like to rule out this analysis because only finite verb roots ([finite: +]) are marked for tense. The only
way to do this with unification is to add [finite: +] to the msFrom feature of all the tense bearing derivational suffixes. This would work, but it adds information to
suffixes that properly belongs only to roots. A better approach would be some way to express the desired constraint more directly. Consider the following rule:
Tallo -> Derivación de la raíz:
<Root ms> = <Deriva msFrom>
<Stem ms> = <Root ms>
<Stem ms> <= <Deriv msTo>
The fourth feature expression under the rule is a new operation called a constraint. This particular constraint is interpreted as follows: if the feature structure [finite: +]
subsumes the feature structure that is the value of <Stem ms>, then the feature structure [tense: []] must also subsume the feature structure that is the value of <Stem
ms>, and if the feature structure [finite: +] does not subsume the feature structure that is the value of <Stem ms>, then the feature structure [tense: []] must not
subsume the feature structure that is the value of <Stem ms>. (A feature structure F1 subsumes another feature structure F2 if F1 contains a subset of the information
contained by F2. The empty feature structure [] subsumes all other feature structures. Subsumption is a partial ordering: not every two feature structures are in a
subsumption relation to each other.)
Una restricción es muy diferente tanto sintáctica como semánticamente de la unificación o de la unión prioritaria. La primera diferencia es que una restricción no modifica
ninguna estructura de características; simplemente compara el contenido de dos estructuras de características. La segunda diferencia es que el lado derecho de una
expresión de restricción es una expresión lógica que involucra una o más estructuras de características en lugar de una ruta de características.
Constraints support two unary and four binary logical operations: existence, negation, logical and, logical or, conditional, and biconditional. The following tables
summarize these logical operations. ($ is used for the subsumption operation. *P represents the feature structure pointed to by the feature path associated with the logical
constraint. F, L, and R represent a feature structure associated with the logical constraint.)
existencia negación
F $ *P
P == F P == ~F
Verdadero Verdadero Falso
Falso
Falso Verdadero
lógico y
lógico o condicional biconditional
L $ *P
R $ *P P == L & R P == L / R P == L -> R P == L <-> R
Verdadero Verdadero Verdadero Verdadero Verdadero Verdadero
Verdadero Falso
Falso
Verdadero
Falso
Falso
Falso Verdadero
Falso
Verdadero Verdadero
Falso
Falso
Falso
Falso
Falso
Verdadero Verdadero
Dado que se aplican a la estructura de características final, las expresiones de restricción se evalúan después de todas las expresiones de unificación y unión prioritaria. Al
igual que la unificación y a diferencia de la unión prioritaria, el orden relativo de las restricciones no es (lógicamente) importante.
A continuación se muestra una gramática BNF para las operaciones de restricción lógica PC-PATR.
<logical-constraint> ::= <feature-path> '==' <expression>
<feature-path> ::= '<' <label-list> '>'
<label-list> ::= <LABEL>
Note that both <LABEL> and <ATOM> refer to a single string token of contiguous characters.
An <indexedvariable> is interpreted as a variable for the atomic value at that place in the feature structure. The first such variable is instantiated by the atomic value of
the feature at that place in the feature-path. All subsequent instances of the variable are compared for equality with the first instantiated one.
Why might one need such an indexed variable? In some SOV languages with pro-drop and noun-verb compounding, a clause consisting just of a Noun Verb sequence is
potentially at least three ways ambiguous:
Subject Verb
pro-drop Object Verb
pro-drop Noun-Verb-compound
En al menos uno de estos idiomas, es el caso de que cuando es posible un compuesto sustantivo-verbo, es la única lectura válida. Por lo tanto, lo correcto es asegurarse de
que la gramática no permita ninguna de las otras lecturas posibles.
Here's a (simplified) example of how one can use indexed variables to rule out the Subject Verb case. (The Noun is realized as the DP node and the Verb is realized as a VP
which is a daughter of the I' node in the following rule.)
regla {opción IP 2cI - asunto inicial, obligatorio, cláusula raíz} IP = DP I'
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
< cabeza IP> = <cabeza de la I>
<Tipo de cabezal IP raíz>
Page 14 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
In the final logical constraint above (which is shown in bold), the atomic value of the rootgloss feature is stored in variable ^1 in the antecedent (the "if" part) of the
conditional. This atomic value is then compared with the values of the various compounds_with features. The idea is that the value of the rootgloss feature should not be
any of the values of the various compounds_with features (there are more than one of these because a given noun may compound with more than one verb).
4.2 Plantillas de funciones
Una plantilla de función de PC-PATR tiene estas partes, en el orden indicado:
1.
2.
3.
4.
5.
la palabra claveLet
el nombre de la plantilla
la palabra clavebe
una definición de función
un período opcional (.)
Si el nombre de la plantilla es una categoría de terminal (un símbolo de terminal en una de las reglas de estructura de frases), la plantilla define las características
predeterminadas para esa categoría. De lo contrario, el nombre de la plantilla sirve como abreviatura de la estructura de características asociada.
The characters (){}[]<>=: cannot be used in template names since they are used for special purposes in the grammar file. The characters /_ can be freely used in template
names. The character \ should not be used as the first character of a template name because that is how fields are marked in the lexicon file.
Las abreviaturas definidas por las plantillas se suelen utilizar en el campo de características de las entradas del archivo léxico. Por ejemplo, la entrada léxica para los pies
de forma plural irregular puede tener la abreviatura pl en su campo de características. El archivo de gramática definiría esta abreviatura con una plantilla como esta:
Que sea [número: PL]
También se puede usar la notación de ruta:
Que sea <número> = PL
Las estructuras de características más complicadas se pueden definir en las plantillas. Por ejemplo,
Que 3sg sea [tense: PRES
agr: 3SG
finito: +
vform: S]
que es equivalente a:
Que 3sg sea <tense> = PRES
<agr> = 3SG
<finito> = +
<vform> = S
En el siguiente ejemplo, la abreviatura irreg se define usando otra abreviatura:
Que irreg sea <reg> = -
por favor
La abreviatura pl debe definirse previamente en el archivo de gramática o se producirá un error. Una plantilla posterior también podría usar la abreviatura irreg en su
definición. De esta manera, se pueden construir características de una jerarquía de herencia.
Las plantillas de características permiten definiciones disyuntivas. Por ejemplo, la entrada léxica para la palabra ciervo puede especificar la abreviatura de la función sg-pl.
El archivo de gramática definiría esto como una disyunción de estructuras de características que reflejan el hecho de que la palabra puede ser singular o plural:
Que sg/pl sea {[number:SG]
[número:PL]}
Esto tiene el efecto de crear dos entradas para ciervos, una con número singular y otra con plural. Tenga en cuenta que no hay límite en el número de estructuras disyunas
enumeradas entre los frenos. Además, no hay barra (/) entre los elementos de la disyunción, ya que hay entre los elementos de una disyunción en las reglas. Una versión
más corta de la plantilla anterior usando la notación de ruta se ve así:
Que sg/pl sea <number> = {SG PL}
Las abreviaturas también se pueden utilizar en disyunciones, siempre que se hayan definido previamente:
Que sg sea <número> = SG Que sea <número> = PL Que sg/pl sea {[sg] [pl]}
Tenga en cuenta los corchetes alrededor de las abreviaturas sg y pl; sin corchetes se interpretarían como valores simples en su lugar.
Las plantillas de características pueden asignar valores de características atómicas predeterminados, indicados prefijándose por un signo de exclamación (!). Una
asignación explícita de características puede anular un valor predeterminado. Esta plantilla dice que todos los miembros de la categoría N tienen un número singular como
valor predeterminado:
Que N sea <número> = ! SG
The effect of this template is to make all nouns singular unless they are explicitly marked as plural. For example, regular nouns such as book do not need any feature in
their lexical entries to signal that they are singular; but an irregular noun such as feet would have a feature abbreviation such as pl in its lexical entry. This would be defined
in the grammar as [number: PL], and would override the default value for the feature number specified by the template above. If the N template above used SG instead of
!SG, then the word feet would fail to parse, since its number feature would have an internal conflict between SG and PL.
4.3 Ajustes de parámetros
Una configuración de parámetros PC-PATR tiene estas partes, en el orden indicado:
1.
2.
3.
4.
5.
6.
la palabra claveParameter
dos puntos opcionales (:)
una o más palabras clave que identifican el parámetro
la palabra claveis
el valor del parámetro
un período opcional (.)
PC-PATR reconoce los siguientes parámetros:
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 15 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
Start symbol
define el símbolo de inicio de la gramática. Por ejemplo,
El símbolo de inicio del parámetro es S
declara que el objetivo de análisis de la gramática es la categoría no terminal S. El símbolo de inicio predeterminado es el símbolo de la izquierda de la primera regla
de estructura de la frase en el archivo gramatical.
Restrictor
define un conjunto de características para usar para el filtrado de arriba hacia abajo, expresado como una lista de rutas de características. Por ejemplo,
El restringidor de parámetros es <cat> <formulario de encabezado>
declara que las características del formulario de gato y cabeza deben usarse para filtrar las reglas antes de agregarlas al gráfico de análisis. El valor predeterminado
es no usar ninguna función para dicho filtrado. Este filtrado, llamado restricción en Shieber (1985), se realiza además del filtrado normal de arriba hacia abajo basado
solo en las categorías. LA RESTRICCIÓN AÚN NO SE HA IMPLEMENTADO. ¿DEBERÍA SER EN LUGAR DE UN FILTRADO NORMAL EN LUGAR DE
ADEMÁS?
Attribute order
especifica el orden en el que se muestran los atributos de las características. Por ejemplo,
El orden del atributo del parámetro es la cabeza de sentido del gato lex
acuerdo de pr
declara que el atributo cat debe ser el primero que se muestre en cualquier salida de PC-PATR, y que los otros atributos deben mostrarse en el orden relativo que se
muestra, con el atributo de acuerdo mostrado el último de los enumerados, pero por delante de cualquier atributo que no esté en la lista anterior. Los atributos que no
están en la lista se ordenan de acuerdo con su orden de código de carácter. Si no se especifica el orden de los atributos, entonces se muestra primero la función de la
categoría cat, con todos los demás atributos ordenados de acuerdo con sus códigos de carácter.
Category feature
define la etiqueta para el atributo category. Por ejemplo,
La función de categoría de parámetro es Categ
declara que Categ es el nombre del atributo category. El nombre predeterminado de este atributo es cat.
Lexical feature
define la etiqueta del atributo léxico. Por ejemplo,
Parámetro La característica léxica es Lex
declara que Lex es el nombre del atributo léxico. El nombre predeterminado de este atributo es lex.
Gloss feature
define la etiqueta para el atributo de brillo. Por ejemplo,
La función de brillo de parámetros es brillo
declara que Gloss es el nombre del atributo gloss. El nombre predeterminado de este atributo es gloss.
RootGloss feature
define la etiqueta del atributo de brillo raíz. Por ejemplo,
La función del parámetro RootGloss es RootGloss
declara que RootGloss es el nombre del atributo root gloss. El nombre predeterminado de este atributo es rootgloss. Ten en cuenta que esto no funciona cuando se
usa Kimmo para analizar palabras.
4.4 Reglas léxicos
Las reglas léxicas tienen dos propósitos: proporcionar un medio flexible para crear múltiples entradas de léxico relacionadas y convertir la salida del analizador
morfológico en una forma adecuada para la entrada del analizador sintáctico.
Figura 7. Ejemplo de regla léxica PC-PATR; entrada de léxico \w irrumpió \c V \f Agente transitivo sin pasivo <head trans pred> = tormenta
; defin
Figura 8. Estructura de características antes de la regla léxica[ lex: asaltado gato: V cabeza: [ trans: [ arg1: $1 []
Figura 9. Estructuras de características después de la regla léxica[ lex: asaltado gato: V cabeza: [ trans: [ arg1: $1 []
Una regla léxica PC-PATR tiene estas partes, en el orden indicado:
1.
2.
3.
4.
5.
la palabra claveDefine
el nombre de la regla léxica
la palabra claveas
la definición de la regla
un período opcional (.)
The rule definition consists of one or more mappings. Each mapping has three parts: an output feature path, an assignment operator, and the value assigned, either an input
feature path or an atomic value. Every output path begins with the feature name out and every input path begins with the feature name in. The assignment operator is
either an equal sign (=) or an equal sign followed by a "greater than" sign (=>).(6)
Consider the information shown in figure 7. When the lexicon entry is loaded, it is initially assigned the feature structure shown in figure 8, which is the unification of the
information given in the various fields of the lexicon entry. Since one of the the labels stored in the \f (feature) field is actually the name of a lexical rule, after the
complete feature structure has been built, the named lexical rule is applied. After the rule has been applied, the original single feature structure has been changed to the two
feature structures shown in figure 9. Note that not all of the input feature information is found in both of the output feature structures.
Figura 10. Regla léxica PC-PATR para usar PC-KimmoDefinir MapKimmoFeatures como
<out cat> = <in head pos>
<fuera de la cabez
Figura 11. Estructura de características recibida de PC-Kimmo[ gato: Palabra clíticos: - drvstem: - cabeza: [ agr: [ 3sg: + ]
Figura 12. Estructura de características enviada a PC-PATR[ gato: V brillo: `dormir cabeza: [ agr: [ 3sg: + ]
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
finito: +
Page 16 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
Using a lexical rule in conjunction with the PC-Kimmo morphological parser within PC-PATR is illustrated in figures 10-12. Figure 10 shows the lexical rule for mapping
from the top-level feature structure produced by the morphological parser to the bottom-level feature structure used by the sentence parser. Note that this rule must be
named MapKimmoFeatures (unorthodox capitalization and all). Figure 11 shows the feature structure created by the PC-Kimmo parser. After the lexical rule shown in
figure 10 has been applied (and after some additional automatic processing), the feature structure shown in figure 12 is passed to the PC-PATR parser. Note that only a
single feature structure results from this operation, unlike the result of a lexical rule applied to a lexicon entry.
Note that the feature structure passed to the PC-PATR parser always has both a lex feature and a gloss feature, even if the MapKimmoFeatures lexical rule does not create
them. The default value for the lex feature is the original word from the sentence being parsed. The default value for the gloss feature is the concatenation of the glosses
of the individual morphemes in the word.
In contrast to the lex and gloss features which are provided automatically by default, the cat feature must be provided by the MapKimmoFeatures lexical rule. There is no
way to provide this feature automatically, and it is required for the phrase structure rule portion of PC-PATR.
4.5 Plantillas de restricciones
Una plantilla de restricción PC-PATR tiene estas partes, en el orden indicado:
1.
2.
3.
4.
5.
la palabra claveConstraint
el nombre de la plantilla
la palabra claveis
una expresión de restricción lógica
un período opcional (.)
The characters (){}[]<>=:/ cannot be used in constraint template names since they are used for special purposes in the grammar file. The characters _\ can be freely used
in constraint template names.
Las abreviaturas definidas por las plantillas de restricción se utilizan en las operaciones de restricción lógica que forman parte de las reglas definidas en el archivo de
gramática. Se debe definir una plantilla de restricción en el archivo de gramática antes de que se pueda usar en una regla.
Considere las siguientes reglas en un archivo de gramática:
RULE Word -> Tallo
<Word ms> = <Stem ms>
<Stem ms> == [fino: +] <-> [tenso: []]
RULE Word -> Stem Infl
<Word ms>
Estas reglas se pueden simplificar definiendo una plantilla de restricción:
RESTRICCIÓN ValidVerb es [finito: +] <-> [tenso: []]
RULE Word -> Tallo
<Word ms> = <Stem ms>
<Stem ms> == ValidVerb
5 Formato estándar
Algunos de los archivos de control de entrada que Lee PC-PATR son archivos de formato estándar. Esto significa que los archivos se dividen en registros y campos. Un
archivo de formato estándar contiene al menos un registro, y algunos archivos pueden contener un gran número de registros. Cada registro contiene uno o más campos.
Cada campo ocupa al menos una línea y está marcado por un código de campo al principio de la línea. Un código de campo comienza con un carácter de barra invertida (\)
y contiene 1 o más caracteres de impresión (generalmente alfabéticos) además.
Si el archivo está diseñado para tener varios registros, entonces uno de los códigos de campo debe ser designado como el marcador de registro, y cada registro comienza
con ese campo, incluso si está vacío aparte del código de campo. Si el archivo contiene solo un registro, el orden relativo de los campos solo está limitado por su
semántica.
Vale la pena enfatizar que los códigos de campo deben estar al principio de una línea. Incluso un solo espacio antes del carácter de barra invertida evita que se reconozca
como un código de campo.
También vale la pena enfatizar que los marcadores de registro deben estar presentes incluso si ese campo no tiene información para ese registro. Omitir el marcador de
registro hace que dos registros se fusionen en un solo registro, con resultados impredecibles.
6 El archivo Léxico PC-PATR
The lexicon file is a standard format database file consisting of any number of records, each of which represents one word. These records are divided into fields, each of
which begins with a standard format marker at the beginning of a line. These markers begin with the \ (backslash) character followed by one or more alphanumeric
characters. Each record begins with a designated field. PC-PATR recognizes four different fields, with these default field markers:
\w
la forma léxica de la palabra, escrita exactamente como aparecerá en cualquier oración o frase introducida en PC-PATR(7)
\c
categoría de palabras (parte del discurso)
\g
brillo de palabras
\f
características adicionales de esta palabra
Tenga en cuenta que los campos que contienen la forma léxica de la palabra y su categoría deben estar presentes para cada palabra (registro) del léxico. Los otros dos
campos (brillos y características) son opcionales, al igual que los campos adicionales que pueden estar presentes para otros fines.
A cada palabra cargada desde el archivo de léxico se les asignan ciertas características basadas en los campos descritos anteriormente.
El valor de la característica lex es la forma léxica de la palabra, tomada del campo de forma léxica de la entrada de la palabra en el léxico.
El valor de la característica del gato es la categoría léxica de la palabra, por ejemplo, sustantivo, verbo, adjetivo, etc. Esto se toma del campo de categoría de la
entrada de la palabra en el léxico. Tenga en cuenta que la misma forma léxica puede aparecer varias veces en el léxico, con una categoría diferente para cada
ocurrencia.
El valor de la función de brillo es el brillo de la palabra, tomado del campo de brillo de la entrada de la palabra en el léxico. A diferencia de los dos elementos
anteriores, esta función es opcional.
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 17 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
Estos nombres de características deben tratarse como nombres reservados y no deben utilizarse para otros fines.
Por ejemplo, considere estas entradas para las palabras zorro y zorros:
\w zorro \c N \g canino \f <número> = singular
\w zorros \c N \g canino+PL \f <número> = plural
Cuando la gramática utiliza estas entradas, están representadas por estas estructuras de características:
[gato: N brillo: canino lex: zorros número: singular]
[gato: N brillo: canino+PL lex: zorros número: plural]
Las entradas del léxico se pueden simplificar definiendo plantillas de características en el archivo de gramática. Considere las siguientes plantillas:
Que PL sea <número> = plural Que N sea <número> = ! singular
Con estas dos plantillas, definiendo una abreviatura para "plural" y definiendo una característica predeterminada para la categoría N (sustantivo), las entradas del léxico se
pueden reescribir de la siguiente manera:
\w zorro \c N \g canino \f
\w zorros \c N \g canino+PL \f PL
Tenga en cuenta que el campo de función (\f) de la primera entrada podría omitirse por completo, ya que ahora está vacío.
7 El archivo de análisis AMPLE
En lugar de usar un archivo de léxico dedicado, PC-PATR puede cargar su léxico interno a partir de uno o archivos de análisis producidos por el programa de análisis
morfológico AMPLE. AMPLE escribe una base de datos de formato estándar para su salida, cada registro del cual corresponde a una palabra del texto de origen. El primer
campo de cada entrada contiene el análisis. Otros campos, que pueden o no ocurrir, contienen información adicional.
The utility of this command has been greatly reduced by the availability of the load ample and load kimmo commands which allow morphological analysis on demand to
populate PC-PATR's word lexicon. However, the file disambiguate command also operates on AMPLE analysis files, so this information is still of interest.
Campos del archivo de análisis AMPLE
Análisis ambiguos
Fallos de análisis
7.1 Campos de archivo de análisis AMPLE
This section describes the fields that AMPLE writes to the output analysis file. The only field that is guaranteed to exist is the analysis (\s) field. All other fields are either
data dependent or optional.
\a: Análisis
\d: Descomposición (formas superficiales)
\gato (. ANA): Categoría (palabra posible, morfema)
\p: Propiedades
\fd: Descriptores de características
\u: Formas subyacentes (descomposición)
\w: Word (antes de la descapitalización y los cambios de ortografía)
\f: Formato (basura antes de la palabra)
\c: Indicador de mayúsculas
\n: No alfabético (basura después de la palabra)
7.1.1 Análisis: \a
El campo de análisis (\a) inicia cada registro del archivo de análisis de salida. Tiene la siguiente forma:
\a PFX IFX PFX < raíz CAT raíz CAT > SFX IFX SFX
where PFX is a prefix morphname, IFX is an infix morphname, SFX is a suffix morphname, CAT is a root category, and root is a root gloss or etymology. In the simplest
case, an analysis field would look like this:
\a < raíz CAT >
The \rd field in the analysis data file can replace the characters used to bracket the root category and gloss/etymology; see section `Root Delimiter Characters: \rd' in
AMPLE Reference Manual. The dictionary field code mapped to M in the dictionary codes file controls the affix and default root morphnames; see section `Morphname
(internal code M)' in AMPLE Reference Manual. If the AMPLE `-g' command line option was given, the output analysis file contains glosses from the root dictionary
marked by the field code mapped to G in the dictionary codes file; see section `AMPLE Command Options' in AMPLE Reference Manual, and section `Root Gloss (internal
code G)' in AMPLE Reference Manual.
7.1.2 Descomposición (formas superficiales): \d
El campo de descomposición del morfema (\d) sigue al campo de análisis. Tiene la siguiente forma:
\d anti-desablish-ment-arian-ism-s
donde los guiones separan los morfemas individuales en la forma superficial de la palabra.
The \dsc field in the text input control file can replace the hyphen with another character for separating the morphemes; see section `Decomposition Separation Character:
\dsc' in AMPLE Reference Manual.
The morpheme decomposition field is optional. It is enabled either by an AMPLE `-w d' command line option (see section `AMPLE Command Options' in AMPLE
Reference Manual), or by an interactive query.
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 18 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
7.1.3 Categoría (posible palabra o morfema): \cat
El campo de categoría (\cat) proporciona información rudimentaria de la categoría. Tiene la siguiente forma:
\gato GATO
where CAT is the proposed word category. A more complex example is
\cat C0 C1/C0=C2=C2/C1=C1/C1
where C0 is the proposed word category, C1/C0 is a prefix category pair, C2 is a root category, and C2/C1 and C1/C1 are suffix category pairs. The equal signs (=) serve to
separate the category information of the individual morphemes.
The \cat field of the analysis data file controls whether the category field is written to the output analysis file; see section `Category output control: \cat' in AMPLE
Reference Manual.
7.1.4 Propiedades: \p
El campo de propiedades (\p) contiene los nombres de cualquier propiedad de alomorfo o morfema que se encuentre en el análisis de la palabra. Tiene la forma:
\p ==prop1 prop2=prop3=
where prop1, prop2, and prop3 are property names. The equal signs (=) serve to separate the property information of the individual morphemes. Note that morphemes may
have more than one property, with the names separated by spaces, or no properties at all.
By default, the properties field is written to the output analysis file. The `-w 0' command option, or any `-w' option that does not include `p' in its argument disables the
properties field.
7.1.5 Descriptores de características: \fd
El campo descriptor de características (\fd) contiene los nombres de características asociados a cada morfema en el análisis. Tiene la siguiente forma:
\fd ==feat1 feat2=feat3=
where feat1, feat2, and feat3 are feature descriptors. The equal signs (=) serve to separate the feature descriptors of the individual morphemes. Note that morphemes
may have more than one feature descriptor, with the names separated by spaces, or no feature descriptors at all.
The dictionary field code mapped to F in the dictionary code table file controls whether feature descriptors are written to the output analysis file; if this mapping is not
defined, then the \fd field is not written. See section `Feature Descriptor (internal code F)' in AMPLE Reference Manual.
7.1.6 Formas subyacentes (descomposición): \u
El campo de forma subyacente (\u) es similar al campo de descomposición, excepto que muestra formas subyacentes en lugar de formas de superficie. Se ve así:
\u a-para-a-i-ri-me
donde los guiones separan los morfemas individuales.
The \dsc field in the text input control file can replace the hyphen with another character for separating the morphemes; see section `Decomposition Separation Character:
\dsc' in AMPLE Reference Manual.
The dictionary field code mapped to U in the dictionary code table file controls whether underlying forms are written to the output analysis file; if this mapping is not
defined, then the \u field is not written. section `Underlying Form (internal code U)' in AMPLE Reference Manual.
7.1.7 Word (antes de la descapitalización y los cambios de ortografía): \w
El campo de palabra original (\w) contiene la palabra de entrada original tal y como se ve antes de que cambie la descapitalización y la ortografía. Se ve así:
\w El
Tenga en cuenta que este es un cambio gratuito con respecto a las versiones anteriores de AMPLE, que escribían la forma descapitalizada.
The original word field is optional. It is enabled either by an AMPLE `-w w' command line option (see section `AMPLE Command Options' in AMPLE Reference
Manual), or by an interactive query.
7.1.8 Formato (basura antes de la palabra): \f
El campo de información de formato (\f) registra cualquier código de formato o puntuación que apareciera en el archivo de texto de entrada antes de la palabra. Se ve así:
\f \\id MAT 5 HGMT05. SFM, 14-feb-84 D. Weber, Huallaga Quechua\n
\\c 5\n\n
\\s
where backslashes (\) in the input text are doubled, newlines are represented by \n, and additional lines in the field start with a tab character.
El campo de información de formato se escribe en el archivo de análisis de salida siempre que sea necesario, es decir, siempre que existan códigos de formato o puntuación
antes de las palabras.
7.1.9 Indicador de mayúsculas: \c
El campo de mayúsculas (\c) registra cualquier mayúscula de la palabra de entrada. Se ve así:
\c 1
donde el número que sigue al código de campo tiene uno de estos valores:
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 19 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
1
la primera (o la única) letra de la palabra está en mayúsculas
2
todas las letras de la palabra están en mayúsculas
4-32767
algunas letras de la palabra están en mayúsculas y otras no
Tenga en cuenta que la tercera forma es de utilidad limitada, pero todavía existe debido al apellido del autor.
El campo de mayúsculas se escribe en el archivo de análisis de salida cada vez que se escribe alguna de las letras de la palabra en mayúsculas; consulte la sección
"Prevenir cualquier descapitalización: \nocap" en el Manual de referencia de AMPLE y la sección "Prevenir la descapitalización de caracteres individuales: \noincap" en el
Manual de referencia de AMPLE
7.1.10 No alfabético (basura después de la palabra): \n
El campo no alfabético (\n) registra cualquier puntuación final, código de barras (consulte la sección "Personajes de código de formato de código de barras: \códigos de
barras" en el Manual de referencia de AMPLE) o caracteres de espacio en blanco. Se ve así:
\n |r.\n
donde las nuevas líneas están representadas por \n. El campo no alfabético termina con el último carácter de espacio en blanco inmediatamente después de la palabra.
El campo no alfabético se escribe en el archivo de análisis de salida cada vez que la palabra va seguida de algo que no sea un solo carácter de espacio. Esto incluye el caso
en el que una palabra termina un archivo sin que nada lo siga.
7.2 Análisis ambiguos
La sección anterior suponía que AMPLE producía solo un análisis por palabra. Esto no siempre es posible, ya que las palabras aisladas suelen ser ambiguas. AMPLE
maneja múltiples análisis escribiendo cada campo de análisis en paralelo, con el número de análisis al principio de cada campo de salida. Por ejemplo,
\a %2%< A0 imaika > CNJT AUG%< A0 imaika > ADVS% \d %2%imaika-Npa-ni%imaika-Npani% \cat %2%A0 A0=A0/A0=A0/A0%A0 A0=A0/A0% \p %2%==%=% \fd %2%==%=%
where the percent sign (%) separates the different analyses in each field. Note that only those fields which contain analysis information are marked for ambiguity. The other
fields (\w, \f, \c, and \n) are the same regardless of the number of analyses that AMPLE discovers.
The \ambig field in the text input control file can replace the percent sign with another character for separating the analyses; see section `Ambiguity Marker Character:
\ambig' in AMPLE Reference Manual, for details.
7.3 Fallos de análisis
Las secciones anteriores suponían que AMPLE analizó con éxito una palabra. Esto no siempre sucede. AMPLE marca los fallos de análisis de la misma manera que marca
varios análisis, pero con cero (0) para el recuento de ambigüedades. Por ejemplo,
\a %0%ta% \d %0%ta% \cat %0%% \p %0%% \fd %0%% \u %0%% \w TA \f \\v 12 |b \c 2 \n |r\n
Note that only the \a and \d fields contain any analysis information, and those both have the decapitalized word as a place holder.
The \ambig field in the text input control file can replace the percent sign with another character for marking analysis failures and ambiguities; see section `Ambiguity
Marker Character: \ambig' in AMPLE Reference Manual, for details.
8 Uso de los analizadores morfológicos integrados
Normalmente, PC-PATR requiere que el lingüista desarrolle un léxico completo de palabras con sus características. Esto puede ser innecesario si ya se ha desarrollado un
análisis morfológico y un léxico completo de morfemas utilizando PC-Kimmo (versión 2) o AMPLE (versión 3). Estos programas de análisis morfológico también están
disponibles en SIL.
PC-Kimmo
AMPLE
8.1 PC-Kimmo
La versión 2 de PC-Kimmo es compatible con una gramática de estilo PC-PATR para definir la estructura de las palabras en términos de morfemas. Esto proporciona una
forma sencilla de obtener características de las palabras como resultado del proceso de análisis morfológico. Para obtener los mejores resultados, la gramática de palabras
(PC-Kimmo) y la gramática de oración o frase (PC-PATR) deben desarrollarse juntas.
When using the PC-Kimmo morphological parser, PC-PATR requires a special lexical rule in the (sentence level) grammar file. This rule is named MapKimmoFeatures and
is used automatically to map from the features produced by the word parse to the features needed by the sentence parse. For example, consider the following definition:
Definir MapKimmoFeatures como
<out cat> = <in head pos>
<out lex> = <in lex>
<fuera de la cabeza> = <en la cabe
This lexical rule uses the <head pos> feature produced by the PC-Kimmo parser as the <cat> feature for the PC-PATR parser, and passes the <lex> and <head> features
from the morphological parser to the sentence parser unchanged.
8.2 AMPLITUD
Lo único necesario para usar el analizador morfológico AMPLE dentro de PC-PATR es cargar los archivos de control y diccionarios apropiados. Sin embargo, esto no será
demasiado útil, a menos que los diccionarios AMPLE contengan descriptores de características para pasar a PC-PATR. También es necesario que los datos de AMPLE
definan la categoría de palabras. (La categoría de sufijo final de palabra o la categoría de prefijo inicial de palabra se pueden designar en el archivo de datos de análisis).
Consulte la documentación de AMPLE para obtener más detalles sobre cualquiera de estos temas.
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 20 sur 21
Manual de referencia de PC-PATR
04/09/2022 17:48
9 Índice
Saltar a: - - \ - s
-/
-un nombre de archivo
-g nombre de archivo
-l nombre de archivo
-t nombre de archivo
-Dirección Z, cuenta
-z nombre de archivo
\
\a
\c
\gato
\d
\f
\fd
\n
\p
\u
\w
segundo
formato estándar
Notas al pie
(1)
La implementación de Microsoft Windows utiliza la función Microsoft C QuickWin, y la implementación de Macintosh utiliza la función Metrowerks C SIOUX.
(2)
Gazdar y Mellish (1989, páginas 142-147) discuten por qué las gramáticas de estructura de frases sin contexto son inadecuadas para modelar algunos lenguajes humanos.
Se muestra que el formalismo PATR-II (unificación de estructuras de características añadidas a las reglas de estructura de frases sin contexto) es adecuado para esos casos.
(3)
Esta es una nueva característica de AMPLE versión 3.
(4)
El diccionario unificado es una nueva característica de AMPLE versión 3.
(5)
¿Sería esta una mejora útil para PC-PATR?
(6)
Estos dos operadores son equivalentes en PC-PATR, ya que la implementación trata cada regla léxica como una lista ordenada de asignaciones en lugar de usar la
unificación para las asignaciones que tienen un operador de signo igual.
(7)
By default, \w also marks the initial field of each word's record.
Este documento se generó el 28 de noviembre de 2006 utilizando el traductor texi2html versión 1.52.
https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Page 21 sur 21
Téléchargement