Manual de referencia de PC-PATR

Telechargé par habeascorpus
04/09/2022 17:48Manual de referencia de PC-PATR
Page 1 sur 21https://software.sil.org/downloads/r/pc-patr/pcpatr.html
Manual de referencia de PC-PATR
un analizador sintáctico basado en la unificación
versión 1.4.0
Noviembre de 2006
por Stephen McConnel (cambios para v. 1.2.5-1.4.0 por H. Andrew Black)
Tabla de contenidos
1 Introducción al programa PC-PATR
2 El formalismo PATR-II
2.1 Reglas de estructura de frases
2.2 Estructuras de características
2.3 Unificación
2.4 Restricciones de características
2.5 El léxico
3 PC-PATR en ejecución
3.1 Opciones de línea de comandos de PC-PATR
3.2 Comandos interactivos
3.2.1 cd
3.2.2 claro
3.2.3 cerrar
3.2.4 directorio
3.2.5 editar
3.2.6 salida
3.2.7 archivo
3.2.7.1 desambiguación del archivo
3.2.7.2 análisis de archivos
3.2.8 ayuda
3.2.9 carga
3.2.9.1 amplio control de carga
3.2.9.2 cargar un diccionario amplio
3.2.9.3 carga amplio control de texto
3.2.9.4 análisis de carga
3.2.9.5 gramática de carga
3.2.9.6 carga de gramática kimmo
3.2.9.7 léxico kimmo de carga
3.2.9.8 reglas de kimmo de carga
3.2.9.9 léxico de carga
3.2.10 registro
3.2.11 análisis
3.2.12 salir
3.2.13 guardar
3.2.13.1 guardar léxico
3.2.13.2 Guardar estado
3.2.14 conjunto
3.2.14.1 ambigüedades del conjunto
3.2.14.2 conjunto de diccionario amplio
3.2.14.3 ciclos de comprobación del conjunto
Comentario del conjunto 3.2.14.4
3.2.14.5 errores de configuración
3.2.14.6 características del conjunto
3.2.14.7 establecer la puntuación final
3.2.14.8 brillo del conjunto
3.2.14.9 conjunto de ciclos de comprobación de kimmo
3.2.14.10 establecer kimmo promover los predeterminados
3.2.14.11 conjunto de filtro de arriba hacia abajo kimmo
3.2.14.12 límite establecido
3.2.14.13 categoría de marcador de conjunto
3.2.14.14 características del marcador de ajuste
3.2.14.15 brillo del marcador de conjunto
3.2.14.16 establecido el registro del marcador
3.2.14.17 establecer brillo de raíz de marcador
3.2.14.18 establecer la palabra marcadora
3.2.14.19 establecer incumplimientos de la promoción
3.2.14.20 establecer propiedad-es-función
3.2.14.21 conjunto de solo reconocimiento
3.2.14.22 conjunto de brillo de raíz
3.2.14.23 tiempo establecido
3.2.14.24 establecer el filtro de arriba hacia abajo
3.2.14.25 árbol de conjunto
3.2.14.26 establece características vacías de recorte
04/09/2022 17:48Manual de referencia de PC-PATR
Page 2 sur 21https://software.sil.org/downloads/r/pc-patr/pcpatr.html
3.2.14.27 unificación del conjunto
3.2.14.28 establecer verboso
3.2.14.29 establecer advertencias
3.2.14.30 conjunto de análisis de escritura-ample-parse
3.2.15 mostrar
3.2.15.1 mostrar léxico
3.2.15.2 mostrar estado
3.2.16 estado
3.2.17 sistema
3.2.18 tomar
4 El archivo de gramática PC-PATR
4.1 Reglas
4.1.1 Operaciones sindicales prioritarias
4.1.2 Operaciones de restricción lógica
4.2 Plantillas de funciones
4.3 Ajustes de parámetros
4.4 Reglas léxicos
4.5 Plantillas de restricciones
5 Formato estándar
6 El archivo Léxico PC-PATR
7 El archivo de análisis AMPLE
7.1 Campos de archivo de análisis AMPLE
7.1.1 Análisis: \a
7.1.2 Descomposición (formas superficiales): \d
7.1.3 Categoría (posible palabra o morfema): \cat
7.1.4 Propiedades: \p
7.1.5 Descriptores de características: \fd
7.1.6 Formas subyacentes (descomposición): \u
7.1.7 Word (antes de la descapitalización y los cambios de ortografía): \w
7.1.8 Formato (basura antes de la palabra): \f
7.1.9 Indicador de mayúsculas: \c
7.1.10 No alfabético (basura después de la palabra): \n
7.2 Análisis ambiguos
7.3 Fallos de análisis
8 Uso de los analizadores morfológicos integrados
8.1 PC-Kimmo
8.2 AMPLITUD
9 Índice
1 Introducción al programa PC-PATR
Este documento describe PC-PATR, una implementación del formalismo lingüístico computacional PATR-II (además de algunas mejoras) para ordenadores personales.
Está disponible para MS-DOS, Microsoft Windows, Macintosh y Unix.( 1)
PC-PATR utiliza un analizador de gráficos en la esquina izquierda con estas características:
análisis de abajo hacia arriba con filtrado de arriba hacia abajo basado en las categorías
orden de izquierda a derecha: después de que cada palabra se agregue al gráfico, todos los bordes posibles que se pueden derivar de ese punto se calculan como un
efecto secundario
PC-PATR todavía está en desarrollo. El autor agradecería los comentarios dirigidos a la siguiente dirección:
Stephen McConnel (972)708-7361 (oficina) Desarrollo de software de lenguaje (972)708-7561 (fax) SIL Internacional 7500 W. Camp Wisdom Road Dallas, TX 75236 [email protected]
2 El formalismo PATR-II
El formalismo PATR-II puede verse como un lenguaje informático para codificar información lingüística. No presupone ninguna teoría particular de la sintaxis. Fue
desarrollado originalmente por Stuart M. Shieber en la Universidad de Stanford a principios de la década de 1980 (Shieber 1984, Shieber 1986). Una gramática PATR-II
consiste en un conjunto de reglas y un léxico. Cada regla consiste en una regla de estructura de frases sin contexto y un conjunto de restricciones de características, es
decir, unificaciones en las estructuras de características asociadas con los componentes de las reglas de estructura de frases. El léxico proporciona los elementos que
pueden reemplazar los símbolos terminales de las reglas de estructura de la frase, es decir, las palabras del idioma junto con sus características relevantes.
Reglas de la estructura de la frase
Estructuras de características
unificación
Restricciones de características
El léxico
2.1 Reglas de estructura de frases
Las reglas de estructura de frases sin contexto deben ser familiares para cualquier persona que haya estudiado teoría lingüística o informática. Se ven así:
LHS -> RHS_1 RHS_2 ...
`LHS'(el símbolo a la izquierda de la flecha) es un símbolo no terminal para el tipo de frase que se está describiendo. A la derecha de la flecha hay una lista ordenada de los
componentes de la frase. Estos componentes son símbolos no terminales, que aparecen en el lado izquierdo de alguna regla de la gramática, o símbolos terminales, que
representan clases básicas de elementos del léxico. Estas clases básicas suelen corresponder a lo que comúnmente se llama partes del habla. En PATR-II, los símbolos
04/09/2022 17:48Manual de referencia de PC-PATR
Page 3 sur 21https://software.sil.org/downloads/r/pc-patr/pcpatr.html
terminal y no terminal se denominan categorías.
Figura 1. Gramática de estructura de frases sin contextoRegla S -> NP VP (SubCl) Regla NP -> {(Det) (AdjP) N (PrepP)} / PR Regla Det -> DT / PR
Considere la gramática de la estructura de frases sin contexto al estilo PC-PATR en la figura 1. Tiene diez símbolos no terminales (S, NP, Det, VP, VerbalP, AuxP, PrepP,
AdjP, AdvP y SubCl) y nueve símbolos terminales (N, PR, DT, V, AUX, PP, AV, AJ y CJ). Esta gramática describe un pequeño subconjunto de oraciones en inglés. Vale la
pena mencionar varios aspectos de esta gramática.
1. Los componentes opcionales (o conjuntos de constituyentes) en el lado derecho están entre paréntesis.
2. Los componentes alternativos (o conjuntos de componentes) en el lado derecho están separados por barras.
3. Los corsés se utilizan para agrupar conjuntos alternativos de elementos, de modo que las alternancias no sean ambiguas.
4. Los símbolos no deben repetirse literalmente dentro de una regla. Los símbolos repetidos deben distinguirse entre sí añadiendo un número de índice diferente a un
símbolo cada vez que se repita. Los números de índice se introducen con el carácter de guión bajo (_).
Figura 2. Análisis de la frase de ejemplo en inglés segundo /\ / \
Figura 3. Análisis de la oración de muestra (salida de PC-PATR) segundo __________|__________ VP de NP ___|_____ _________|__________
Se puede hacer una cantidad significativa de desarrollo gramatical solo con reglas de estructura de frases sin contexto como estas. Por ejemplo, analizar la frase "el hombre
nos ve con un telescopio" con esta gramática simple produce un árbol de análisis como el que se muestra en la figura 2. (Con el fin de minimizar la altura de los árboles de
análisis sin necesidad de usar una interfaz gráfica, PC-PATR en realidad dibuja árboles de análisis como el que se muestra en la figura 3.) Analizar la frase similar "vemos
al hombre con un telescopio" produce dos análisis diferentes como se muestra en la figura 4, mostrando correctamente la ambigüedad entre si usamos un telescopio para
ver al hombre, o si el hombre tenía un telescopio cuando lo vimos.
Figura 4. Análisis de una frase ambigua en inglés S_1 __________|__________ NP_2+ VP_4 | _____________|_____________ PR_3+ VerbalP_5+ NP_7 AdvP_11
Un problema fundamental con las gramáticas de estructura de frases sin contexto es que tienden a sobregenerar. Por ejemplo, la gramática de muestra reconocería
incorrectamente la frase "* ve al hombre con un telescopio", asignándole estructuras de árbol similares a las que se muestran en la figura 4. Con solo las categorías simples
utilizadas por las reglas de estructura de frases sin contexto, se requiere un gran número de reglas para manejar con precisión incluso un pequeño subconjunto de la
gramática de un idioma. Esta es la motivación principal detrás de las estructuras de características, la mejora básica de PATR-II sobre las gramáticas de la estructura de
frases sin contexto.( 2)
2.2 Estructuras de características
La estructura de datos básica del formalismo PATR-II se llama estructura característica. Una estructura de características contiene una o más características. Una
característica consiste en un nombre de atributo y un valor. Las estructuras de características se escriben comúnmente como matrices de atributos-valor como esta (ejemplo
1):
(1) [ lex: telescopio gato: N ]
donde lex y cat son nombres de atributos, y telescopio y N son los valores de esos atributos. Tenga en cuenta que la estructura de características está entre paréntesis. Cada
característica se produce en una línea separada, con el nombre primero, seguido de un punto y luego su valor. Los nombres de las características y los valores (simples) son
palabras individuales que consisten en caracteres alfanuméricos.
Las estructuras de características pueden tener valores simples, como el ejemplo anterior, o valores complejos, como este (ejemplo 2):
(2) [ lex: telescopio gato: N brillo: `telescopio cabeza: [ agr: [ 3sg: + ]
donde el valor de la característica principal es otra estructura de características, que también contiene una estructura de características incrustada. Las estructuras de
características se pueden anidar arbitrariamente de esta manera.
Se puede hacer referencia a partes de una estructura de características utilizando la notación de ruta. Una ruta es una secuencia de uno o más nombres de entidades
encerrados entre corchetes en ángulo (<>). Por ejemplo, los ejemplos 3-5 serían rutas de características válidas basadas en la estructura de características del ejemplo 2:
(3) <head> (4) <número de cabeza> (5) <head agr 3sg>
Las rutas se utilizan en las plantillas de características y las restricciones de características, que se describen a continuación.
Different features within a feature structure can share values. This is not the same thing as two features having identical values. In Example 6 below, the <head agr> and
<subj head agr> features have identical values, but in Example 7, they share the same value:
(6) [ gato: S pred: [ gato: vicepresidente cabeza: [ agr: [ 3sg: + ]
(7) [ gato: S pred: [ gato: vicepresidente cabeza: [ agr: $1[ 3sg: + ]
Los valores compartidos se indican con los marcadores de coindexación de $1, $2, etc.
Tenga en cuenta que las letras mayúsculas y minúsculas utilizadas en los nombres y valores de las entidades son distintivas. Por ejemplo, NUMBER no es lo mismo que
Number o number. (Esto también es cierto para los símbolos utilizados en las reglas de estructura de frases sin contexto).
2.3 Unificación
La unificación es la operación básica aplicada a las estructuras de características en PC-PATR. Consiste en la fusión de la información de dos estructuras de características.
Dos estructuras de características pueden unificar si sus características comunes tienen los mismos valores, pero no se unifican si algún valor de característica entra en
conflicto.
Considere las siguientes estructuras de características:
(8) [ acuerdo: [ número: singular persona: primero ] ] (9) [ acuerdo: [ número: singular ]
La función 9 se puede unificar con la función 8 (función de producción 11) o la función 10 (función de producción 12). Sin embargo, la función 8 no puede unificarse con
04/09/2022 17:48Manual de referencia de PC-PATR
Page 4 sur 21https://software.sil.org/downloads/r/pc-patr/pcpatr.html
la función 10 debido al conflicto en los valores de sus características <agreement person>.
2.4 Restricciones de características
Las restricciones de características asociadas con las reglas de estructura de frases en PATR-II consisten en un conjunto de expresiones de unificación (las restricciones de
unificación). Cada expresión de unificación tiene tres partes, en este orden:
1. una ruta de función, cuyo primer elemento es uno de los símbolos de la regla de la estructura de la frase
2. un signo igual (=)
3. ya sea un valor simple u otra ruta de función que también comience con un símbolo de la regla de estructura de la frase
Por ejemplo, considere las siguientes reglas de PC-PATR:
(13) Regla S -> NP VP (SubCl) <NP head agr> = <VP head agr> <estuche de cabezaNP> = NOM <S subj> = <NP>
Rule 13 has two feature constraints that limit the co-occurrence of NP and VP, and two feature constraints that build the feature structures for S. This highlights the dual
purpose of feature constraints in PC-PATR: limiting the co-occurrence of phrase structure elements and constructing the feature structure for the element defined by a rule.
The first constraint states that the NP and VP <head agr> features must unify successfully, and also modifies both of those features if they do unify. The second constraint
states that NP's <head case> feature must either be equal to NOM or else be undefined. In the latter case, it is set equal to NOM. The last two constraints create a new feature
structure for S from the feature structures for NP and VP.
La regla 14 ilustra otro punto importante sobre las restricciones de unificación de características: se aplican solo si implican los componentes de la estructura de la frase
que realmente se encuentran para la regla.
Figura 5. Gramática PC-PATR del subconjunto inglésRegla S -> NP VP (SubCl) <NP head agr> = <VP head agr> <estuche de cabezaNP> = NOM
Figura 6. Salida PC-PATR con estructura de características1: segundo __________|__________ VP de NP ___|_____ _________|__________
Figure 5 shows the grammar of figure 1 augmented with a number of feature constraints. With this grammar (and a suitable lexicon), the parse output shown in figure 2
would include the sentence feature structure, as shown in figure 6. Note that the <subj head agr> and <pred head agr> features share a common value as a result of the
feature constraint unifications associated with the rule S -> NP VP (SubCl).
PC-PATR permite restricciones de unificación de características disyuntivas con sus reglas de estructura de frases. Considere las reglas 15 y 16 a continuación. Estas dos
reglas tienen la misma parte de la regla de estructura de la frase. Por lo tanto, pueden convertirse en la única regla 17, que tiene una disyunción en sus restricciones de
unificación.
(15) Regla CP -> NP C' ; para preguntas con NP frontal <NP tipo wh> = + <C' movió A-bar> = <NP>
PC-PATR no solo permite restricciones de unificación disyuntiva, sino que también permite reglas de estructura de frases disyuntivas. Considere la regla 18: es muy similar
a la regla 17. Estas dos reglas se pueden combinar aún más para formar la regla 19, que tiene desvinciones tanto en su regla de estructura de frases como en sus
restricciones de unificación.
(18) Regla CP -> PP C' ; para preguntas con PP frontal <PP tipo wh> = + <C' movido A-bar> = <PP>
Dado que el corsé abierto ({) introduce disyunciones tanto en la regla de la estructura de la frase como en las restricciones de unificación, se debe tener cuidado de evitar
confundir a PC-PATR cuando se está cargando el archivo gramatical. El final de la regla de la estructura de la frase, y el comienzo de las restricciones de unificación, se
indica mediante la primera restricción que comienza con un corchete de ángulo abierto (<) o con dos puntos (:). Si la primera restricción es parte de una disyunción,
entonces la regla de la estructura de la frase debe terminar con dos puntos. De lo contrario, PC-PATR tratará la restricción de unificación como parte de la regla de la
estructura de la frase y en breve se quejará de los errores de sintaxis en el archivo gramatical.
Tal vez debería tenerse en cuenta que las disyunciones en las reglas de estructura de frases o las unificaciones se amplían cuando se lee el archivo gramatical. Solo sirven
como una conveniencia para la persona que escribe las reglas.
2.5 El léxico
El léxico proporciona los elementos básicos (átomos) de la gramática, que suelen ser palabras. Se proporciona información como la que se muestra en la función 2 para
cada entrada del léxico. A diferencia de la implementación original de PATR-II, PC-PATR almacena el léxico en un archivo separado de las reglas gramaticales. Consulte la
sección 6 El archivo de léxico PC-PATR, a continuación para obtener más detalles.
3 PC-PATR en ejecución
PC-PATR es un programa interactivo. Tiene algunas opciones de línea de comandos, pero se controla principalmente mediante comandos escritos en el teclado (o cargados
desde un archivo previamente preparado).
Opciones de línea de comandos
Comandos interactivos
3.1 Opciones de línea de comandos de PC-PATR
El programa PC-PATR utiliza una interfaz de línea de comandos anticuada siguiendo la convención de opciones que comienzan con un carácter de guión (``-'). Las
opciones disponibles se enumeran a continuación en orden alfabético. Las opciones que requieren un argumento tienen el tipo de argumento que sigue a la letra de opción.
-a filename
carga el léxico desde un archivo de salida de análisis AMPLE.
-g filename
carga la gramática de un archivo gramatical PC-PATR.
-l filename
carga el léxico de un archivo de léxico PC-PATR.
-t filename
04/09/2022 17:48Manual de referencia de PC-PATR
Page 5 sur 21https://software.sil.org/downloads/r/pc-patr/pcpatr.html
abre un archivo que contiene uno o más comandos PC-PATR. Consulte la sección 3.2 Comandos interactivos.
Las siguientes opciones solo existen en las versiones de prueba beta del programa, ya que se utilizan solo para la depuración.
-/ incrementa el nivel de depuración. El valor predeterminado es cero (sin salida de depuración).
-z filename
abre un archivo para registrar un registro de asignación de memoria.
-Z address,count
traps the program at the point where address is allocated or freed for the count'th time.
3.2 Comandos interactivos
A continuación se describe cada uno de los comandos disponibles en PC-PATR. Cada comando consta de una o más palabras clave seguidas de cero o más argumentos. Las
palabras clave se pueden abreviar a la longitud mínima necesaria para evitar ambigüedades.
candela
borrar
CERRAR
Directorio
editar
salida
Archivo
ayuda
carga
registro
analizar
dejar de fumar
guardar
Conjunto
Mostrar
Estado
Sistema
toma
3.2.1 cd
cd directorycambia el directorio actual al especificado. No se permiten espacios en la ruta de acceso del directorio.
For MS-DOS or Windows, you can give a full path starting with the disk letter and a colon (for example, a:); a path starting with \ which indicates a directory at the top
level of the current disk; a path starting with .. which indicates the directory above the current one; and so on. Directories are separated by the \ character. (The forward
slash / works just as well as the backslash \ for MS-DOS or Windows.)
For the Macintosh, you can give a full path starting with the name of a hard disk, a path starting with : which means the current folder, or one starting :: which means the
folder containing the current one (and so on).
For Unix, you can give a full path starting with a / (for example, /usr/pcpatr); a path starting with .. which indicates the directory above the current one; and so on.
Directories are separated by the / character.
3.2.2 claro
clear erases all existing grammar and lexicon information, allowing the user to prepare to load information for a new language. Strictly speaking, it is not needed since the
load grammar command erases the previously existing grammar, and the load lexicon and load analysis commands erase any previously existing lexicon.
3.2.3 cerrar
close closes the current log file opened by a previous log command.
3.2.4 directorio
directoryenumera el contenido del directorio actual. Este comando solo está disponible para las implementaciones de MS-DOS y Unix. No existe para Microsoft
Windows ni para Macintosh.
3.2.5 editar
edit filename attempts to edit the specified file using the program indicated by the environment variable EDITOR. If this environment variable is not defined, then edlin is
used to edit the file on MS-DOS, and vi is used to edit the file on Unix. (These defaults should convince you to set this variable!) This command is not available for
Microsoft Windows or the Macintosh.
3.2.6 salida
exitdetiene PC-PATR, devolviendo el control al sistema operativo. Esto es lo mismo que quit.
3.2.7 archivo
The file commands process data from a file, optionally writing the parse results to another file. Each of these commands is described below.
desambiguación del archivo
análisis de archivos
1 / 21 100%

Manual de referencia de PC-PATR

Telechargé par habeascorpus
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !