La Extracción de un Diccionario Grande de Patrones de Manejo para el Análisis Sintáctico y Generación de Textos en Español, a partir de un Corpus
Informe Técnico Final
El Proyecto apoyado por la REDII-CONACyT.
Desarrollado en el Laboratorio de Lenguaje Natural
del Centro de Investigación en Computación
del Instituto Politécnico Nacional.
Dr. Alexander Gelbukh (Alexandre Guelboukh Kahn), responsable
Dr. Igor Bolshakov,
Dr. Grigori Sidorov,
Dr. Aurelio López López,
M. en C. Sofía Galicia Haro,
M. en C. Manuel Montes y Gómez,
Ing. Héctor Argote Reyes
Compilar, y desarrollar la tecnología para hacerlo a través de los corpus, un extenso diccionario de patrones de manejo sintáctico (marcos de subcategarización) para el español, el cual es parte del analizador sintáctico de alta calidad para el español, y preparar la misma tecnología y software para compilar los recursos léxicos de otros tipos.
En el análisis sintáctico, uno de los casos de ambigüedad a resolver es la conexión de las frases preposicionales. Por ejemplo, la frase “Movieron su oficina desde Monterrey a México” gramáticamente permite las siguientes interpretaciones sintácticas:
1: [[Movieron su oficina] desde Monterrey] hasta México.
2: [Movieron [su oficina desde Monterrey]] hasta México.
3: Movieron [[su oficina desde Monterrey] hasta México].
4: [Movieron su oficina] desde [Monterrey hasta México].
5: Movieron [su oficina desde [Monterrey hasta México]].
que se pueden gráficamente representar con las siguientes diagramas:
Sin embargo, con la información léxica se puede determinar que la variante (1) es correcta porque la palabra mover acepta dos frases preposicionales introducidas con las preposiciones desde y hasta, mientras, por ejemplo, la palabra oficina normalmente no acepta las frases dependientes introducidas con la preposición desde. Esta información se proporciona en un diccionario de subcategorización.
La compilación manual de un diccionario que contenga la información de este tipo es muy costosa, y no puede proporcionar los pesos estadísticos de los marcos de subcategorización como mover – desde – hasta. Además, los pesos estadísticos dependen del área temática y el estilo del texto, entonces, para cada área se debe tener su propio diccionario. Por otro lado, La compilación automática basada en puro conteo del uso de las palabras con sus respectivas preposiciones en los textos no preparados no es posible sin ya resolver la ambigüedad en el texto. Lo que introduce un circulo vicioso.
El propósito del Proyecto fue desarrollar un método automático basado en estadísticas del uso de las palabras en el corpus para obtener el diccionario del tipo mencionado con las características cuantitativas de cada marco.
El peso wi de probabilidad de la variante i se puede determinar a través de los pesos de combinaciones que la forman como:
donde los pesos estadísticos de las combinaciones se calculan como:
y el circulo vicioso se evita con iteraciones, empezando con un diccionario vacío (todos los pesos son 1).
· El método de resolución de la ambigüedad sintáctica con un diccionario especializado.
· El software para la extracción de los diccionarios estadísticos de subcategorización con de un conjunto de textos del área específica,
· Un diccionario estadístico de subcategorización para el léxico común español,
· El analizador sintáctico de alta calidad para el español basado en este diccionario (¡pruébelo! - sólo disponible en días hábiles en las horas de oficina. ¡Bajelo! - versión para Windows. Download - Windows version.),
· Un programa simulador de texto para el desarrollo y la depuración de los analizadores de texto,
· Las Publicaciones en las memorias de congresos internacionales, informes técnicos, etc.,
· Desarrollo de recursos humanos: durante el trabajo en el Proyecto se desarrolló la tesis doctoral de Sofía Galicia Haro, se avanzó la tesis doctoral de Manuel Montes y Gómez y la tesis de maestría de Héctor Argote Reyes.
1. A.F.Gelbukh, Sofia N. Galicia-Haro. An extended subcategorization frames dictionary (abstract). Program of 30th Annual Conference of Canadian Association of Applied Linguistic in conjunction with Congress of the Social Scienties and Humanities, Sherbrooke, Canada, June 3–5, 1999.
2. Capítulo en A.F. Gelbukh, I.A. Bolshakov, Sofia N. Galicia-Haro, M.A. Alexandrov, P.P. Makagonov, P.J. Cassidy. Dictionaries for text processing and language teaching: use and compilation. Technical report. CIC, IPN, ISBN 970-18-3322-8, 1999.
3. A. Gelbukh. Syntactic disambiguation with weighted extended subcategorization frames. Proc. PACLING-99, Pacific Association for Computational Linguistics, University of Waterloo, Waterloo, Ontario, Canada, August 25-28, 1999, ISBN 0-9685753-0-7, pp. 244-249. Extended version.
4. Sofía Galicia-Haro, A. Gelbukh, I. Bolshakov. Un método de descripción de conocimiento lingüístico y su aplicación al análisis sintáctico del español. Proc. ENC'99, Segundo Encuentro de Computación, Pachuca, Hidalgo, September 12 – 15, 1999.
5. Alexander Gelbukh. Resolution of syntactic ambiguity and extracting of a government pattern dictionary from a text corpus (in Russian). Proc. 8th International Conference Knowledge-Dialogue-Solution (KDS–99), Yalta, Ukraine, September 13-18, 1999.
6. S.N. Galicia-Haro, A. Gelbukh, I. Bolshakov. Advanced subcategorization frames for languages with relaxed word order constraints (on Spanish examples). Proc. VEXTAL, Venecia per il Trattamento Automatico delle Lingue, November 22 to 24 1999.
7. Sofía N. Galicia-Haro, I. A. Bolshakov, and A. F. Gelbukh. Aplicación del formalismo Meaning Û Text Theory al análisis de textos en español. CIC-99, Simposium Internacional de Computación, November 15 - 19, 1999, CIC, IPN, Mexico D.F., pp. 342-351.