Ver segunda edición           
ampliada y revisada           

 

Libro:

Procesamiento automático del español
con enfoque en recursos léxicos grandes

Alexander Gelbukh y Grigori Sidorov

IPN, 2006, 240 + XIV pp.
ISBN 970-36-0264-9

Registro en la Biblioteca del Congreso de EE.UU.

 SEGUNDA EDICIÓN AMPLIADA Y REVISADA ESTÁ DISPONIBLE

Bajar - Contacto - Resumen - Contenido general - Contenido detallado

Bajar texto completo: PDF HTML

Contacto, más información sobre el tema y otros publicaciones de los mismos autores: aquí y aquí

Resumen: Este libro examina algunas de las aplicaciones prácticas de la computación tanto en la investigación lingüística como en la tecnológica del lenguaje natural. El objeto de estudio de este libro pertenece a la ciencia de la lingüística computacional, la cual es un campo de investigación que nos permite entender mejor la herramienta más importante que usamos los seres humanos: el lenguaje natural. El libro tiene un enfoque más práctico y técnico que teórico y un conjunto de nuevas técnicas para la solución de varios problemas específicos de procesamiento de texto por computadora.

El libro será útil tanto para los especialistas y estudiantes que se dedican a los problemas de Procesamiento de Lenguaje Natural (PLN) y áreas afines, como para los que apenas están empezando a familiarizarse con esta área. Otro grupo muy importante al cual está dirigido este libro son los lingüistas, que encontrarán en él ejemplos útiles tanto del uso de las técnicas computacionales en sus labores como de las aplicaciones a su investigación.

 

Índice general

 

Prefacio 1

Capítulo 1      Introducción  3

Parte I     Problemas generales del Procesamiento de Lenguaje Natural  13

Capítulo 2      Tareas y aplicaciones de PLN   15

Capítulo 3      Niveles de lenguaje y su reflejo en PLN   59

Capítulo 4      Problemas del uso de diccionarios en PLN   73

Parte II    Aplicaciones del PLN con recursos léxicos grandes  97

Capítulo 5      Análisis morfológico automático basado en un diccionario de raíces  99

Capítulo 6      Análisis sintáctico automático basado en un diccionario de patrones de manejo  119

Capítulo 7      Resolución de correferencia con un diccionario de escenarios  133

Capítulo 8      Recuperación de documentos con comparación semántica suave  145

Capítulo 9      Comparación de los coeficientes de las leyes de Zipf y Heaps en diferentes idiomas  157

Parte III  Construcción de recursos léxicos para el PLN   171

Capítulo 10    Compilación automática del corpus léxica y morfológicamente representativo  173

Capítulo 11    Construcción automática del diccionario de colocaciones basándose en un análisis sintáctico automático  185

Capítulo 12    Evaluación automática de la calidad de los diccionarios explicativos  199

Capítulo 13    Detección automática de las primitivas semánticas  207

Bibliografía   221

Índice analítico   237

  

Índice detallado

 

Prefacio 1

Capítulo 1      Introducción  3

1.1    La lingüística y la computación. 3

1.2    La temática del libro. 6

1.3    La estructura del libro. 7

Parte I     Problemas generales del Procesamiento de Lenguaje Natural  13

Capítulo 2      Tareas y aplicaciones de PLN   15

2.1    Ayuda en preparación de textos. 17

2.2    Búsqueda de información. 19

2.3    Manejo de documentos. 21

Búsqueda de documentos. 22

Representación y navegación por los documentos. 24

2.4    Gestión inteligente de documentos. 25

Búsqueda inteligente de documento. 25

Combinación de la información tabular y textual 27

Representación inteligente de documento. 29

Representación inteligente de un conjunto de documentos. 32

Navegación inteligente por los conjuntos de documentos. 34

Categorización automática de documentos. 36

2.5    Interfaces en lenguaje natural 36

2.6    Traducción automática. 39

2.7    Generación de texto. 42

2.8    Aplicaciones recientes y emergentes. 43

Bibliotecas digitales. 43

Extracción de información, filtrado y alerta. 44

Generación de resúmenes. 45

Minería de texto. 45

Manejo inteligente de documentos oficiales (e‑Gobierno) 46

Estudio de Internet como un corpus enorme. 47

Aplicaciones multilingües. 48

Tecnologías de voz. 49

Conducción de diálogo. 50

2.9    Problemas y métodos de análisis y representación de texto. 50

Problemas. 50

Conocimiento lingüístico vs. extralingüístico. 52

2.10   Métodos. 53

2.11   Procesamiento de lenguaje natural en México. 54

2.12   Conclusiones. 57

Capítulo 3      Niveles de lenguaje y su reflejo en PLN   59

3.1    Modelos buenos y modelos malos. 60

3.2    Niveles de lenguaje natural 63

Fonética / fonología. 64

Morfología. 65

Sintaxis. 66

Semántica. 67

Pragmática. 68

Discurso. 69

3.3    Implementación de un procesador lingüístico. 69

Capítulo 4      Problemas del uso de diccionarios en PLN   73

4.1    Relaciones entre las definiciones. 76

4.2    Separación de los significados en sentidos. 79

Falta de sentidos específicos. 79

Sistema de sentidos demasiado detallado. 82

Sentidos demasiado generales. 86

4.3    Otros tipos de verificación formal 88

Verificación de la ortografía y la estructura de los artículos. 88

Verificación de las marcas de sinonimia y antonimia. 90

4.4    Herramienta ayudante de lexicógrafo. 93

4.5    Conclusiones. 95

Parte II    Aplicaciones del PLN con recursos léxicos grandes  97

Capítulo 5      Análisis morfológico automático basado en un diccionario de raíces  99

5.1    Modelos de análisis morfológico automático. 102

5.2    Modelo de análisis a través de generación. 108

Proceso de generación. 109

Proceso de análisis. 109

5.3    Modelos usados. 111

Morfología nominal 111

Morfología verbal 112

5.4    Preparación de los datos. 113

5.5    Implementación. 114

5.6    Cómo se puede mejorar el analizador. 115

5.7    Conclusiones. 116

Capítulo 6      Análisis sintáctico automático basado en un diccionario de patrones de manejo  119

6.1    Análisis sintáctico automático. 119

6.2    Requerimientos en el análisis de lenguaje natural 124

6.3    Ambiente de desarrollo. 126

El uso y la información que proporciona. 127

6.4    Conclusiones. 131

Capítulo 7      Resolución de correferencia con un diccionario de escenarios  133

7.1    Algunos ejemplos de correferencia indirecta. 135

7.2    Correferencia indirecta como referencia a un elemento del escenario. 137

7.3    Condiciones sintácticas. 139

7.4    El algoritmo y el diccionario. 141

7.5    Conclusiones y trabajo futuro. 143

Capítulo 8      Recuperación de documentos con comparación semántica suave  145

8.1    El método. 146

8.2    Diccionarios. 148

Diccionario morfológico. 149

Sinónimos más cercanos. 150

Sinónimos más lejanos. 150

Todos los sinónimos y antónimos más cercanos. 151

Todos los sinónimos y antónimos más lejanos. 151

8.3    Interfaz del usuario. 151

Opciones de búsqueda. 152

Resultados de búsqueda. 153

8.4    Conclusiones. 155

Capítulo 9      Comparación de los coeficientes de las leyes de Zipf y Heaps en diferentes idiomas  157

9.1    Resultados experimentales. 160

9.2    La posible explicación de la diferencia. 162

9.3    Conclusiones. 163

9.4    Apéndice 1: valores de los coeficientes de las leyes de Zipf y Heaps. 164

9.5    Apéndice 2: listas de textos utilizados en los experimentos. 166

Parte III  Construcción de recursos léxicos para el PLN   171

Capítulo 10    Compilación automática del corpus léxica y morfológicamente representativo  173

10.1   El diccionario de contextos. 177

10.2   Compilación del diccionario a través de la Internet 179

10.3   Resultados experimentales. 181

10.4   Conclusiones. 182

Capítulo 11    Construcción automática del diccionario de colocaciones basándose en un análisis sintáctico automático  185

11.1   Combinaciones idiomáticas, colocaciones y combinaciones libres de palabras  189

11.2   Enriquecimiento automático del diccionario de colocaciones. 191

11.3   Evaluación del enriquecimiento automático. 196

11.4   Conclusiones. 198

Capítulo 12    Evaluación automática de la calidad de los diccionarios explicativos  199

12.1   Los datos para el experimento. 200

12.2   El experimento. 201

12.3   Conclusiones. 205

Capítulo 13    Detección automática de las primitivas semánticas  207

13.1   La estructura de datos. 209

13.2   El algoritmo. 210

Definiciones. 210

Funcionamiento. 211

Depuración inicial del grafo. 212

13.3   La metodología experimental 214

13.4   Resultados y discusión. 216

13.5   Trabajo futuro. 219

13.6   Conclusiones. 220

Bibliografía   221

Índice analítico   237