(In English)

Becas de postdoctorado se ofrecen en mi  (Alexander Gelbukh) proyecto. Interesados favor de contactarme en Skype o WhatsApp  (véase el contacto). Favor de no enviarme correos, y si lo hace, favor de notificarme también por Skype o WhatsApp.

Beca: MXN 24,000 (USD 1,200) mensuales. Nota: El monto es más de doble de lo necesario para vivir normalmente en esta ciudad, rentando un departamento en una zona cercana a la escuela.

Familia: Quizá podremos otorgar dos becas simultáneas (tales como para usted y su pareja), de hasta 3 años en total (digamos, 1.5 años a cada uno). También tenemos becas de Doctorado y Maestría, por si sea relevante para su pareja.

Nuestro grupo consiste de tres profesores (todos los tres de Rusia) y 25 estudiantes de Doctorado y Maestría, actualmente de 8 países; véase el Laboratorio y mi página personal.

Lugar: Centro de Investigación en Computación, Instituto Politécnico Nacional. El presupuesto (salario) viene del Gobierno de México, entonces ellos requieren su presencia en el lugar.

We have a group of 3 professors (all three from Russia) and about 25 students currently from 8 countries; see the Lab and my personal page.

Requisitos:

·        Haber obtenido el grado de doctor dentro de los cinco últimos años.

·        No contar con una ubicación laboral definida o adscripción institucional alguna.

·        No podrá recibir otro apoyo similar por parte del CONACYT, si ya cumplió con la duración máxima autorizada.

·        La participación debe ser de tiempo completo, de 6 y hasta 24 meses.

Objetivos: El objetivo principal es publicaciones conjuntas (entre usted y yo) en revistas con alto factor de impacto. Podemos acordar los temas de investigación de su interés. Como parte de sus actividades, desarrollará el siguiente proyecto. Los objetivos y las actividades de este proyecto se deben cumplir de manera exacta y completa, aunque sea a nivel mínimo suficiente para reportar el proyecto al gobierno como terminado  en cada uno de sus tareas y actividades exactamente como fue prometido (pero no más de eso). El resto del tiempo podrá dedicar a la investigación más interesante.

Proyecto: Análisis multilingüe de veracidad y perfil de autor en redes sociales

Objetivo general: Desarrollar métodos basados en aprendizaje profundo con redes neuronales convolucionales y recurrentes para el análisis de veracidad y el perfilado de autor en los comentarios de páginas web 2.0, en redes sociales, noticias mediáticas y otras fuentes masivas de información en Internet, en forma de texto, en español y otros lenguajes.

Objetivos específicos:

1.      Construir recursos léxicos y conjuntos de datos suficientemente grandes para ser utilizados en aprendizaje profundo.

2.      Desarrollar métodos de análisis de texto para la extracción de características y construcción de representaciones con riqueza lingüística usando arquitecturas novedosas basadas en aprendizaje profundo con redes neuronales.

3.      Desarrollar métodos de aprendizaje automático para el análisis de veracidad en fuentes de información masiva en internet.

4.      Desarrollar métodos de aprendizaje automático para la identificación de perfiles de autor en redes sociales.

5.      Desarrollar algoritmos que usarán la información del perfil de autor para sistemas de recomendación.

6.      Desarrollar un sistema de análisis de opinión popular en el ámbito político y de administración pública usando el análisis de veracidad.

Productos:

N

Producto

Año

1

Dos artículos en revistas internacionales de alto prestigio relacionados con la construcción de los recursos y la extracción de características con aprendizaje profundo

2

2

Dos artículos en revistas internacionales de alto prestigio relacionados con el sistema de recomendación mejorado con perfil de autor y el sistema de análisis de opiniones en el ámbito político y la administración pública.

3

3

Cinco tesis de maestría y/o doctorado.

3

4

Dos artículos en revistas internacionales de alto prestigio relacionados con los métodos desarrollados para el análisis de veracidad y la identificación de perfil de autor.

1

5

Prototipo de sistema computacional para análisis de opiniones usando análisis de veracidad.

3

6

Modelos de aprendizaje automático adecuados para análisis de veracidad en fuentes de información masiva en internet.

2

7

Arquitecturas neuronales basadas en redes recurrentes para extracción de características relevantes de textos.

1

8

Arquitecturas neuronales basadas en redes convolucionales para extracción de características relevantes de textos.

1

9

Modelos de aprendizaje automático adecuadas para la identificación de perfiles del autor de mensajes de redes sociales.

2

10

Corpus etiquetado con la veracidad del texto, es decir, si el texto representa una información cierta.

1

11

Corpus etiquetado con perfiles de autor (género, rango de edad, variedad del lenguaje).

1

12

Recursos léxico (lexicón) con palabras claves que ayudan a identificar el sociolecto del autor de un texto.

1

13

Prototipos de sistemas computacionales de recomendación mejorados con información de perfiles de autor de redes sociales.

3

 

Actividades:

N

Actividad

Mes

Año 1

1

Estudio de la nueva bibliografía y recursos existentes. Revisión de los criterios de volumen de textos necesarios para ser utilizados en aprendizaje profundo

1

2

Identificar fuentes textuales y etiquetarlas manualmente con perfil del autor (género, edad, lenguaje nativo) de acuerdo con metadatos de redes sociales

2

3

Generar un corpus controlado de opiniones veraces y ficticias, usando crowdsourcing

3

4

Vectorización de palabras, frases y de documentos mediante técnicas conocidas: word2vec, GloVe, fasttext, doc2vec, entre otras

4–5

5

Implementación de técnicas basadas en aprendizaje profundo con redes neuronales convolucionales (CNNs) para generar modelos de representación vectorial de documentos

6–8

6

Implementación de técnicas basadas aprendizaje profundo con redes neuronales recurrentes (RNNs) para generar modelos de representación vectorial de documentos

9–11

7

Presentación del corpus elaborado y las técnicas en congresos internacionales. Elaboración artículos para ser publicados en revistas indexadas

12

Año 2

1

Experimentos con las dos arquitecturas de aprendizaje profundo: CNNs y RNNs para generar modelos de análisis de veracidad

1–3

2

Evaluación de características y parámetros de los algoritmos

3

3

Evaluación de los resultados obtenidos con estas técnicas mediante en el corpus desarrollado

4

4

Elaboración de un artículo relacionado con el modelo generado para análisis de veracidad para ser publicado en revista indexada

5

5

Experimentos con las dos arquitecturas de aprendizaje profundo: CNNs y RNNs, para identificación de perfiles de autor

6–8

6

Evaluación de características y parámetros de los algoritmos

8

7

Evaluación del sistema desarrollado en la competencia internacional de perfilado de autor del PAN

9–10

8

Elaboración de un artículo relacionado con el modelo generado para identificación de perfiles de autor para ser publicado en revista indexada

11

9

Organización de una taller de difusión sobre técnicas de aprendizaje profundo para procesamientos de lenguaje natural y presentación resultados obtenidos

12

Año 3

1

Construir un sistema de recomendación base utilizando análisis de sentimientos sobre los datos textuales

1

2

Mejorar el sistema de recomendación base utilizando la información del perfil de autor como característica adicional

2–3

3

Evaluación del sistema de recomendación mejorado con perfiles de autor un corpus (benchmark) conocido

4

4

Obtención de datos textuales de redes sociales en tiempo real (Streaming) para realizar el análisis de opiniones en el ámbito político

5–6

5

Etiquetado automático de la veracidad de los mensajes mediante los modelos generados en la etapa anterior

7

6

Desarrollo de una interfaz gráfica para el análisis de los resultados

8–9

7

Elaboración de dos artículos relacionados con los sistemas computaciones de aplicación: el sistema de recomendación mejorado y el sistema de análisis de opiniones

10–11

8

Organización de una taller de difusión sobre técnicas de aprendizaje profundo para procesamientos de lenguaje natural y presentación resultados obtenidos

12