Acceder al contenido principalAcceder al menú principalFormulario de contactoLa UAM

Facultad de Filosofía y LetrasLogo FyL

Recursos de Ingeniería Lingüística Aplicados a la Recuperación de Información Multilingüe

Edificio de la Facultad de Ciencias Económicas y Empresariales La Facultad
Estado
Finalizado
Financiado por
Financiado por CICYT
Código
TIN2004-07588-C03-02
Tipo de convocatoria
Nacional
Duración
Diciembre de 2004 a diciembre de 2007
Dedicación
Completa
Responsables

Miembros

Durante la primera fase del proyecto (de diciembre de 1997 a mayo de 2000) participaron:

  • Lingüistas: (guías, selección de datos, anotación y depuración)
    • Antonio Moreno
    • Susana López
    • Manuel Alcántara
  • Lingüistas computacionales: (herramientas para la anotación y depuración)
    • Fernando Sánchez
    • Ralph Grishman
(la investigación de Susana López se ha financiado gracias a una beca de la New York University).

Descripción

RILARIM es un subproyecto dentro del proyecto coordinado RIMMEL: Recuperación de Información Multilingüe y Multimedia y su Evaluación, subvencionado por el Ministerio de Educación y Ciencia (TIN2004-07588-C03), desde el 13 de diciembre de 2004 a 12 de diciembre de 2007, cuyo investigador principal es José Miguel Goñi Menoyo, del Departamento de Matemática Aplicada a las Tecnologías de la Información (ETSI de Telecomunicación, UPM).


Objetivos

Los objetivos centrales del proyecto RILARIM han sido:

  1. Desarrollo de recursos lingüísticos multilingües en formato electrónico para su empleo en sistemas de procesamiento del lenguaje natural, tanto para entrenamiento como para evaluación de aplicaciones de tecnología lingüística.
  2. Proporcionar el conocimiento lingüístico necesario a las aplicaciones desarrolladas por los grupos del proyecto coordinado.

Ambas líneas de trabajo están en consonancia con la investigación desarrollada por el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (LLI-UAM) desde hace más de 15 años.

Investigadores

  • Responsable: Antonio Moreno Sandoval
  • Informático: José María Guirao Miras
  • Otros profesores:
    • Francisco Marcos Marín
    • Mohamed El-Madkouri
  • Otros investigadores:
    • Chieko Kimura
    • Manuel Alcántara Pla
    • Doaa Samy
    • Ana González Ledesma
    • Prem Prakash
    • Marta Garrote Salazar
    • Raúl de la Torre

Metodología

Herramientas de anotación

  • Un anotador de categorías sintácticas estadístico, que proporciona la categoría más frecuente y los rasgos flexivos para cada palabra. Para ello, se utiliza el anotador descrito en Sánchez, Ramírez & Declerck, (1999).
  • Un "chunker" que reconoce SNs, SVs, SPs y SADJs (desarrollado por F. Sánchez)
  • Un selector de oraciones, que selecciona arbitrariamente oraciones de la fuente textual. Se pueden asignar algunas variables como tipo de texto o longitud de oración (desarrollado por F. Sánchez)

Herramientas de depuración

  • Una aplicación gráfica para dibujar los árboles de las oraciones anotadas. Se utiliza un programa público llamado Computational Linguistics Interactive (CLIG http://www.ags.uni-sb.de/~konrad/clig.html), desarrollado por Karsten Konrad en Saarbrücken.
  • Un revisor de rasgos que controla la asignación de los rasgos apropiados para cada categoría (desarrollado por R. Grishman).
  • Un generador de reglas para las estructuras sintagmáticas, usado para detectar posibles anotaciones incorrectas (desarrollado por R. Grishman).

Resultados

  • Una mejora del analizador morfosintáctico del español, con desambiguación y adaptación al etiquetado de corpus orales.
  • Un transcriptor fonológico y silabificador del español.
  • Un corpus de habla espontánea infantil del español, anotado fonológica y morfosintácticamente.Anotación semántica eventiva parcial del corpus C-ORAL-ROM.
  • Un corpus paralelo árabe-español-inglés.
  • Un corpus paralelo hindi-español (prototipo).
  • Un corpus de habla espontánea del japonés (prototipo).
  • Un prototipo de analizador morfosintáctico del árabe.
  • Un corpus de noticias de español, anotado parcialmente.

Recursos

  • CHIEDE. Corpus de Habla Infantil Espontánea del Español.
  • Corpus Árabe-Español.
  • Corpus de Japonés.
  • Corpus Español-Hindi.
  • C-ORAL-ROM ELE.

Publicaciones

  • MORENO, A. y URRESTI, J."El proyecto C-ORAL-ROM y su aplicación a la enseñanza de español" en Oralia, volumen 8, 2006.
  • ALCÁNTARA PLÁ, M. Introducción al análisis de estructuras lingüísticas en corpus. Aproximación semántica. Madrid: Servicio de Publicaciones de la Universidad Autónoma de Madrid (ISBN: 987-84-8344-069-8), 2007.
  • GUIRAO, J.M., A. MORENO SANDOVAL, GONZÁLEZ LEDESMA, A., DE LA MADRID, A., ALCÁNTARA, M."Relating linguistic units to socio-contextual information in a spontaneous speech corpus of Spanish", en Wilson, Archer, y Rayson (eds.): Corpus linguistics around the world. Amsterdam: Rodopi, 2006. pp. 101-114.
  • MORENO, A. y GUIRAO, J.M.: "Morpho-syntactic Tagging of the Spanish C-ORAL-ROM Corpus: Methodology, Tools and Evaluation", en Kawaguchi, Zaima y Takagaki (eds.) Spoken Language Corpus and Linguistic Informatics. Amsterdam: John Benjamins, 2006. pp. 199-218. Publicado también en Linguistics Informatics VI, Tokio, Tokyo University of Foreing Studies.

Tesis doctorales

Texto de tesis doctorales:

  • Prem Prakash"Recursos bilingües de ingeniería lingüística: español-hindí". Universidad Autónoma de Madrid. Febrero de 2005.
  • Francisco Javier López Calvo"Evaluación y análisis de errores de un etiquetador morfológico automático para el español oral". Universidad Autónoma de Madrid. Septiembre de 2005.
  • Leonardo Campillos Llanos"Adaptación del corpus C-ORAL-ROM a la enseñanza de español para extranjeros". Universidad Autónoma de Madrid. Septiembre de 2006.
  • Ana Valverde Mateos"Diseño e implementación de una ontología de términos jurídicos". Universidad Autónoma de Madrid. Septiembre de 2007.
  • María Cristina Tovar Pérez"El español en la prensa escrita: estudio empírico a partir de un corpus de noticias de la Agencia EFE". Universidad Autónoma de Madrid. Septiembre de 2007.
  • Chieko Kimura"Corpus de habla espontánea japonesa y su aplicación a la enseñanza del japonés". Universidad Autónoma de Madrid. Marzo de 2008.



Trabajos de investigación para la obtención del DEA

Texto de trabajos de investigación:


  • Prem Prakash"Recursos bilingües de ingeniería lingüística: español-hindí". Universidad Autónoma de Madrid. Febrero de 2005.
  • Francisco Javier López Calvo"Evaluación y análisis de errores de un etiquetador morfológico automático para el español oral". Universidad Autónoma de Madrid. Septiembre de 2005.
  • Leonardo Campillos Llanos"Adaptación del corpus C-ORAL-ROM a la enseñanza de español para extranjeros". Universidad Autónoma de Madrid. Septiembre de 2006.
  • Ana Valverde Mateos"Diseño e implementación de una ontología de términos jurídicos". Universidad Autónoma de Madrid. Septiembre de 2007.
  • María Cristina Tovar Pérez"El español en la prensa escrita: estudio empírico a partir de un corpus de noticias de la Agencia EFE". Universidad Autónoma de Madrid. Septiembre de 2007.
  • Chieko Kimura"Corpus de habla espontánea japonesa y su aplicación a la enseñanza del japonés". Universidad Autónoma de Madrid. Marzo de 2008.


Otros datos de interés

La documentación asociada a los proyectos de acceso libre se encuentran en los siguientes enlaces:

Facultad de Filosofía y Letras · C/ Francisco Tomás y Valiente 1 · Universidad Autónoma de Madrid · 28049 Madrid · Contacto: +34 91 497 43 54 ·  informacion.filosofia@uam.es ·           Web:webmaster.filosofia@uam.es