UAM - Facultad de Filosofía y Letras - BRAVO Búsqueda de Respuestas Avanzada Multimodal y Multilingüe: Recursos Lingüísticos

Lingüística General, Lógica y Filosofía de la Ciencia, Lenguas Modernas, Teoría de la Literatura y Literatura Comparada y Estudios de Asia Oriental

Imprimir >< Atrás

BRAVO Búsqueda de Respuestas Avanzada Multimodal y Multilingüe: Recursos Lingüísticos

Estado

Inactivo

Financiado por

CICYT

Código

TIN2007-67407-C03-02

Duración

Octubre de 2007 a septiembre de 2010

Responsables

Responsable: Antonio Moreno Sandoval

Descripción

El proyecto que se plantea tiene como objetivo conseguir una plataforma de búsqueda de respuestas multimodal (por texto y por voz) y multilingüe que integra componentes desarrollados por los distintos grupos participantes en el proyecto. Como hipótesis de partida se tiene que es posible mejorar la búsqueda de respuestas de los sistemas actuales trabajando en los módulos que componen la arquitectura de un sistema de este tipo, principalmente en los módulos de RI multilingüe, la mejora en la construcción de índices y en los tiempos de acceso a la información, en la extracción y ordenación de respuestas así como de análisis de preguntas. Al menos se tratará información en web, recursos enciclopédicos y noticias. Para ello es fundamental el trabajo de los lingüistas para generar y/o ajustar recursos adecuados así como el esfuerzo en la integración de recursos tanto léxicos como de software.

Además, se busca aplicar las técnicas y métodos con los que se trabaja en los grupos de investigación a otras tareas como extracción de ontologías y de información, tratamiento de Entidades con Nombre e interacción por voz , explorando formas de adaptar estas tareas a nuevos dominios y lenguas.

Objetivos

Las tareas centrales del proyecto BRAVO dentro del LLI-UAM son:

Construcción de nuevos recursos multilingües para árabe, español y japonés.
Preparación y anotación de un corpus oral de preguntas en castellano.
Definición de un modelo para clasificación de preguntas.
Incorporar recursos lingüísticos que permitan un mejor tratamiento de la lengua oral espontánea con el fin de ajustar un reconocedor de voz para formulación de preguntas.

Investigadores

Responsable: Antonio Moreno Sandoval

Informático: José María Guirao Miras

Otros profesores:

Théophile Ambadiang

Mohamed El-Madkouri

Chieko Kimura

Paula Gonzalo Gómez

Otros investigadores:

Manuel Alcántara

Doaa Samy

Ana González Ledesma

Marta Garrote Salazar

Resultados

Base de datos acústica de preguntas

A raíz de la participación en el Cross-Language Evaluation Forum (CLEF), se ha creado una base de datos acústica de preguntas en varias lenguas, como español, árabe y thai. El objetivo principal es la utilización de las preguntas para el entrenamiento de reconocedores de voz, de manera que la formulación de las preguntas pueda hacerse mediante texto o voz.

Metodología: Grabación de las preguntas

Formato de archivo de grabación: simple rate, 16.000Hz. Mono.
Número de hablantes: 10 (5 masculinos y 5 femeninos).Número total de preguntas: 500. Cada hablante leyó 200 de las 500 preguntas. Número total de archivos de sonido: 2000.
Micrófonos: micrófono con auriculares Plantronics Audio 300, micrófono de pie Plantronics Audio 330.

Recursos en árabe

El trabajo desarrollado en el LLI en lengua árabe se basa en tres recursos lingüísticos:

Corpus paralelo árabe-español-inglés: El corpus está formado por textos de la ONU en los que se han anotado las name-entities.
Analizador morfológico de árabe: Los nombres incluyen sustantivos, adjetivos, pronombres, nombres adverbiales y cuantificadores. Las partículas son preposiciones, conjunciones, interjecciones y adverbiales. Los verbos incluyen tres subcategorías: presente, pasado e imperativo.
Base de datos acústica: Tras la participación en el Cross-Language Evaluation Forum (CLEF), se creó una base de datos acústica de preguntas en varias lenguas, como español, árabe y thai, dirigida principalmente al entrenamiento de reconocedores de voz.

Recursos en español

Se han abierto los accesos a diferentes corpus en español:

Se ofrece de manera experimental un servicio web de etiquetado morfosintáctico mediante el programa GRAMPAL, limitado a textos de menos de 3000 palabras. Está específicamente entrenado para transcripciones de habla:

Acceso a GRAMPAL

Además, tras la participación en el Cross-Language Evaluation Forum (CLEF), se creó una base de datos acústica de preguntas en varias lenguas, como español, árabe y thai, dirigida principalmente al entrenamiento de reconocedores de voz.

Base de datos acústica.

Recursos en japonés

El trabajo desarrollado en el LLI en lengua japonesa se basa en dos recursos lingüísticos: un corpus de japonés y un diccionario de vocabulario básico. Ambos recursos han sido creados como parte del trabajo de investigación de la Profesora Chieko Kimura. Junto a ella, han trabajado otros investigadores: Shin Abe, Kengo Matsui y Marta Garrote.

Corpus de habla espontánea japonesa

El trabajo de investigación de la Profesora Chieko Kimura ha dado como resultado un corpus de japonés oral espontáneo de más de 12 horas de grabación distribuidas en tres grupos según la tipología de la interacción: monólogos, diálogos y conversaciones.En la actualidad el trabajo se centra en los siguientes objetivos:

Transliteración el corpus en japonés con romanji.
Análisis lingüístico del discurso japonés oral espontáneo.
Aplicación a la enseñanza del japonés mediante el desarrollo de recursos basados en el corpus.

Diccionario de vocabulario básico del japonés

Tomando como referencia las 850 palabras básicas del inglés seleccionadas por Charles K. Ogden en su obra Basic English: A General Introduction with Rules and Grammar, se ha creado un diccionario de japonés básico en el que se incluyen las traducciones inglesa y española junto con ejemplos de uso de cada elemento léxico y el sonido. El criterio de categorización gramatical está basado en el Diccionario Básico Japonés-Español (Fundación Japón, Editorial Limusa/Grupo Noriega Editores, 1992, México, D.F.)

DICCIONARIO ONLINE

Publicaciones

2011

MORENO-SCHNEIDER, J., GARROTE-SALAZAR, M., MARTÍNEZ, P. y MARTÍNEZ FERNANDEZ, J.L. "Some experiments in evaluating ASR systems applied to multimedia retrieval", en Detyniecki, M., García-Serrano, A.and Nürnberger, A. (Eds.), Adaptive Multimedia Retrieval. Understanding Media and Adapting to the User. 7th International Workshop, AMR 2009, Madrid, Spain, September 24-25, 2009, Revised Selected Papers, Springer-Verlag, Lecture Notes in Computer Science, 6535, ISBN: 978-3-642-184, Páginas: 12-23.

2010

CAMPILLOS LLANOS, L., GOZALO GÓMEZ, P., GUIRAO MIRAS, J. Mª, MORENO SANDOVAL, A. Español oral en contexto. Vol. 1. Textos de español oral. Material de ELE basado en corpus. Comprensión auditiva. Madrid: Servicio de publicaciones de la Universidad Autónoma de Madrid. 2010. ISBN 978-84-8344-181-7.
GARROTE, M., MORENO SANDOVAL, A."Chiede. A spontaneous child language corpus of spanish". En Moneglia y Panunzi (eds.): Bootstrapping Information from Corpora in a Cross-Linguistic Perspective. Firenze University Press, pp. 121-140. ISBN 978-88-8453-518-4.
GARROTE, M. Los corpus de habla infantil. Metodología y análisis. Servicio de publicaciones de la Universidad Autónoma de Madrid. ISBN 978-84-8344-187-9.
VICENTE-DÍEZ, M., DE PABLO, C., MARTÍNEZ, P., MORENO-SCHNEIDER, J. y GARROTE-SALAZAR, M. "Are Passages Enough? The MIRACLE Team Participation in QA@CLEF2009", en Peters, C., Di Nunzio, G.M., Kurimo, M., Mandl, Th., Mostefa, D., Penas, A. y Roda, G. (Eds.), Multilingual Information Access Evaluation I - Text Retrieval Experiments. Springer-Velarg, ISBN: 978-3-642-157, Volumen: 6241, Páginas: 281-288.

2009

ALCÁNTARA PLA , M. y DECLERCK, T. Proceedings of the EACL 2009 Workshop on Semantic Representation of Spoken Language; Atenas: ACL, 2009.
CAMPILLOS, L. y ALCÁNTARA, M. "Speech Disfluencies in Formal Context. Analysis Based on Spontaneous Speech Corpora", en Corpus Linguistics Conference, Liverpool. 2009
GONZÁLEZ LEDESMA, A. Los marcadores del discurso en el corpus C-ORAL-ROM: anotación pragmática, estrategias computacinales de etiquetado y aplicaciones a otros campos. 2009. Universidad Autónoma de Madrid.
MORENO SANDOVAL, A. y GUIRAO MIRAS, J.M. "Frecuencia y distintividad en el uso lingüístico: casos tomados de la lematización verbal de corpus de distintos registros", en Actas del I Congreso Internacional de Lingüística de Corpus (CILC-09), Universidad de Murcia, 2009.

2008

ALCÁNTARA PLÁ, M."El análisis lingüístico en la transcripción automática de la lengua hablada, el Proyecto COAST"
en Actas del VIII Congreso de Lingüística General: El valor de la diversidad [meta]lingüística, Madrid. AÑO: 2008
CAMPILLOS, L.. "Las expresiones causales en el corpus de habla espontánea C-ORAL-ROM". En Actas del 8ª Congreso de Lingüística General, Universidad Autónoma de Madrid, 25-28 de junio. AÑO: 2008
DE PABLO SÁNCHEZ, C., MARTÍNEZ FERNÁNDEZ, J.L., GONZÁLEZ LEDESMA, A., SAMY, D., MARTÍNEZ, P., MORENO, A. y ALJUMAILY, H. "Combining Wikipedia and newswire text for Question Answering in Spanish" Carol Peters, Valentin Jijkoun, Thomas Mandl, Henning Müller, Douglas W. Oard, Anselmo Peñas, Vivien Petras, Diana Santos (Eds.): Advances in Multilingual and Multimodal Information Retrieval, 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Budapest, Hungary, September 19-21, 2007, Revised Selected Papers. Lecture Notes in Computer Science 5152 Springer 2008, ISBN 978-3-540-85759-4 Páginas: 352-355.
GARROTE, M., GUIRAO, J.M. y MORENO, A.. "Extracción de unidades distintivas en adultos y niños de un corpus de lengua oral espontánea". En Actas del 8ª Congreso de Lingüística General, Universidad Autónoma de Madrid, 25-28 de junio. AÑO: 2008
GONZÁLEZ LEDESMA, A. y SAMY, D.. "Marcadores discursivos en árabe y español: un estudio computacional basado en corpus paralelos con anotación pragmática". En Actas del 8ª Congreso de Lingüística General, Universidad Autónoma de Madrid, 25-28 de junio. AÑO: 2008
GOZALO, P.. "Reflexiones sobre el futuro. Los datos del español no nativo". En Actas del 8ª Congreso de Lingüística General, Universidad Autónoma de Madrid, 25-28 de junio. AÑO: 2008
MORENO SANDOVAL, A., T. TOLEDANO, D., DE LA TORRE, R., GARROTE, M. Y GUIRAO, J.M.. "Developing a Phonemic and Syllabic Frequency Inventory for Spontaneous Spoken Castilian Spanish and their Comparison to Text-Based Inventories". En Proceedings of LREC 2008,Marrakech, 28-30 de mayo. AÑO: 2008
SAMY, D. y GONZÁLEZ LEDESMA, A.. "Pragmatic Annotation of Discourse Markers in a Multilingual Parallel Corpus (Arabic- Spanish-English)". En Proceedings of LREC 2008,Marrakech, 28-30 de mayo. AÑO: 2008
SEGURA BEDMAR, I., MARTÍNEZ, P. y SAMY, D. "Detección de fármacos genéricos en textos biomédicos" Marzo, 2008, Revista Española para el procesamiento del lenguaje natural (SEPLN), ISSN: 1135-5948, Páginas: 27-34.
SEGURA BEDMAR, I., MARTÍNEZ, P. y SAMY, D. "A preliminary approach to recognize generic drug names by combining UMLS resources and USAN naming conventions" Ohio, USA, June, 2008, Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing (BioNLP), Association for Computational Linguistics, ISBN: 978-1-932432-, Páginas: 100-101.
VICENTE DÍEZ, M., SAMY, D. y MARTÍNEZ, P. "An empirical approach to a preliminary successful identification and resolution of temporal expressions in Spanish news corpora" Proceedings of the Sixth International Language Resources and Evaluation Conference (LREC'08), Marrakech, Morocco, May, 2008, European Language Resources Association (ELRA), ISBN: 2-9517408-4-0, Páginas: 2153-2158.
SEGURA BEDMAR, I., SAMY, D., MARTÍNEZ FERNÁNDEZ, J.L. y MARTÍNEZ, P. "Detecting Semantic Relations between Nominals using Support Vector Machines and Linguistic-Based Rules", Portugal, November, 2007, On the Move to Meaningful Internet Systems 2007: OTM 2007 Workshops, Springer Berlin / Heidelberg, ISBN: 978-3-540-768, ISSN: 0302-9743, Páginas: 1267-1273.

Logo FyL

Menú principal

BRAVO Búsqueda de Respuestas Avanzada Multimodal y Multilingüe: Recursos Lingüísticos