Responsable: Antonio Moreno Sandoval
El proyecto que se plantea tiene como objetivo conseguir una plataforma de búsqueda de respuestas multimodal (por texto y por voz) y multilingüe que integra componentes desarrollados por los distintos grupos participantes en el proyecto. Como hipótesis de partida se tiene que es posible mejorar la búsqueda de respuestas de los sistemas actuales trabajando en los módulos que componen la arquitectura de un sistema de este tipo, principalmente en los módulos de RI multilingüe, la mejora en la construcción de índices y en los tiempos de acceso a la información, en la extracción y ordenación de respuestas así como de análisis de preguntas. Al menos se tratará información en web, recursos enciclopédicos y noticias. Para ello es fundamental el trabajo de los lingüistas para generar y/o ajustar recursos adecuados así como el esfuerzo en la integración de recursos tanto léxicos como de software.
Además, se busca aplicar las técnicas y métodos con los que se trabaja en los grupos de investigación a otras tareas como extracción de ontologías y de información, tratamiento de Entidades con Nombre e interacción por voz , explorando formas de adaptar estas tareas a nuevos dominios y lenguas.
Las tareas centrales del proyecto BRAVO dentro del LLI-UAM son:
Responsable: Antonio Moreno Sandoval
Informático: José María Guirao Miras
Otros profesores:
Théophile Ambadiang
Mohamed El-Madkouri
Chieko Kimura
Paula Gonzalo Gómez
Otros investigadores:
Manuel Alcántara
Doaa Samy
Ana González Ledesma
Marta Garrote Salazar
Base de datos acústica de preguntas
A raíz de la participación en el Cross-Language Evaluation Forum (CLEF), se ha creado una base de datos acústica de preguntas en varias lenguas, como español, árabe y thai. El objetivo principal es la utilización de las preguntas para el entrenamiento de reconocedores de voz, de manera que la formulación de las preguntas pueda hacerse mediante texto o voz.
Metodología: Grabación de las preguntas
Formato de archivo de grabación: simple rate, 16.000Hz. Mono.
Número de hablantes: 10 (5 masculinos y 5 femeninos).Número total de preguntas: 500. Cada hablante leyó 200 de las 500 preguntas. Número total de archivos de sonido: 2000.
Micrófonos: micrófono con auriculares Plantronics Audio 300, micrófono de pie Plantronics Audio 330.
Recursos en árabe
El trabajo desarrollado en el LLI en lengua árabe se basa en tres recursos lingüísticos:
Recursos en español
Se han abierto los accesos a diferentes corpus en español:
Se ofrece de manera experimental un servicio web de etiquetado morfosintáctico mediante el programa GRAMPAL, limitado a textos de menos de 3000 palabras. Está específicamente entrenado para transcripciones de habla:
Además, tras la participación en el Cross-Language Evaluation Forum (CLEF), se creó una base de datos acústica de preguntas en varias lenguas, como español, árabe y thai, dirigida principalmente al entrenamiento de reconocedores de voz.
Recursos en japonés
El trabajo desarrollado en el LLI en lengua japonesa se basa en dos recursos lingüísticos: un corpus de japonés y un diccionario de vocabulario básico. Ambos recursos han sido creados como parte del trabajo de investigación de la Profesora Chieko Kimura. Junto a ella, han trabajado otros investigadores: Shin Abe, Kengo Matsui y Marta Garrote.
El trabajo de investigación de la Profesora Chieko Kimura ha dado como resultado un corpus de japonés oral espontáneo de más de 12 horas de grabación distribuidas en tres grupos según la tipología de la interacción: monólogos, diálogos y conversaciones.En la actualidad el trabajo se centra en los siguientes objetivos:
Tomando como referencia las 850 palabras básicas del inglés seleccionadas por Charles K. Ogden en su obra Basic English: A General Introduction with Rules and Grammar, se ha creado un diccionario de japonés básico en el que se incluyen las traducciones inglesa y española junto con ejemplos de uso de cada elemento léxico y el sonido. El criterio de categorización gramatical está basado en el Diccionario Básico Japonés-Español (Fundación Japón, Editorial Limusa/Grupo Noriega Editores, 1992, México, D.F.)
2011
2010
2009
2008
Facultad de Filosofía y Letras · C/ Francisco Tomás y Valiente 1 · Universidad Autónoma de Madrid · 28049 Madrid · Contacto: +34 91 497 43 54 · informacion.filosofia@uam.es · Web:webmaster.filosofia@uam.es