HLT&IR-UAM

 

  • Antonio Moreno Sandoval (IP)
  • Manuel Alcántara
  • Iván Cantador
  • Pablo Castells
  • Paula Gozalo
  • Michael O'Donnell
  • Doroteo Torre
  • David Vallet
  • Alejandro Bellogín
  • Fernando Díez
  • Marta Garrote
  • Saúl Vargas
  • Ignacio Fernández

 

El grupo Human Language Tecnologies & Information Retrieval es un equipo multidisciplinar que incluye lingüistas, matemáticos e ingenieros informáticos y de telecomunicación provenientes del Laboratorio de Lingüística Informática, el Information Retrieval Group y el Biometric Recognition Group de la Universidad Autónoma de Madrid.

La labor investigadora del grupo ha dado lugar a un amplio número de publicaciones en foros con impacto científico durante los últimos cinco años, entre los que cabe destacar 9 artículos en revistas JCR, 3 capítulos en libros e editoriales internacionales de prestigio (John Benjamins, Rodopi), además de otras contribuciones a congresos de primer nivel en sus respectivas áreas, tales como Hypertext, ISWC, ECIR, SIGIR, LREC.

En el aspecto formativo, se han completado en estos años 9 tesis doctorales dentro del grupo. Sus miembros participan activamente en el Máster en Ingeniería Informática y de Telecomunicación de la Escuela Politécnica Superior de la UAM, así como el en Doctorado “El lenguaje humano” de la Facultad de Filosofía y Letras. En este período el grupo ha dirigido además un total de 15 Trabajos de Iniciación a la Investigación.

Las líneas de trabajo actuales del grupo son:

  1. Creación de recursos multilingües en formato electrónico, actividad en la que destaca dentro del panorama nacional e internacional. Entre los corpus compilados destacan los dedicados a la lengua española espontánea: CORLEC, C-ORAL-ROM y CHIEDE. Estos corpus incluyen la transcripción, el sonido alineado y anotación fonológica, silábica, morfosintáctica y semántica. Igualmente se han desarrollado corpus escritos en español como el Corpus de referencia de la lengua española en Argentina y Chile, el Spanish UAM Treebank. Otra de sus actividades destacadas es la creación de recursos en otras lenguas, como el corpus paralelo en árabe, español e inglés, un lexicón en francés-español, y corpus orales en desarrollo sobre el japonés, el árabe y el chino. Algunos de estos recursos se comercializan a través de la European Linguistic Distribution Agency (ELDA), otros están a disposición de los investigadores bajo licencia gratuita. Estos recursos son imprescindibles para diseñar, entrenar y evaluar cualquier tipo de sistema de procesamiento automático que incluya contenido multimedia.
  2. Recuperación y Extracción de Información, con especial énfasis en la recuperación de información personalizada y en contexto, los sistemas de recomendación, la predicción de eficacia y el uso de tecnologías semánticas. La actividad científico-técnica ha dado asimismo como producto el desarrollo de tecnología (módulos software, prototipos, demostradores), recursos de prueba y metodologías orientados a las líneas señaladas (perfilado de usuario, modelado de contexto, recomendación y filtrado colaborativo, motor semántico). Varios de estos recursos están actualmente en vías de puesta a punto para su distribución bajo licencia pública.
  3. Transcripción automática de habla espontánea enfocada a la resolución de tareas como el reconocimiento automático del locutor (reconocer al hablante a partir de una grabación de su voz) y el reconocimiento de idioma (reconocer la lengua en la que se está hablando en un determinado segmento de voz).

Entre las realizaciones más destacables de los últimos cinco años, cabe mencionar, por un lado, la participación en proyectos europeos del FP6 como aceMedia (FP6-001765) y MESH (FP6-027685); proyectos de I+D del Plan Nacional como Recuperación de información sobre distintos medios basada en modelos multidimensionales: relevancia, novedad, personalización y contexto (TIN2008-06566-C04-02), Scaleable semantic personalised search of spoken and written contents on the semantic web (TIN2005-06885), Automatic knowledge organization, data analysis and dynamic document generation on the semantic web (TIC2002-1948), RILARIM (TIN2004-07588-C03-02) y BRAVO-RL (TIN2007-67407-C03-02), el proyecto CENIT i3media (CENIT-2007-1012), la red temática nacional Web Semántica (TSI2006-26928-E), y varios otros proyectos de colaboración con empresas con financiación PROFIT y de programas del CDTI. Complementariamente a los proyectos, las estancias e intercambios con centros de excelencia son otra prioridad en las actividades del grupo. Cabe mencionar varias estancias pre- y post-doctorales en MIT, New York University, DFKI, University of Edimburgh, Universität Wien, University of Glasgow, University of Southampton, Open University, University of Maryland) y contactos con centros de investigación de empresas tecnológicas (IBM, Telefónica I+D y Yahoo! Research).

 
RocketTheme Joomla Templates