Investigador Jesús Pérez-Martin obtiene el grado de Doctor en Computación

Con una investigación orientada a tender puentes entre la visión computacional y el lenguaje natural, el investigador Jesús Pérez-Martin obtuvo el grado de Doctor en Computación por la Universidad de Chile, el máximo reconocimiento académico otorgado por nuestra casa de estudios. Su trabajo doctoral fue guiado por el profesor del DCC, Benjamín Bustos.

La tesis, titulada “Video-Text Translation for Bridging Vision and Language”, aborda uno de los desafíos centrales de la inteligencia artificial actual: cómo traducir información entre video y texto en ambos sentidos. Por un lado, busca que una máquina sea capaz de ver un video y describirlo mediante frases naturales —por ejemplo, generando subtítulos—; y, por otro, que pueda generar un video coherente a partir de una descripción textual, como una consulta de búsqueda. “De video a texto, es decir, que una máquina vea un video y lo describa con frases naturales; y de texto a video, que a partir de una frase la máquina genere un video coherente”, explica Pérez-Martin.

Las principales contribuciones de esta investigación se concentran en el área de subtitulación automática de video (video captioning) y en el desarrollo de modelos que integran de mejor manera información visual, semántica y sintáctica, permitiendo generar descripciones más precisas, expresivas y gramaticalmente correctas. Entre los aportes destacan un modelo que decide dinámicamente qué tipo de información priorizar durante la generación de texto (ICPR 2020); el enfoque SemSynAN, publicado en WACV 2021, con resultados de vanguardia en los conjuntos de datos MSVD y MSR-VTT; y propuestas para subtitulación densa y en línea, capaces de detectar y describir eventos a medida que ocurren. Además, su trabajo incluye un enfoque de texto a video orientado a e-commerce, combinando traducción automática neuronal y modelos generativos de video.

Durante su investigación, Jesús Pérez-Martin enfrentó desafíos como identificar la información relevante en videos complejos, cerrar la brecha entre visión y lenguaje para generar descripciones coherentes y precisas, y abordar las exigencias de la subtitulación densa y en línea, que impone fuertes restricciones temporales. A ello se suman las dificultades asociadas a la calidad de los datos y las métricas de evaluación, especialmente en generación de video, así como las particularidades del dominio de e-commerce, caracterizado por consultas breves, ruidosas y multilingües.

Próximos desafíos

Antes de iniciar su doctorado, Jesús Pérez-Martin obtuvo el grado de Bachiller en Ciencias de la Computación en la Universidad de La Habana (Cuba). Sus líneas de investigación incluyen video captioning, dense video captioning, text-to-video generation y traducción automática neuronal, con énfasis en aplicaciones de e-commerce y entornos multilingües. Durante su doctorado, publicó trabajos en conferencias internacionales de alto impacto como ICPR y WACV.

Tras obtener el grado de Doctor, Jesús espera continuar desarrollando investigación en el área de Visión y Lenguaje, con un fuerte énfasis en su aplicación en sistemas reales. Actualmente se desempeña como Staff Data Scientist en Walmart, donde trabaja en soluciones de inteligencia artificial aplicadas a contenido y experiencia de usuario en e-commerce. “Quiero profundizar y escalar esta línea desde un contexto aplicado, transfiriendo los avances en modelos multimodales a productos y sistemas en producción”, señala. Asimismo, no descarta la posibilidad de realizar un postdoctorado en temas relacionados con modelos multimodales, evaluación y enfoques en línea, manteniendo siempre un foco práctico.

Resumen de la tesis

Esta tesis aborda la conversión bidireccional entre video y texto. Para video→texto, propone modelos que mejoran la calidad de las descripciones al integrar señales visuales con representaciones semánticas y sintácticas, logrando resultados destacados en benchmarks estándar. Para subtitulación densa, introduce un método de un solo paso capaz de detectar y describir eventos en modo online. Para texto→video, presenta un pipeline orientado a e-commerce que combina traducción neuronal (español→inglés) y ajuste fino de un generador de video para sintetizar clips centrados en productos, evaluados con FVD.

--
Comunicaciones DCC

 

  • Tags