“Learning to Rank Social Knowledge for Question Answering in Streaming Platforms” es el título de la tesis con la que el investigador, José Miguel Herrera, obtuvo el grado de Doctor en Computación de la Universidad de Chile.
El trabajo guiado por la profesora del DCC, Bárbara Poblete, coguiado por el profesor Denis Parra (UC); y evaluado por los académicos, Aidan Hogan (UChile), Marcelo Mendoza (UTFSM), Mounia Lalmas (Spotify) y Pablo Barceló (UChile), analiza la factibilidad de emplear microblogs, como por ejemplo, Twitter, para resolver necesidades de información sobre cierto tipos de preguntas.
“En particular, estudiamos los llamados ‘hilos de conversaciones’ que se producen en Twitter, porque suelen contener mayor cantidad de información que un tweet y analizamos las características que poseen las respuestas más relevantes, dada una necesidad de información inicial", explicó José Miguel Herrera.
Para realizar su trabajo, el también ingeniero y magíster en ciencias de la computación de la Universidad Técnica Federico Santa María (UTFSM), siguió una serie de pasos. Primero, asignó a los “tweets” más de 60 atributos, entre los cuales incluyó interacciones sociales de los participantes, estructuras de contenido o textos, tiempos de demora de respuestas y cantidad de respuestas incluidas en una conversación.
A continuación, creó y aplicó una metodología para recuperar potenciales respuestas y ordenarlas de acuerdo a su relevancia por medio de cuatro métodos de ranking. El procedimiento, que contempló la realización de más de 800 experimentos en aproximadamente cinco meses, fue evaluado de manera automática en base a un conjunto de preguntas etiquetadas con las respuestas correctas (o relevantes). Los resultados confirmaron su capacidad para posicionar “tweets” relevantes en los primeros lugares de una lista configurada de acuerdo a criterios de relevancia.
“Nuestro trabajo demostró que los atributos de texto asignados a las publicaciones de Twitter son claves para determinar buenas respuestas. En cuanto a las connotaciones sociales de los textos analizados, probaron ser útiles para indicar el grado de pertinencia de los contenidos o ‘tweets’ candidatos a mejor respuesta”, aclaró el investigador.
Pese a que nunca había realizado una investigación en el área de datos, José Miguel Herrera destacó que la elección del tema de su tesis doctoral se debió al gran potencial que vio en la disciplina. Hoy, gracias al trabajo llevado a cabo con los profesores, Bárbara Poblete y Denis Parra, agregó a su línea de especialización inicial en sistemas computacionales, nuevas áreas de conocimiento. Entre ellas se cuentan medios sociales (social media), búsqueda social (social search), recuperación de información (information retrieval), procesamiento del lenguaje natural (natural language processing), sistemas de preguntas y respuestas (Q&A), aprendizaje profundo (deep learning) y sistemas de ranking.
“Estoy abierto a muchos otros temas de investigación relacionados con datos”, aseguró el doctor en Computación del DCC. Y aunque, en el corto plazo, descarta planes de realizar un postdoctorado, su idea es permanecer como científico de datos de la Dirección de Innovación y Transferencia Tecnológica del Instituto Milenio Fundamentos de los Datos (IMFD), cargo en el cual trabaja desde enero 2019.
La tesis doctoral de José Miguel Herrera está vinculada con tres artículos de investigación: “Retrieving Relevant Conversations for Q&A on Twitter” (J Herrera, D Parra, B Poblete), presentado en la conferencia SIGIR 2015; “Learning to Leverage Microblog Information for QA Retrieval” (J Herrera, B Poblete, D Parra), expuesto en la Conferencia Europea en Recuperación de Información (ECIR, 2018); y un tercer trabajo actualmente en revisión, por parte de una revista científica.