Investigadores del DCC reciben el Best Paper Award en conferencia internacional

El artículo titulado “Smallest Suffixient Sets as a Repetitiveness Measure”, desarrollado por el académico del Departamento de Ciencias de la Computación, Gonzalo Navarro, junto a Cristián Urbina, Doctor en Computación de la Universidad de Chile, y Giuseppe Romana, estudiante de doctorado de la Universidad de Palermo (Italia), fue distinguido con el Best Paper Award en la reciente edición del International Symposium on String Processing and Information Retrieval (SPIRE), realizada en Londres, Inglaterra.

“El paper avanza en la comprensión de una medida de repetitividad propuesta recientemente”, destaca el profesor Navarro. Comenta que uno de los grandes desafíos en las últimas décadas es hacer frente a la gran cantidad de datos que se están generando en todos los ámbitos, de modo de poder no sólo almacenarlos sino sobre todo aprovecharlos de manera eficiente. “Algo que nos permite manejar esos volúmenes de datos es que en muchas aplicaciones éstos son repetitivos, por ejemplo, existen grandes colecciones de genomas humanos secuenciados, que ocupan miles de terabytes, pero dos genomas difieren muy poco entre sí. Aprovechar esta repetitividad permite manejar colecciones mucho mayores de lo que podríamos hacer si no fuera éste el caso. El estudio de las formas de medir la repetitividad nos permite saber hasta cuánto se pueden comprimir estos datos y cuál es el precio, en espacio de almacenamiento, de ofrecer distintos tipos de funcionalidades sobre ellos”. 

En este contexto, el artículo premiado propone y analiza una nueva medida de repetitividad, que permite comprimir datos aún más que técnicas anteriores, manteniendo la posibilidad de realizar búsquedas eficientes dentro de la colección. Por ejemplo, posibilita encontrar ocurrencias de un patrón dado sin necesidad de descomprimir todo el contenido.

Se trata de un trabajo teórico con alto potencial de estimular investigación más aplicada, “por ejemplo —señala el académico— permitiría desarrollar representaciones comprimidas basadas en esta medida que permitan representar colecciones repetitivas en forma muy compacta y permitir ciertos tipos de búsquedas sobre la colección comprimida, sin descomprimirla”. El comité evaluador de SPIRE destacó la elegancia del desarrollo teórico y la claridad de las demostraciones presentadas en el artículo.

SPIRE es una conferencia internacional que reúne a investigadores en procesamiento de secuencias (strings) y recuperación de información, siendo un espacio ideal para compartir avances en el manejo de información textual, desde secuencias de ADN hasta lenguaje natural. Fundada en los años 90 en Sudamérica, SPIRE mantiene una fuerte conexión con la región, alternando sus sedes entre América Latina y otros continentes, lo que ha facilitado la integración de estudiantes e investigadores latinoamericanos al ecosistema científico global en esta área.

--
Comunicaciones DCC

  • Tags